Wie Sie mit 2Slides KI-vertonten Präsentationsvideos erstellen

Was wäre, wenn Ihre Folien – buchstäblich – für sich selbst sprechen könnten? Mit 2Slides verwandeln Sie jede KI-generierte Präsentation in wenigen Minuten in ein professionelles, vertontes Video, komplett mit natürlich klingenden KI-Voiceovers.

Dieser Leitfaden führt Sie durch den gesamten Workflow: von der Generierung der Folien über das Hinzufügen von Sprachnarration bis zum Export eines fertigen MP4-Videos.

Was ist ein KI-vertontes Präsentationsvideo?

Ein KI-vertontes Präsentationsvideo kombiniert drei Elemente:

KI-generierte Folienbilder — professionelle Designs, erstellt aus Ihrer Texteingabe
KI-Sprachnarration — natürlich klingende Sprache, generiert aus Ihrem Folieninhalt
Videoausgabe — ein selbstablaufendes MP4-Video, das Folien mit Sprachaudio synchronisiert

Das Ergebnis ist eine Videopräsentation, die aussieht und klingt, als wäre sie von einem professionellen Studio produziert worden – benötigt aber Minuten statt Stunden.

Warum vertonte Präsentationsvideos erstellen?

Vertonte Videos lösen echte Probleme in verschiedenen Branchen:

Asynchrone Kommunikation: Kontext teilen, ohne Meetings ansetzen zu müssen
Schulung & Onboarding: Selbstgesteuerte Lernmaterialien erstellen
Daten-Storytelling: Lassen Sie Ihre Datengeschichte mit Sprachführung entfalten
Social-Media-Inhalte: Vertikale (9:16) Videos für Instagram, TikTok und LinkedIn produzieren
Sales Enablement: Personalisierte Pitch-Videos senden, die Interessenten jederzeit ansehen können
Barrierefreiheit: Sprachnarration macht Inhalte für visuelle Lerntypen und Menschen mit Leseschwierigkeiten zugänglich

Schritt für Schritt: Ein vertontes Video mit 2Slides erstellen

Schritt 1: Ihre Folien generieren

Beginnen Sie, indem Sie eine Präsentation im 2Slides-Arbeitsbereich erstellen:

Geben Sie Ihr Thema ein oder fügen Sie Ihren Inhalt ein
Wählen Sie eine Designvorlage (über 15 professionelle Stile, darunter McKinsey, Apple, Saul Bass)
Oder nutzen Sie Create-Like-This, um ein bestehendes Foliendesign zu klonen
Die KI generiert alle Folienseiten mit professionellen Bildern

Schritt 2: Sprachnarration konfigurieren

Sobald Ihre Folien fertig sind, konfigurieren Sie die Spracheinstellungen:

Einen Narrationsmodus wählen:

Einzelsprecher: Ein durchgängiger Sprecher während der gesamten Präsentation
Mehrere Sprecher: Zwei Sprecher in einem natürlichen Konversationsformat – ideal für Podcasts, Interviews und fesselndes Storytelling

Aus 30 KI-Stimmen wählen:

2Slides bietet 30 natürlich klingende Stimmen, die von Googles neuesten TTS-Modellen angetrieben werden. Jede Stimme hat eine eigene Persönlichkeit:

Voice	Tone	Best For
Puck	Upbeat, energetic	Marketing, product demos
Kore	Warm, professional	Corporate training
Charon	Firm, authoritative	Financial reports
Fenrir	Excitable, dynamic	Education, storytelling
Aoede	Breezy, conversational	Podcast-style content
Zephyr	Bright, clear	Sales pitches

...und 24 weitere Stimmen, die zu jedem Ton passen.

Inhaltsdichte wählen:

Prägnant: Kurze, stichpunktartige Narration (~30 Sekunden pro Folie)
Standard: Detaillierte, fesselnde Erklärungen (~60-90 Sekunden pro Folie)

Schritt 3: Sprachtext generieren

Klicken Sie auf Generate Voice Text, um das Narrationsskript zu erstellen. Die KI:

Analysiert den Inhalt und die visuellen Elemente jeder Folie
Schreibt eine natürliche Narration, die fließend zwischen den Folien übergeht
Fügt Übergänge, Betonungen und Storytelling-Elemente hinzu
Im Mehrsprecher-Modus erstellt sie einen natürlichen Dialog zwischen zwei Stimmen

Kosten: 10 Credits pro Folienseite

Sie können den generierten Text überprüfen und bearbeiten, bevor Sie fortfahren.

Schritt 4: Sprachaudio generieren

Klicken Sie auf Generate Voice Audio, um die Sprache zu synthetisieren:

Jede Folie erhält eine hochwertige WAV-Audiodatei
Jede Audiodatei mit dem integrierten Player vorhören
Einzelne Folien bei Bedarf neu generieren

Kosten: 200 Credits pro Folienseite

Schritt 5: Video exportieren

Nachdem alle Folien vertont wurden, klicken Sie im Export-Menü auf Generate Video:

Seitenverhältnis wählen:
- 16:9 (1920x1080) — Standardpräsentationen, YouTube, Webinare
- 4:5 (1080x1350) — Instagram-Posts, LinkedIn-Feed
Die Videogenerierung erfolgt clientseitig mit FFmpeg.wasm – Ihre Daten verlassen niemals Ihren Browser
Das fertige H.264 MP4-Video herunterladen

Kosten: 20 Credits pro Folienseite

Kostenbeispiel insgesamt

Für ein vertontes Video mit 10 Folien:

Step	Per Slide	Total
Slide generation	~100 credits	1,000
Voice text	10 credits	100
Voice audio	200 credits	2,000
Video export	20 credits	200
Total		3,300 credits

Mit 2Slides Pro für 12,50 $/Monat (10.000 Credits) können Sie 3 vollständige vertonte Videos pro Monat produzieren – oder mehr bei kürzeren Präsentationen.

API-Integration: Vertonte Videos automatisieren

Entwickler können den gesamten Workflow über die 2Slides API automatisieren:

# Step 1: Generate slides with Nano Banana (required for narration)
POST /api/v1/slides/create-pdf-slides
{
  "userInput": "Q1 2026 Financial Results Overview",
  "designStyle": { "global": { "referenceImageUrl": "..." } }
}

# Poll until completed
GET /api/v1/jobs/{jobId}

# Step 2: Generate narration for all pages
POST /api/v1/slides/generate-narration
{
  "jobId": "your-job-id",
  "mode": "multi",
  "speaker1Name": "Analyst",
  "speaker2Name": "Host",
  "speaker1Voice": "Charon",
  "speaker2Voice": "Aoede",
  "contentMode": "standard"
}

# Step 3: Download all assets
POST /api/v1/slides/download-slides-pages-voices
{
  "jobId": "your-job-id"
}

Hinweis: Sprachnarration erfordert Nano Banana Jobs (
create-like-this
oder
create-pdf-slides
). Standard Fast PPT Jobs unterstützen keine Narration.

Die API gibt eine ZIP-Datei zurück, die alle Folienbilder, Sprach-Audiodateien und ein vollständiges Transkript enthält – bereit für die Videozusammenstellung in Ihrer Pipeline.

Mehrsprachige Narration

2Slides erkennt automatisch die Sprache Ihres Folieninhalts und generiert die Narration in der passenden Sprache:

Englisch — Standard
Japanisch — erkannt anhand von Hiragana, Katakana, Kanji
Chinesisch — erkannt anhand von Hanzi-Zeichen
Koreanisch — erkannt anhand von Hangul

Dieselbe Auswahl von 30 Stimmen funktioniert in allen unterstützten Sprachen mit natürlicher Aussprache.

Häufig gestellte Fragen

Wie lange dauert die Generierung eines vertonten Videos?

Für eine Präsentation mit 10 Folien: Die Generierung des Sprachtextes dauert ca. 30 Sekunden, das Sprachaudio ca. 2 Minuten und der Videoexport ca. 2 Minuten. Gesamt: unter 5 Minuten.

Kann ich das Narrationsskript vor der Audiogenerierung bearbeiten?

Ja. Nach der Generierung des Sprachtextes können Sie die Narration jeder Folie im Arbeitsbereich überprüfen und bearbeiten, bevor Sie das Audio generieren.

Welche Videoformate werden unterstützt?

2Slides exportiert H.264 MP4-Videos – universell kompatibel mit YouTube, sozialen Medien, LMS-Plattformen und allen gängigen Videoplayern.

Sind meine Daten während der Videogenerierung sicher?

Ja. Die Videokodierung erfolgt vollständig in Ihrem Browser mit FFmpeg.wasm. Ihre Folienbilder und Audiodateien werden nicht zur Videoverarbeitung an einen Drittanbieter-Server gesendet.

Kann ich die API zur Videogenerierung nutzen?

Die API unterstützt die Generierung von Folien und Sprachnarration. Die Videozusammenstellung kann clientseitig oder mit Ihrer eigenen FFmpeg-Pipeline unter Verwendung der heruntergeladenen Assets erfolgen.

Jetzt starten

Melden Sie sich bei 2Slides an — kostenlose Test-Credits inklusive
Erstellen Sie Ihre erste Präsentation
Fügen Sie Sprachnarration hinzu und exportieren Sie das Video
Teilen Sie Ihr vertontes Video überall

Verwandeln Sie Ihre Präsentationen in professionelle vertonte Videos – probieren Sie 2Slides jetzt aus.