

100 Vokabel-Decks per Batch über die 2Slides-API erzeugen (Content-Factory-Playbook 2026)
Sobald Sie den manuellen Workflow validiert haben — ein Vokabeldeck erzeugen, vertonen, Assets exportieren — ist der nächste Engpass das Volumen. Eine Sprachschule mit 12 Niveaus und 30 Wochenthemen braucht 360 Decks im Jahr. Ein täglich postender Faceless-TikTok-Kanal braucht 365 Decks plus Format-Varianten. Ein Content-Team eines EdTech-Unternehmens braucht hunderte Decks segmentiert nach L1/L2-Paaren.
360 Decks baut man nicht von Hand. Man baut eine Content Factory.
Dieser Leitfaden ist das praktische 2026-Playbook für die Batch-Erzeugung von Vokabel-Decks (und beliebigem Folien-Content) mit der 2Slides API. Die wichtigste architektonische Entscheidung — und am häufigsten falsch getroffen — ist die Wahl des richtigen Generierungs-Endpoints.
Das richtige Endpoint zuerst wählen (hier brechen die meisten Factories)
2Slides exponiert über die API zwei Generierungs-Flows. Nur einer erzeugt Decks, die anschließend vertont werden können.
| Endpoint | Ergebnis | Vertonung möglich? | Credits |
|---|---|---|---|
POST /api/v1/slides/generate | Fast PPT — vorlagenbasierte PPTX. Erfordert eine themeId | nein. Das Vertonungs-Endpoint lehnt Jobs von hier explizit ab. | 10 / Seite |
POST /api/v1/slides/create-pdf-slides | Nano Banana — bildgenerierte Folien aus Textprompt. Gleiche Engine wie Workspace. | ja | 10 (Planung) + 100 / Folie (1K/2K) oder 200 / Folie (4K) |
POST /api/v1/slides/create-like-this | Nano Banana — bildgenerierte Folien zu Referenzbild. | ja | wie oben |
Für eine Vokabelkarten-Content-Factory mit Vertonung und exportierbarem Audio nutzen Sie create-pdf-slidescreate-like-this
/api/v1/slides/generateWenn Ihre Factory nur stille PPTX (kein Audio, kein Video) braucht, ist Fast PPT via
/api/v1/slides/generateDie Architektur in einem Diagramm
[Quelldaten] [Orchestrator] [2Slides API] [Outputs] │ │ │ │ Vokabel- ──Prompt──▶ Job-Queue ──POST──▶ /api/v1/slides/create-pdf-slides ──▶ jobId (UUID) Tabelle (Cron/Skript) │ │ │ │ │ │ Poll ──GET──▶ /api/v1/jobs/{jobId} ◀─────────────────────────────┘ alle 20-30s status: success │ │ ▼ │ [pages slides PNG · downloadUrl PDF] │ ▶ POST /api/v1/slides/generate-narration │ (jobId, voice, mode, etc.) — nur async │ Poll ──GET──▶ /api/v1/jobs/{jobId} message: "Voice narration generation in progress" → success │ ▶ POST /api/v1/slides/download-slides-pages-voices │ (kostenlos; liefert ZIP) ▼ pages/*.png + voices/*.{wav,mp3} + transcript.txt │ ▼ (Optional) MP4 client-seitig komponieren mit FFmpeg, oder über Workspace-UI │ ▼ [LMS / TikTok / Newsletter / S3]
Quelldaten → Orchestrator → API → ZIP aus Pages und Voices → Distribution. MP4-Komposition ist optional und kein öffentliches API-Endpoint Stand 2026 — sie ist ein Workspace-UI-Feature mit FFmpeg.wasm im Browser. API-seitig erhalten Sie das Pages-und-Voices-ZIP, das Sie mit
ffmpegSchritt 1 — Quellschema zuerst entwerfen
Der größte Hebel ist die Definition des Quelldatenschemas vor jedem API-Aufruf. Decks aus sauberem Schema sind reproduzierbar; Decks aus Ad-hoc-Prompts nicht.
Eine skalierbare Vokabel-Deck-Quellzeile:
deck_id: vocab-b1-travel-2026-w14 source_l1: en # Muttersprache des Lerners target_l2: es # Zielsprache cefr_level: B1 theme: travel words: - { word: "boarding pass", ipa: "/ˈbɔːrdɪŋ pæs/", pos: noun, l1: "tarjeta de embarque" } - { word: "layover", ipa: "/ˈleɪoʊvər/", pos: noun, l1: "escala" } - { word: "to delay", ipa: "/dɪˈleɪ/", pos: verb, l1: "retrasar" } # ... 27 weitere generation: endpoint: create-pdf-slides aspect_ratio: "9:16" # vertikal für Kurzform-Wiederholung resolution: "2K" page_count: 30 content_detail: "concise" narration: enabled: true voice: "Puck" # Voice-Katalog unter /tts_sample_voices mode: "single" distribution: social: [tiktok, reels, shorts] newsletter: monday-2026-w14
Dieses Objekt ist die Arbeitseinheit. Alles Downstream konsumiert es.
Bauen Sie das Quellschema in dem, was Ihr Team bereits nutzt: Google Sheet für nicht-technische Teams, Postgres-Tabelle für Engineering, CMS mit strukturierten Feldern für Content-Teams. Vermeiden Sie reine Markdown-Dateien — gut für Menschen-Schreiben, schlecht für Batch.
Schritt 2 — Authentifizieren
API-Key auf der API-Verwaltungsseite holen. Format:
sk-2slides-{64-character-hex-string}
Alle Anfragen mit Bearer-Auth:
Authorization: Bearer sk-2slides-...
Endpoint-spezifische Rate Limits unter 2slides.com/api.md. Für Batchproduktion:
- und
create-pdf-slides: Queue um die Concurrency-Limits herum bauen, exponentielles Backoff bei 429create-like-this - (Polling): Polling-Frequenz unten respektieren — 20–30 s, nicht aggressiv
jobs/{id} - : kostenlos und schneller, aber rate-limited
download-slides-pages-voices
Schritt 3 — Nano-Banana-Generierungsjob abschicken
Vokabelkarten laufen am besten async (die Bildgenerierung pro Folie dauert 1–3 Minuten für 30 Karten).
curl -X POST "https://2slides.com/api/v1/slides/create-pdf-slides" \ -H "Authorization: Bearer sk-2slides-..." \ -H "Content-Type: application/json" \ -d '{ "userInput": "<Ihr deckförmiger Prompt — siehe Schritt 4>", "responseLanguage": "en", "aspectRatio": "9:16", "resolution": "2K", "page": 30, "contentDetail": "concise", "mode": "async" }'
Die Antwort enthält die
jobIdcurl -X GET "https://2slides.com/api/v1/jobs/{jobId}" \ -H "Authorization: Bearer sk-2slides-..."
Polling-Frequenz: alle 20–30 Sekunden. Nicht schneller — die API-Doku weist explizit darauf hin, aggressives Polling ist die häufigste Ursache für 429. Die meisten Decks sind in 1–3 Minuten fertig.
Bei
status: "success"downloadUrlSchritt 4 — Skalierfeste Prompt-Templates bauen
Der größte Unterschied zwischen einer wackligen und einer stabilen Factory sind Prompt-Templates. Schreiben Sie keine Prompts pro Deck zur Laufzeit. Definieren Sie ein Template pro Deck-Typ und füllen Werte ein.
Vokabel-Deck-Template (
userInputGenerate a {{cefr_level}}-level vocabulary deck for {{source_l1}}-speaking learners of {{target_l2}}. Theme: {{theme}}. Number of cards: {{word_count}}. For each card, output exactly: - Target word (in {{target_l2}}) - Part of speech - IPA transcription - Translation in {{source_l1}} - Two example sentences in natural {{theme}} context, B1 syntax, 8–14 words each Words to include: {{word_list_yaml}} End with a 3-card recap of the most useful 3 words from the deck.
Visueller Stil über
designStyleSchritt 5 — Vertonung anhängen
Sobald der Generierungsjob
status: "success"jobIdcurl -X POST "https://2slides.com/api/v1/slides/generate-narration" \ -H "Authorization: Bearer sk-2slides-..." \ -H "Content-Type: application/json" \ -d '{ "jobId": "550e8400-e29b-41d4-a716-446655440000", "mode": "single", "voice": "Puck", "speakerName": "Vocabulary Coach", "contentMode": "concise", "includeIntro": true }'
Dann erneut
/api/v1/jobs/{jobId}Zwei Voice-Patterns für Vokabelkarten:
- mit einer Stimme — geradlinig: Wort + IPA + Satz
mode: "single" - mit zwei Stimmen — Beispielsätze auf Sprecher aufgeteilt, ideal für Verben und Idiome
mode: "multi"
Voice-Katalog unter
/tts_sample_voices/PuckAoedeCharonKoreWichtig: Dieses eine Endpoint erzeugt sowohl Voice-Text als auch Voice-Audio. Keine separaten „Voice-Text"- und „Voice-Audio"-Endpoints aufrufen — die gibt es öffentlich nicht. Vertonung einmal konfigurieren, die API erledigt beides.
Schritt 6 — Pages und Voices exportieren (kostenlos)
Sobald die Vertonung fertig ist, alle Assets in einem ZIP holen:
curl -X POST "https://2slides.com/api/v1/slides/download-slides-pages-voices" \ -H "Authorization: Bearer sk-2slides-..." \ -H "Content-Type: application/json" \ -d '{ "jobId": "550e8400-e29b-41d4-a716-446655440000" }'
Die Antwort enthält eine
downloadUrlpages/ page_01.png page_02.png ... voices/ page_01.wav page_02.wav ... transcript.txt
Dieser Export ist kostenlos — keine Credits. ZIP herunterladen und Assets in Ihren Object Store legen. Die Presigned-URL läuft nach 1 Stunde ab.
Schritt 7 — (Optional) MP4 serverseitig komponieren
Die 2Slides API bietet derzeit kein MP4-Komposition-Endpoint — MP4-Erzeugung lebt im Workspace-UI über FFmpeg.wasm im Browser. In einer Content Factory komponieren Sie MP4 serverseitig mit
ffmpeg# Pro Seite einen Clip aus (Bildstandbild) + (Voice-Audio). ffmpeg -loop 1 -i pages/page_01.png -i voices/page_01.wav \ -c:v libx264 -tune stillimage -c:a aac -b:a 192k \ -pix_fmt yuv420p -shortest clips/page_01.mp4 # Alle Per-Page-Clips zur finalen MP4 zusammenführen. ffmpeg -f concat -safe 0 -i clip_list.txt -c copy final.mp4
Audio-Kadenz pro Seite ist das, was der Vertonungsgenerator produziert hat — meist 5–12 Sekunden pro Folie für Vokabelkarten. Ergebnis ist dieselbe MP4, die ein Nutzer aus dem Workspace-UI herunterladen würde, nur headless in Ihrer Pipeline.
Wer dasselbe Deck vertikal (9:16) und horizontal (16:9) braucht: am saubersten das Deck zweimal mit unterschiedlichem
aspectRatio"9:16""16:9"Schritt 8 — Den Orchestrator bauen
Ein minimaler Orchestrator behandelt fünf Schleifen:
# Pseudocode while there_is_work(): deck = pull_one_pending_deck_from_source() if not deck: sleep(60); continue # 1. Folien via Nano-Banana-Endpoint generieren job = post("/api/v1/slides/create-pdf-slides", body=build_payload(deck)) deck_artifact = poll_until_complete(job.data.jobId) # 2. Vertonen (nur async) if deck.narration.enabled: post("/api/v1/slides/generate-narration", body={ "jobId": deck_artifact.id, "voice": deck.narration.voice, "mode": deck.narration.mode, }) poll_until_narration_complete(deck_artifact.id) # 3. Pages + Voices ZIP exportieren (kostenlos) zip_url = post("/api/v1/slides/download-slides-pages-voices", body={"jobId": deck_artifact.id}) # 4. Assets herunterladen und im eigenen Object Store ablegen download_to_s3(zip_url, deck.id) # 5. (Optional) MP4 mit ffmpeg komponieren, dann verteilen if deck.distribution.social: compose_mp4(deck.id) distribute(deck)
Auf einem Worker mit Queue laufen lassen. Für 100 Decks pro Tag genügt ein Worker. Für 1,000+ einen kleinen Worker-Pool — der aber die Endpoint-Rate-Limits respektieren muss, nicht nur die Worker-Zahl.
Schritt 9 — Distributionsmuster
Die Distribution wandelt Artefakte in Geschäftswert um:
- LMS: komponierte MP4 via API in Canvas / Moodle / Blackboard / Google Classroom hochladen
- TikTok / Reels / Shorts: 9:16-MP4 in ein Posting-Tool (Buffer, Later, nativer Scheduler) einreihen, eines pro Tag
- Newsletter: PDF-Kompilation (aus der des Originaljobs) als Download im Wochen-Issue verlinken
downloadUrl - Sales / Lead-Magnet: PDF auf Stan Store / Gumroad hochladen; Carousel-Teaser treibt Traffic
Distribution nicht selbst neu erfinden. Plattform-eigene APIs nutzen und Orchestrator eine Zeile im Scheduler ablegen lassen.
Kostenrechnung (zuerst planen)
Für Nano-Banana-Decks mit Vertonung summieren sich Credits schneller als beim Fast-PPT-Pricing, das man vielleicht kennt. Mathematik pro 30-Karten-Deck (1K/2K, mit Vertonung):
- Planung: 10 Credits
- Folienerzeugung: 30 × 100 = 3,000 Credits
- Vertonung (Text + Audio): 30 × 210 = 6,300 Credits
- Pages-+-Voices-Export: 0 Credits (kostenlos)
- Gesamt: ~9,310 Credits pro vertontem 30-Karten-Deck
Ohne Vertonung ~3,010 Credits. Bei 4K den Folienanteil verdoppeln: 30 × 200 = 6,000 → ~12,310 Credits mit Vertonung.
Für eine 100-Decks/Monat-Factory: 100 × 9,310 = ~931,000 Credits/Monat. Mit der Preisseite abgleichen — und 4K nur dort budgetieren, wo es zählt (große Bildschirme, Premium-Video). Für TikTok/Reels-Reviews reicht 1K oder 2K.
Operative Muster, die Brände verhindern
Idempotenz
Jede Deck-Übermittlung idempotent auf
deck_id(deck_id, status)pending → generating → narrating → exporting → composed → distributedQuality Gates
Nicht automatisch verteilen. Vor TikTok oder Canvas einen maschinenlesbaren Qualitätscheck auf das Artefakt:
- Seitenzahl entspricht Anforderung
- ZIP enthält erwartete Anzahl und
pages/page_NN.pngvoices/page_NN.wav - Audiodauer pro Seite zwischen 3 und 15 Sekunden (eine 30-Sekunden-Karte heißt fast immer halluziniertes Skript)
- ist nicht leer und enthält die Zielwörter
transcript.txt
Für die ersten 50 Batches zusätzlich manuelle Stichprobe 1 von 10 Decks. Dort tauchen systemische Promptprobleme auf.
Versionierung
Jedes Artefakt speichert: Prompt-Template-Version, Bildmodell-Version (
gemini-3-pro-image-previewgemini-3.1-flash-image-previewKosten-Telemetrie
Jedes Deck hat einen bekannten Credit-Preis (siehe oben). Credits pro Deck tracken. Verdoppelt sich der Verbrauch unerwartet, hat sich etwas geändert (Seitendrift, Retries, 4K-Wechsel). Vor der Rechnung finden.
Fehlerbehandlung
Ein fehlgeschlagener Job ist normal — Netzaussetzer, Modelllast, seltener 5xx. Nach Backoff einmal retryen. Nach zwei Fehlern in eine
needs_humanBuild vs. Buy: Wann überhaupt die API?
Die API ist die richtige Antwort, wenn:
- Sie >10 Decks/Woche produzieren
- Strukturierte Quelldaten haben
- Vertonte MP4s brauchen, die Sie serverseitig komponieren und verteilen
- Mit LMS, Scheduler oder CMS integrieren
- Reproduzierbarkeit unter Prompt-Versionierung wollen
Die API ist Overkill, wenn:
- Sie 1 Deck pro Woche produzieren und visuell tunen
- Sie Lerner:in sind und Decks für sich selbst bauen (UI ist schneller — und das Workspace-UI macht die MP4-Komposition für Sie)
- Sie Lehrkraft sind und ein Deck pro Stunde bauen (Create Slides from File oder Create Slides Like This und Orchestrierung sparen)
Häufig gestellte Fragen
Woher bekomme ich einen API-Key?
2slides.com/api. Keys liegen im API-Verwaltungs-Tab.
Warum kann ich keine Vertonung an einen /api/v1/slides/generate-Job hängen?
/api/v1/slides/generateDas
generatecreate-pdf-slidescreate-like-thisKann ich MP4 direkt aus der API exportieren?
Nein, Stand 2026 nicht. MP4-Export ist ein Workspace-UI-Feature mit FFmpeg.wasm. API-Äquivalent ist
download-slides-pages-voicesffmpegWelche Sprachen unterstützt die API für die Generierung?
22+ Sprachen, darunter Spanisch, Französisch, Deutsch, Arabisch, Japanisch, Koreanisch, Hindi, Vietnamesisch, Russisch, Polnisch, Italienisch, Portugiesisch, Indonesisch, Thai, Türkisch und Chinesisch (vereinfacht/traditionell). Per
responseLanguageWas kosten die Credits?
Für Nano-Banana-Decks: 10 (Planung) + 100/Folie bei 1K/2K (oder 200/Folie bei 4K) für die Folienerzeugung, plus 210/Seite (10 Text + 200 Audio) für Vertonung. Pages-+-Voices-Export kostenlos. Ein vertontes 30-Karten-Deck in 2K liegt bei ~9,310 Credits. Siehe Preisseite und Kostenrechnung oben.
Wie behandle ich 429 Rate Limits?
Exponentielles Backoff. Start bei 1 s, Verdopplung bis 60 s. Nach drei aufeinanderfolgenden 429 Worker-Concurrency halbieren.
/api/v1/jobs/{id}Kann ich mit Zapier / Make / n8n integrieren?
Ja — jedes Tool, das authentifizierte HTTP-Requests stellen kann, treibt die 2Slides API. n8n ist für Content-Factories besonders beliebt, weil es Polling und Queues nativ behandelt.
Wie verhindere ich, dass generierte Decks öffentlich indexiert werden?
Per API erzeugte Decks sind standardmäßig privat zum Account. Öffentliches Teilen ist eine separate explizite Aktion.
Wie erzeuge ich vertikale (9:16) und horizontale (16:9) Versionen desselben Decks?
Deck zweimal generieren — einmal mit
aspectRatio: "9:16"aspectRatio: "16:9"Das Fazit
Eine Content Factory ist strukturiertes Quellschema + stabiler Orchestrator + die richtigen API-Endpoints. Die 2Slides API ist das dritte Stück; Sie verantworten die ersten zwei. Häufigster Factory-Fehler:
/api/v1/slides/generatecreate-pdf-slidescreate-like-thisgenerate-narrationdownload-slides-pages-voicesffmpegFür die manuelle Seite desselben Workflows siehe Vokabelkarten-Leitfaden und Creator-Workflow-Leitfaden. Die UI-Patterns dort sind dieselben Patterns, die Sie automatisieren; den manuellen Flow zu verstehen, beschleunigt die API-Integration deutlich.
About 2Slides
Create stunning AI-powered presentations in seconds. Transform your ideas into professional slides with 2slides AI Agent.
Try For Free