DEEN
🎤 Deutschrap · 90 BPM · Boom-Bap · 1999 Mini-DV Look

Helmut & die
Tausend Euro

Von einer Tagesschau-Meldung zum KI-Deutschrap-Musikvideo — mit Helmut, dem freundlichen Yeti-MC. End-to-end aus Claude Code orchestriert.

3:53 Laufzeit 🎬 21 Szenen 🔄 1 Genre-Pivot 🧪 5 Modelle getestet 💸 ~$90 realer Spend
▶ DAS FERTIGE MUSIKVIDEO · 3:53
↓ SO BEGANN ES
Wie alles begann

Es war gar kein Rap-Projekt.

Es startete als Schlager-Idee: „ein deutsches Lied über die heutigen Nachrichten". Aus einer Tooling-Recherche wurde ein Genre-Pivot, eine Casting-Runde und schließlich eine ganze Pipeline.

Funke · Recherche

„Ein deutscher Schlager über die heutigen News"

Erste Frage war reine Werkzeug-Recherche: Welche KI-Tools für Text → Musik → Video? Antwort-Stack: News & Lyrics direkt im Chat, Suno für den Song, Veo/Kling/Seedance fürs Video, FFmpeg für den Schnitt.

„I'm thinking about creating a german schlager song about today's news with ai tools, potentially including a video."
Stoff · Die Nachricht

Die geplatzte 1000-€-Energieprämie

Aus den Tages-Headlines gewählt: der Bundesrat blockiert die versprochene steuerfreie 1000-€-Prämie. Perfekter Schlager-Bogen — Vorfreude → Enttäuschung → wir tanzen trotzdem. „Jeder hat 'ne Stromrechnung."

⚡ Der Pivot · Genre-Wechsel

Schlager → Late-90s Deutschrap

Der entscheidende kreative Sprung. Erst Schlager-Pop, dann die Stimme auf „gentle-giant Bariton" getrimmt — dann der komplette Genre-Pivot zu Fanta-4-/Fettes-Brot-/Beginner-Boom-Bap, 90 BPM, gerappte Strophen mit gesungenem Hook. Lyrics und Suno-Prompt komplett neu geschrieben.

„and now as a german rap style of late 90s early 2000s"
Casting · Die Figur

Ein Yeti namens Helmut

Vier Maskottchen evaluiert. Der Yeti gewinnt aus zwei Gründen: die Kälte-Metapher (ein Yeti, der wegen seiner Stromrechnung friert = peak Schlager-Selbstironie) und der KI-Trick — weißes Fell auf jedem Hintergrund = hoher Kontrast = Modelle halten ihn konsistent. Der Name „Helmut": warmer deutscher Onkel-Name, der in beiden Framings trägt — Schlager-Heimat-Vibe wie Deutschrap-Malocher.

Kniff · Kontinuität

Das Edelweiß-Medaillon

Beim Genre-Pivot wechselte die Garderobe komplett: Trachtenjanker → übergroßer Burgunder-Hoodie + DJ-Kopfhörer. Damit es derselbe Helmut bleibt, wandert ein winziges Edelweiß-Medaillon als Signatur mit — „still Helmut, just remixed".

Architektur · Pipeline

Aus Claude Code gesteuert

Letzter Recherche-Schritt: wie treibt man das aus Claude Code? Ergebnis — ein MCP-Gateway für die Modelle, scenes.json als Single Source of Truth, Scripts für Generate / Lip-Sync / Compose. Genau diese Struktur steht heute im Repo.

CAST
🧊

Helmut der Yeti

Kälte-Metapher + Konsistenz-Hack. Sofort adoptierbar.

2.
🧙

Gartenzwerg „Gernot"

Maximal deutsch — aber Proportionen tricky für KI-Video.

3.
🐻‍❄️

Eisbär „Eberhard"

Gleiche Kälte-Logik, aber Knut-Trope schon verbraucht.

WC
🌭

Hausmeister-Dackel

Sehr deutsch — Hunde driften in KI härter als Blob-Wesen.

Creative DNA

Was hat was gefüttert

Topisch, musikalisch, sprachlich — die Einflüsse hinter jeder Zeile.

📰 TOPISCH · HEADLINES VOM 12. MAI 2026
HEADLINEBundesrat blockiert die steuerfreie 1000-€-Energieprämie; Koalitionsausschuss tagt am Abend
zentraler Erzählbogen · „die Tausend bleiben Eis"
HEADLINEMerz' Reformagenda steckt im föderalen Stillstand
„Friedrich Merz hat 'nen Plan, doch der Plan hat 'nen Plan"
HEADLINESPD / CSU / CDU im Ausschuss-Hickhack
„reden, reden, reden — doch am Ende kein Beschluss"
VERWORFENCyberkriminalität / KI-Treiber · Ärztetag-Proteste
schwächerer Schlager-Bogen — kein „trotzdem tanzen"
🎧 MUSIKALISCHER STAMMBAUM
SCHLAGER · DRAFT 1 · VERWORFEN
Helene Fischer · Pop-Politur Mickie Krause · Bierzelt-Energie Andreas Gabalier · Volks-Rock-Bariton Hansi Hinterseer · alpine Wärme
⚡ GENRE-PIVOT ⚡
DEUTSCHRAP · ENTWICKELT
Fanta 4 — „MfG" · Bürokratie-Satire-Template Fettes Brot — „Jein" · Narrative + melodischer Hook Beginner · HH-Boom-Bap, Rhodes, Kontrabass Freundeskreis — „ANNA" · jazzige Bridge Eins Zwo · dichte Binnenreime Samy Deluxe · schärfere Sound-Option Smudo / Thomas D · König Boris · Vocal-Charakter
Suno filtert echte Artist-Namen inkonsistent → der Prompt übersetzt sie in Sound-Deskriptoren: „jazzy boom-bap, 90 BPM dusty drums, mellow Rhodes, warm upright bass, vinyl crackle, scratches".
🗣️ SPRACH-FORENSIK
„Pustekuchen"
Peak Boomer-Abfuhr — passt zum Bürokratie-Spott.
„Tinnitus"
Klingeln, dann weg — abstraktes Eins-Zwo/Dendemann-Wortspiel.
„Digga / Bruder"
Hamburg/Berlin-Rap-Ära — Authentizitäts-Marker.
Slang × Beamtendeutsch
„Pustekuchen" + „Föderalismus" in einer Strophe = Fanta-4/Fettes-Brot-Signatur.
Das Mischpult

Hör den Pivot — live

Drei Fassungen desselben Songs, ein Abspielkopf. Klick eine Spur oder zieh den Crossfader und blende live zwischen ihnen über — die Position läuft weiter, wie am DJ-Pult.

DECK A
Weiblich
Schlager · Draft 1
DECK B
Männlich
Schlager · Gentle Giant
DECK C
HipHop
Deutschrap · Final
◀ WEIBLICHMÄNNLICHHIPHOP ▶
0:000:00
90 BPM
A & B sind die verworfenen Schlager-Drafts · C ist die finale Version im Video
Das Ergebnis

„Heute kam die
Stromrechnung."

Drei Seiten lang. Dann die Hoffnung aus Berlin — bis der Bundesrat blockiert. Aus der Tagesschau wird ein Boom-Bap-Track im Geist von Beginner, Fettes Brot & Fanta 4.

Die Pipeline

Vom Newsticker zum Musikvideo

Jeder Schritt aus Claude Code gesteuert — Atlas Cloud als primäres Modell-Gateway, fal.ai für Lip-Sync.

01
📝

Konzept & Lyrics

Story, Reim, Timing auf 90 BPM gemappt.

creative/lyrics.lrc
02
🎵

Suno-Track

Deutschrap-Beat, 3:53, manuell kuratiert.

tausend_euro.mp3
03
🧊

Helmut-Referenz

8 Varianten + 3 Winkel gelockt.

nano-banana 2
04
🎞️

21 Szenen

Ref-to-Video, je 1 Take.

Seedance 2.0 · Atlas
05
👄

Lip-Sync (erprobt)

Nur experimentell getestet — nicht im finalen Cut.

Hedra · fal.ai
06
🎚️

FFmpeg-Schnitt

Auf den Beat, VHS-Grade, 1080p.

preview.mp4
Helmut reference
assets/helmut_ref.png · die kanonische Referenz
Die Figur

Helmut — der Yeti-MC

Konsistenz ist nicht verhandelbar. Vier Anker werden in jeden Prompt gezwungen — sie wandern durch jede Generierung.

  • 🟥
    Burgunder HoodieDer wichtigste visuelle Lock — leicht verwaschen, gelebt.
  • ❄️
    Weiß-blaues FellNie grau, nie reinweiß — zarte eisblaue Highlights.
  • 🌼
    Edelweiß-MedaillonDer Kontinuitäts-Kniff seit der Schlager-Version.
  • 🚫
    Keine FängeImmer im Negative-Prompt. Sanfter Riese, kein Monster.
Das Storyboard

21 Szenen, ein Durchlauf

Jede Kachel = ein echter Frame aus dem generierten Clip, zeitlich an die Lyrics gekoppelt.

Das Labor

Das meiste war Experiment

Das Konzept-Dokument wurde geschrieben, bevor wir die API angefasst haben. Fast jede Annahme stimmte beim ersten Kontakt nicht. Ein Feld-Logbuch:

LOG 01 · MODELL-BAKE-OFF: VEO → KLING → SEEDANCE

Drei Modelle durchprobiert. Veo 3.1 driftete (Gesicht wurde humanoid) und kostete real $0.20/s statt der angenommenen $0.03 — abgebrochen. Kling o3 Pro hielt die Figur (16 Clips, 3–4 Takes/Szene) aber teuer. Seedance 2.0 wurde Produktionsmodell: rendert als einziges lesbaren deutschen Text auf CRT-Schirmen, Ausweisen und Rechnungen.

Kling v1
Kling o3 Pro · v1-Batch
Gute Konsistenz, $12.16 für 16 Clips, 3–4 Takes je Szene — verworfen zugunsten Seedance.
Seedance v2
Seedance 2.0 · Produktion
Beste deutsche Textwiedergabe, ein Take je Szene, 21 Szenen final.
LOG 02 · KONZEPT vs. REALITÄT
✗ ANNAHME

Atlas-Katalog liegt unter /v1/models

✓ REALITÄT

Das ist nur die OpenAI-kompatible Text-Route (105 Modelle). Der echte Katalog (313 Modelle: Veo, Kling, Seedance…) liegt unter /api/v1/models.

✗ ANNAHME

3:00 Minuten, Timings aus dem Konzept

✓ REALITÄT

Suno lieferte 3:53. Alle Szenen gegen die echten LRC-Grenzen neu getimt — v1 (scene_01–09) → v2 (scene_a01–a21).

✗ ANNAHME

Eine Referenz reicht für Konsistenz

✓ REALITÄT

Mit nur 1 Ref driftet das Gesicht ins Humanoide/Pavian-hafte. Lösung: 1 Anker + 3 Winkel (Face/Profil/Rück) + Compact-Bible + harte Negatives.

✗ ANNAHME

Katalog-Preise stimmen

✓ REALITÄT

Seedance billt token-metered ≈ 2,17× Katalograte. Veo $0.20/s statt $0.03. Budget wurde nach Lerneffekt angehoben.

LOG 03 · LIP-SYNC-VERSUCHE

Kein Atlas-Modell synct automatisch auf einen Audio-Track. Also externe Trials — MuseTalk vs. sync v3 vs. Hedra Character-3 (fal.ai) — plus eigene Audio-Analyse: MFCC-Template, Stimm- und Timbre-Charts, um die Ausrichtung zu verifizieren. Ergebnis: nie produziert. Der finale Cut nutzt Seedances native Rap-Mundbewegung — echter Lip-Sync blieb Experiment.

voice chart
hook2 · Vocal-Onset-Analyse für Cut-Punkte
timbre chart
hook2 · Timbre-Analyse (Helmut-Template)
lipsync overlay
scene_a14 · Lip-Sync-Alignment-Overlay

Echte Sync-Ausgaben aus den Trials — eine zeigt das typische MuseTalk-Problem (Artefakte um Mund & Fell bei stylisierten Gesichtern), die v3-Pass-Closeups halten dagegen brauchbar. Ton an für den Sync-Eindruck:

MuseTalk · scene_a08 — Artefakte, verworfen
v3-Sync · Helmut-Closeup — brauchbar
v3-Sync · Hook-2-Closeup — brauchbar
LOG 04 · HELGA — DIE ZWEITSTIMME

Die Hook hat eine weibliche Harmonie hinter Helmuts Lead. Damit der Screen nicht Helmut zeigt, der eine fremde Stimme mimt, kam Helga dazu — eine zweite Yeti-Figur (rote Mütze, Cord-Bomber, dasselbe Edelweiß-Medaillon als Kontinuitäts-Anker). Doch sobald zwei Figuren in einer Szene singen, kommen zwei gleichzeitige Lip-Sync-Ziele plus Stimmen-Zuordnung dazu — bei ohnehin ungelöstem Single-Character-Sync zu fehleranfällig.

Helga reference
Helga · die Zweitstimme
Eigene Figur für die Hook-Harmonie. nano-banana, 6 Varianten + Outfit-Tests.
Helmut + Helga Duo-Szene
Zwei Figuren, eine Szene
Doppelter Lip-Sync + „wer singt welche Zeile" — instabil ohne sehr kurze Cuts & Detail-Planung.

Entscheidung: Helga vorerst entfernt — gut genug für jetzt, finaler Cut nur mit Helmut. Weg nach vorn: gründlichere Planung & kürzere Cuts — oder schlicht andere Einstellungen, in denen Helmut während der Zweitstimmen-Zeilen gar nicht im Bild ist (Umgebung / B-Roll), womit das Zwei-Figuren-Problem komplett entfällt.

⚠ KRIEGSGESCHICHTE · GHOST-SPEND

Wie ein 900-Sekunden-Timeout ~$30 verbrannte

Seedance 2.0 braucht für einen 13–15s-Clip gelegentlich 15–25 Minuten. Der ursprüngliche Poller gab nach 900 s (15 min) auf, der Retry-Loop schickte eine neue Generierung (~$3) — bis zu 4×. Server-seitig rechnete die originale Prediction munter weiter und wäre fertig geworden. Atlas hat keinen Cancel-Endpoint. Effekt: ~$15 verbrannt pro Szene-die-eigentlich-funktioniert-hätte. Erwischte A13 & A14.

→ Fix: Timeout auf 1800 s (30 min). Warten ist die einzige Cancel-Option.
Die Werkzeuge

Die Modelle — und unser Urteil

Welches KI-Modell was gemacht hat, was es kostete und warum es gewann oder rausflog. Externe Zahlen Stand Mai 2026; „Urteil" = was in diesem Projekt wirklich passierte.

🎬 VIDEO
Veo 3.1DeepMind
Beste Prompt-Treue — aber Helmuts Gesicht driftete ins Humanoide, und am teuersten. Getestet, verworfen.
~$0.40/s Standard · 8-s-Clips · noch „Preview"
Kling 3.0 ProKuaishou
Hielt die Figur gut — der v1-Pfad (16 Clips, $12.16). Zu teuer im Volumen → ersetzt.
~$0.095/Generierung (via Atlas) · starke Konsistenz
Seedance 2.0ByteDance
★ PRODUKTION
Alle 21 finalen Szenen. Einziges Modell mit lesbarem deutschen Text auf Rechnung & CRT.
~$0.14/s · billt ≈ 2,17× Katalog · 15–25-min-Renders → Ghost-Spend
🖼️ BILD
Nano Banana 2DeepMind · Gemini 3.1 Flash Image
★ REFERENZEN
Alle Helmut/Helga-Refs + Cover, Thumbnail, OG (CLI). Bestes lesbares Bild-Text-Rendering.
~$0.067/Bild · lehnt echte Personenfotos ab → blockierte ESC-Composite
Imagen 4 UltraDeepMind
Nur Text→Bild, kein Referenz-Input → konnte Helmut nicht locken, lieferte generischen Yeti.
$0.06/Bild · max 2K · falsches Werkzeug für Konsistenz
Seedream v4.5ByteDance
Multi-Ref-Edit (bis 10 Bilder): nahm im ESC-Special das echte Foto + Helmut an, wo Gemini ablehnte.
~$0.03–0.036/Bild · starke Identitäts-Erhaltung
Grok ImaginexAI
Auch Multi-Ref mit echtem Foto — lieferte die beste ESC-Kostüm-Silhouette aller Editoren.
$0.02/Bild Std · $0.07 Pro
👄 LIP-SYNC
Hedra Character-3Hedra
Benchmark für stylisierte Gesichter — der Grund, warum fal.ai installiert bleibt (Atlas hostet es nicht). Erprobt, nie produziert.
Credit-Abo ~$10/mo+ · pro Sekunde via fal.ai
MuseTalk 1.5Tencent · OSS
Artefakte um Mund & Fell auf Helmuts Gesicht — der „Tiefpunkt" im Making-of. Verworfen.
gratis (Self-Host) · 256×256 Mundregion
sync.so v3sync. labs
Die „sync v3"-Trials — die a14-Closeups waren „brauchbar", das Beste der Lip-Sync-Versuche. Nicht final.
~$0.04–0.13/s je Modell · sync-3 = 4K
🎵 AUDIO
Suno v5.5Suno, Inc.
★ DER SONG
Machte den Track. Trieb den Schlager→Deutschrap-Pivot + die 3 Fassungen. Kein offizielles API → manuell.
v5.5 · 26. März 2026 · Consumer-Abo
ElevenLabs v3ElevenLabs
★ ERZÄHLER
Der Making-of-Erzähler („George", gelockter voice_id) mit Emotion-Tags pro Zeile. Free-Tier ohne Cloning → Premade-Stimme.
v3 GA 14. März 2026 · Starter $5/mo schaltet Cloning frei
🛰️ GATEWAYS
Atlas CloudPrimär-Gateway
~95 % aller Generierungen. Fallen: echter Katalog ist /api/v1/models; kein Cancel-Endpoint → Ghost-Spend; Katalogpreise sind Untergrenzen.
300+ Modelle · ~30–54 % günstiger als fal.ai (Anbieter-Angabe)
fal.aisekundär
Nur für Hedra-Lip-Sync behalten — alles andere läuft über Atlas (günstiger).
1000+ Modelle · per-Output oder GPU-Sekunde

Quellen & Details: MODELS.md im Repo. Empirische Zahlen (≈2,17×, $12.16, …) aus cost_log.csv.

Die Rechnung

Was kostet ein KI-Musikvideo?

$63
GELOGGT // 40 API-CALLS
~$90
REAL // INKL. GHOST-SPEND
$50
SEEDANCE 2.0 // PRODUKTION
$0.80
ALLE CHARAKTER-REFERENZEN
Seedance 2.0 · 21 Szenen-Videos (Atlas)$50.06
Kling o3 Pro · v1-Test-Batch (verworfen)$12.16
Ghost-Spend · A13/A14 Timeout-Retries~$27
nano-banana · Helmut/Helga-Referenzen$0.80

Das Originalbudget waren $25. Es wurde bewusst angehoben, nachdem wir lernten, dass Seedance ~2,17× Katalograte billt — und dass ein zu kurzer Timeout teurer ist als Geduld.