_Workflow · 3D-Avatar · TTS · 2026
Happy News
KI-generierte Nachrichtensendung mit positivem Fokus. Ein 3D-Avatar präsentiert täglich gute Nachrichten aus Österreich und der Welt — mit Echtzeit-Lip-Sync, direkt im Browser.
Ein Besucher klickt auf „Nachrichten laden" — ein Dify-Workflow recherchiert aktuelle positive Meldungen, generiert ein Sendungsskript, und ein animierter 3D-Avatar präsentiert die Nachrichten mit synchronisierten Lippenbewegungen und natürlicher deutscher Stimme. Alles läuft im Browser, ohne Server-GPU.
Was das Projekt kann
3D-Avatar mit Lip-Sync
Ein Avaturn-T2-Avatar mit 52 ARKit-Blendshapes und 15 Oculus-Visemes. TalkingHead rendert das Modell via Three.js — inklusive Blinzeln, Atmen und subtilen Kopfbewegungen.
Deutsche Neural-Stimme
Google Cloud TTS generiert Audio in Broadcast-Qualität. Über SSML-Marker liefert die API Wort-für-Wort-Timestamps für Viseme-basiertes Lip-Sync.
KI-Nachrichtenredaktion
Ein Dify-Workflow recherchiert positive Nachrichten, strukturiert sie und generiert ein sendefertiges Skript mit Moderation und Übergängen.
Sendungs-Intro
Während Dify das Skript generiert, überbrückt ein animiertes Intro-Overlay die Wartezeit — mit wechselnden Statusmeldungen.
Wie das System aufgebaut ist
Workflow · Dify
Recherchiert aktuelle positive Nachrichten und generiert ein sendefertiges Skript mit Moderation, Übergängen und Abschluss.
Text-to-Speech · Google Cloud
Die Neural2-API synthetisiert das Skript zu natürlichem Audio und liefert Wort-Timestamps via SSML-Marker für exaktes Lip-Sync.
Avatar · TalkingHead + Avaturn
Lädt den T2-Avatar, mappt Wort-Timestamps auf Oculus-Visemes und steuert Mund, Augen und Kopfbewegungen in Echtzeit.
Proxy · Node.js Express
Ein schlanker Docker-Container hält die API-Keys serverseitig und leitet Anfragen an Google TTS und Dify weiter.
Technischer Hintergrund
KI-Workflow
Dify (self-hosted) mit Claude Sonnet. Recherche, Textstrukturierung und Qualitätsprüfung in einem Workflow.
Text-to-Speech
Google Cloud TTS v1beta1 mit de-DE-Neural2-B. SSML mit <mark>-Tags für Wort-Level-Timestamps. 1 Mio. Zeichen/Monat kostenlos.
3D-Avatar
Avaturn T2 mit Mixamo-Rig, 52 ARKit-Blendshapes und 15 Oculus-Visemes. Export als einzelne GLB-Datei (13 MB).
Rendering & Deployment
TalkingHead v1.7 + Three.js r180. Docker-Container hinter Nginx Reverse Proxy. API-Keys als Umgebungsvariablen.