🚀 Bereit für Ihre digitale Transformation?
Vereinbaren Sie ein unverbindliches Strategiegespräch
📊 Business Value
Dieses Projekt automatisiert die komplette Hörspiel-Produktion – von der Textanalyse bis zum fertigen Audio-File. Was früher Stunden an manueller Sprecheraufnahme und Schnitt erforderte, läuft jetzt vollautomatisch in Minuten.
⚙️ Pipeline: Vom Text zum Hörspiel
Text-Input
Märchentext (z.B. Rapunzel) wird direkt im Code oder via Gradio-UI übergeben.
GPT-4 Analyse
OpenAI GPT-4 analysiert den Text und strukturiert ihn als JSON: Charakter-Dialoge und Erzähler-Passagen getrennt.
ElevenLabs TTS
Jeder Charakter bekommt eine eigene Stimme zugewiesen. ElevenLabs API generiert nummerierte MP3-Segmente.
FFmpeg Finalisierung
Lautstärke-Normalisierung, Zusammenfügen aller Segmente, Hintergrundmusik untermischen – fertiges Hörbuch.
💻 Echter Code aus dem Projekt
Hier sind produktive Code-Ausschnitte direkt aus dem Repository D:\arbeit\git\hoerbuch\.
Kein generierter Prompt — das ist der Code, der tatsächlich läuft.
📝 GPT-4 Prompt für Textstrukturierung (config.py)
promtGPT="""Analysiere den folgenden Text und strukturiere ihn in einem
kompakten JSON-Format ohne zusätzliche Erklärungen. Ziel ist es, Dialoge
und Erzähltexte zu identifizieren und sie entsprechend ihrer Rolle
(Charakter oder Erzähler) zu klassifizieren. Formatiere das Ergebnis so:
[
{"typ": "Charakter", "name": "CHARAKTERNAME", "text": "Dialogtext"},
{"typ": "Erzähler", "text": "Erzähltext"}
]"""
🎤 ElevenLabs Audio-Generierung mit Voice-Settings (eleven.py)
def generate_audio(text, voice_id, voice_settings):
headers = {"xi-api-key": API_KEY, "Content-Type": "application/json"}
data = {
"text": text,
"model_id": "eleven_multilingual_v2",
"voice_settings": voice_settings
}
response = requests.post(
GENERATE_URL.format(voice_id=voice_id),
headers=headers, json=data
)
if response.status_code == 200:
return response.content # MP3-Bytes
🔊 FFmpeg Audio-Normalisierung & Mixing (Create_Final.py)
def normalize_audio(input_file, output_file):
subprocess.run([
"ffmpeg", "-i", input_file,
"-af", "loudnorm=I=-23:LRA=7:TP=-1.5",
"-ar", "44100", "-b:a", "192k", output_file
], check=True)
# Musik untermischen
subprocess.run([
"ffmpeg", "-i", "hoerspiel.mp3", "-stream_loop", "-1",
"-i", "back4.mp3",
"-filter_complex", "[1:a]volume=0.3[a1];[0:a][a1]amix=inputs=2:duration=first[a]",
"-map", "[a]", "hoerbuch_mit_musik.mp3"
], check=True)
🖥️ Gradio Web-Interface (gui.py)
with gr.Blocks() as iface:
gr.Markdown("## GPT Assistant Text Verarbeiter")
gpt_assistant_prompt = gr.Textbox(label="GPT Assistant Prompt",
value=promptGPT)
comment = gr.Textbox(label="Comment")
output_text = gr.Textbox(label="Ergebnis")
process_button = gr.Button("Text verarbeiten")
process_button.click(process_text,
inputs=[gpt_assistant_prompt, comment],
outputs=output_text)
iface.launch()
💻 Tech-Stack
🚀 Vom Text zum Hörspiel in Minuten — vollautomatisch
🎯 Strategische Erkenntnisse
API-Orchestrierung als Kernkompetenz
Die intelligente Verkettung von GPT-4 → ElevenLabs → FFmpeg zeigt: Der Mehrwert liegt in der Integration, nicht in der Einzel-Technologie.
Nicht das beste Tool gewinnt — die beste Tool-Kombination.
Content-Produktion ohne Content-Team
Ein einzelner Entwickler + API-Orchestrierung ersetzt Sprecher, Tonstudio und Cutter. Die Economics sind disruptiv.
KI-gestützte Content-Pipelines demokratisieren Medienproduktion.
JSON als universelle Schnittstelle
Die standardisierte JSON-Struktur zwischen GPT-4 Output und TTS-Input macht die Pipeline austauschbar: GPT durch Claude, ElevenLabs durch lokale Modelle.
Definieren Sie Datenformate, nicht Tool-Abhängigkeiten.
Gradio als Rapid-Prototyping-Beschleuniger
Innerhalb von Stunden eine funktionierende Web-UI statt Wochen für Frontend-Entwicklung. Perfekt für Validierung vor dem Produktiv-Build.
Prototypen verkaufen besser als PowerPoint.
Eigene Content-Pipeline aufbauen?
Als Brückenbauer zwischen Business und Technik unterstütze ich Sie bei der automatisierten Content-Produktion — pragmatisch, ergebnisorientiert, ohne Berater-Bullshit.