📚 Hörbuch-Generator — GPT-4 + ElevenLabs TTS mit Python/Gradio

Automatisierte Hörspiel-Erstellung: Textanalyse per GPT-4, Vertonung via ElevenLabs, Musik-Mixing mit FFmpeg

PythonGradioElevenLabsGPT-4FFmpeg

🚀 Bereit für Ihre digitale Transformation?

Vereinbaren Sie ein unverbindliches Strategiegespräch

📞 02406 803 7603 ✉️ info@computerkumpel.de

📊 Business Value

Dieses Projekt automatisiert die komplette Hörspiel-Produktion – von der Textanalyse bis zum fertigen Audio-File. Was früher Stunden an manueller Sprecheraufnahme und Schnitt erforderte, läuft jetzt vollautomatisch in Minuten.

⏱️
Zeitersparnis
Vollautomatische Pipeline: Text rein, Hörspiel raus. Statt stundenlanger Aufnahme mit Sprechern entsteht das Hörbuch in Minuten per API.
🎙️
Multi-Voice Casting
Jeder Charakter bekommt eine eigene ElevenLabs-Stimme mit individuellen Settings – Stability, Style, Similarity Boost frei konfigurierbar.
🎵
Automatisches Mixing
FFmpeg normalisiert alle Sprachdateien auf einheitliche Lautstärke und mischt Hintergrundmusik unter – fertig für den Upload.
📈
Skalierbar
Beliebig viele Märchen/Geschichten parallel verarbeiten. Die Pipeline skaliert mit der API-Kapazität, nicht mit Personal.

⚙️ Pipeline: Vom Text zum Hörspiel

1
📥

Text-Input

Märchentext (z.B. Rapunzel) wird direkt im Code oder via Gradio-UI übergeben.

2
🧠

GPT-4 Analyse

OpenAI GPT-4 analysiert den Text und strukturiert ihn als JSON: Charakter-Dialoge und Erzähler-Passagen getrennt.

3
🎤

ElevenLabs TTS

Jeder Charakter bekommt eine eigene Stimme zugewiesen. ElevenLabs API generiert nummerierte MP3-Segmente.

4
🎧

FFmpeg Finalisierung

Lautstärke-Normalisierung, Zusammenfügen aller Segmente, Hintergrundmusik untermischen – fertiges Hörbuch.

💻 Echter Code aus dem Projekt

Hier sind produktive Code-Ausschnitte direkt aus dem Repository D:\arbeit\git\hoerbuch\. Kein generierter Prompt — das ist der Code, der tatsächlich läuft.

📝 GPT-4 Prompt für Textstrukturierung (config.py)

promtGPT="""Analysiere den folgenden Text und strukturiere ihn in einem
kompakten JSON-Format ohne zusätzliche Erklärungen. Ziel ist es, Dialoge
und Erzähltexte zu identifizieren und sie entsprechend ihrer Rolle
(Charakter oder Erzähler) zu klassifizieren. Formatiere das Ergebnis so:

[
  {"typ": "Charakter", "name": "CHARAKTERNAME", "text": "Dialogtext"},
  {"typ": "Erzähler", "text": "Erzähltext"}
]"""

🎤 ElevenLabs Audio-Generierung mit Voice-Settings (eleven.py)

def generate_audio(text, voice_id, voice_settings):
    headers = {"xi-api-key": API_KEY, "Content-Type": "application/json"}
    data = {
        "text": text,
        "model_id": "eleven_multilingual_v2",
        "voice_settings": voice_settings
    }
    response = requests.post(
        GENERATE_URL.format(voice_id=voice_id),
        headers=headers, json=data
    )
    if response.status_code == 200:
        return response.content  # MP3-Bytes

🔊 FFmpeg Audio-Normalisierung & Mixing (Create_Final.py)

def normalize_audio(input_file, output_file):
    subprocess.run([
        "ffmpeg", "-i", input_file,
        "-af", "loudnorm=I=-23:LRA=7:TP=-1.5",
        "-ar", "44100", "-b:a", "192k", output_file
    ], check=True)

# Musik untermischen
subprocess.run([
    "ffmpeg", "-i", "hoerspiel.mp3", "-stream_loop", "-1",
    "-i", "back4.mp3",
    "-filter_complex", "[1:a]volume=0.3[a1];[0:a][a1]amix=inputs=2:duration=first[a]",
    "-map", "[a]", "hoerbuch_mit_musik.mp3"
], check=True)

🖥️ Gradio Web-Interface (gui.py)

with gr.Blocks() as iface:
    gr.Markdown("## GPT Assistant Text Verarbeiter")
    gpt_assistant_prompt = gr.Textbox(label="GPT Assistant Prompt",
        value=promptGPT)
    comment = gr.Textbox(label="Comment")
    output_text = gr.Textbox(label="Ergebnis")

    process_button = gr.Button("Text verarbeiten")
    process_button.click(process_text,
        inputs=[gpt_assistant_prompt, comment],
        outputs=output_text)

iface.launch()

💻 Tech-Stack

🐍
Python
Hauptsprache für die gesamte Pipeline – API-Calls, Audio-Verarbeitung, GUI.
🧠
OpenAI GPT-4
Textanalyse und JSON-Strukturierung für Dialog/Erzähler-Trennung.
🎙️
ElevenLabs API
Multilingual v2 Modell für Sprachsynthese mit individuellen Voice-Settings.
🎛️
Gradio
Web-basierte Benutzeroberfläche für Text-Input, Voice-Zuweisung und Export.
🔊
FFmpeg
Loudness-Normalisierung, MP3-Konkatenation und Musik-Mixing.

🚀 Vom Text zum Hörspiel in Minuten — vollautomatisch

📞 02406 803 7603 ✉️ info@computerkumpel.de

🎯 Strategische Erkenntnisse

🔐

API-Orchestrierung als Kernkompetenz

Die intelligente Verkettung von GPT-4 → ElevenLabs → FFmpeg zeigt: Der Mehrwert liegt in der Integration, nicht in der Einzel-Technologie.

Nicht das beste Tool gewinnt — die beste Tool-Kombination.

📈

Content-Produktion ohne Content-Team

Ein einzelner Entwickler + API-Orchestrierung ersetzt Sprecher, Tonstudio und Cutter. Die Economics sind disruptiv.

KI-gestützte Content-Pipelines demokratisieren Medienproduktion.

🔧

JSON als universelle Schnittstelle

Die standardisierte JSON-Struktur zwischen GPT-4 Output und TTS-Input macht die Pipeline austauschbar: GPT durch Claude, ElevenLabs durch lokale Modelle.

Definieren Sie Datenformate, nicht Tool-Abhängigkeiten.

👥

Gradio als Rapid-Prototyping-Beschleuniger

Innerhalb von Stunden eine funktionierende Web-UI statt Wochen für Frontend-Entwicklung. Perfekt für Validierung vor dem Produktiv-Build.

Prototypen verkaufen besser als PowerPoint.

Eigene Content-Pipeline aufbauen?

Als Brückenbauer zwischen Business und Technik unterstütze ich Sie bei der automatisierten Content-Produktion — pragmatisch, ergebnisorientiert, ohne Berater-Bullshit.

📞 Jetzt anrufen ✉️ E-Mail senden