🔄 Hörbuch Neu — Next-Gen TTS-Pipeline mit lokalem Fokus

Weiterentwicklung mit Open-Source TTS, Offline-Verarbeitung und erweiterter Audio-Pipeline

PythonGradioOpen SourceTTSAudio

🚀 Bereit für Ihre digitale Transformation?

Vereinbaren Sie ein unverbindliches Strategiegespräch

📞 02406 803 7603 ✉️ info@computerkumpel.de

📊 Business Value

Diese Next-Gen-Version des Hörbuch-Generators adressiert die größten Pain Points der ersten Version: API-Kosten, Latenz und Vendor-Lock-in. Der Fokus liegt auf lokaler Verarbeitung und Open-Source-Alternativen.

🔓
Open Source First
Schrittweise Migration von proprietären APIs (GPT-4, ElevenLabs) zu lokal lauffähigen Open-Source-Modellen.
💰
Kosteneliminierung
Keine API-Kosten pro generierter Minute. Bei 100+ Hörbüchern summieren sich die Einsparungen auf tausende Euro.
Offline-fähig
Lokale Verarbeitung ohne Internet-Abhängigkeit. Funktioniert in Air-Gap-Umgebungen und bei Bandbreiten-Problemen.
📦
Virtuelle Umgebung
Isoliertes venv-Setup mit FontTools und Gradio-Dependencies. Reproduzierbare Builds ohne Dependency-Hell.

⚙️ Evolution der Pipeline

v1
☁️

Cloud-Phase

GPT-4 API + ElevenLabs API + FFmpeg — funktionierend, aber API-kostenabhängig.

v2
🔀

Hybrid-Phase

API-basierte Analyse + lokale TTS-Modelle. Kosten runter, Qualität vergleichbar.

v3
🏠

Lokal-Phase

Vollständig lokale Pipeline ohne externe APIs. Eigene GPU-Infrastruktur (RTX 3060) nutzbar.

v4
🚀

Produktion

Batch-Verarbeitung, Queue-Management und automatisierter YouTube-Upload.

💻 Echter Code aus dem Projekt

Code-Auszüge aus D:\arbeit\git\Hoerbuch_neu\. Die Architektur bleibt Python/Gradio, aber mit Fokus auf Austauschbarkeit der TTS-Engine.

🔧 Zentrale Konfiguration (config.py)

# MySQL-Verbindungsinformationen
host = 'localhost'
user = 'politik'
password = 'DEIN_PASSWORT_HIER'
database = 'euchannel'

# API-Keys (werden in v2+ durch lokale Modelle ersetzt)
elevenlabs_api_key = "DEIN_ELEVENLABS_API_KEY"
openai_api_key = "DEIN_OPENAI_API_KEY"

# SCOPES für YouTube Upload
SCOPES = [
    "https://www.googleapis.com/auth/youtube.upload",
    "https://www.googleapis.com/auth/youtube.force-ssl",
    "https://www.googleapis.com/auth/youtube"
]

📝 GPT-4 Prompt Engine (config.py & main.py)

promtGPT = """Analysiere den folgenden Text und strukturiere ihn
in einem kompakten JSON-Format ohne zusätzliche Erklärungen:

[
  {"typ": "Charakter", "name": "CHARAKTERNAME", "text": "..."},
  {"typ": "Erzähler", "text": "..."}
]"""

# OpenAI API Call
response = openai.ChatCompletion.create(
    model="gpt-4",
    messages=[{"role":"assistant","content":gpt_assistant_prompt},
              {"role":"user","content":comment}],
    temperature=0.2, max_tokens=5000, frequency_penalty=0.0
)

🎙️ ElevenLabs Voice Management (eleven.py)

def get_voices():
    """Ruft alle verfügbaren Stimmen von ElevenLabs ab"""
    headers = {"xi-api-key": API_KEY}
    response = requests.get(VOICES_URL, headers=headers)
    return response.json()["voices"]

def generate_audio(text, voice_id, voice_settings):
    """Generiert MP3 für einen Textblock mit Voice-Settings"""
    data = {"text": text, "model_id": "eleven_multilingual_v2",
            "voice_settings": voice_settings}
    response = requests.post(
        GENERATE_URL.format(voice_id=voice_id),
        headers=headers, json=data)
    return response.content  # MP3-Bytes

🎛️ Gradio Voice-Zuweisungs-Interface (eleven.py)

with gr.Blocks() as demo:
    with gr.Tab("Stimmen zuordnen"):
        json_file = gr.Textbox(label="JSON-Datei")
        characters = gr.Dataframe(headers=["Charakter"])

        def assign_voices(json_file, characters):
            data = json.load(open(json_file.strip(), "r"))
            characters_list = list(set(
                item["name"] for item in data
                if item["typ"] == "Charakter" and "name" in item))
            characters_list.append("Erzähler")
            return "Charaktere erfolgreich geladen."

    demo.launch()

💻 Tech-Stack

🐍
Python 3.12
Basis-Sprache mit venv-Isolation. Alle Dependencies via pip installierbar.
🧠
GPT-4 API
Textanalyse und JSON-Strukturierung (migrierbar zu lokalem LLM).
🎙️
ElevenLabs / Lokale TTS
Hybrid-Ansatz: API-basiert oder lokale Modelle je nach Verfügbarkeit.
🎛️
Gradio UI
Web-Interface mit Tabs für Voice-Zuweisung und Hörspiel-Generierung.
📐
FontTools
Schriftverarbeitung für konsistente Textdarstellung im UI.

🚀 Von API-Abhängigkeit zu lokaler Souveränität

📞 02406 803 7603 ✉️ info@computerkumpel.de

🎯 Strategische Erkenntnisse

🔐

API-Kosten sind das stille Geschäftsrisiko

ElevenLabs kostet $0.30 pro 1.000 Zeichen. Bei einem 50.000-Zeichen-Hörbuch sind das $15. Bei 100 Hörbüchern pro Monat: $1.500 — lokal: $0.

Jeden API-Call kostentechnisch hinterfragen. Lokal ist oft günstiger als gedacht.

📈

Modulare Architektur = Zukunftssicherheit

Die JSON-Schnittstelle zwischen Analyse und TTS erlaubt Engine-Austausch ohne Rewrite. GPT → Llama, ElevenLabs → Coqui — alles Plug & Play.

Investieren Sie in Schnittstellen, nicht in Anbieter-Bindungen.

🔧

venv-Isolation = Deployment-Sicherheit

Jedes Projekt bekommt sein eigenes venv. Keine Konflikte zwischen Dependency-Versionen. Reproduzierbar auf jedem Rechner.

Virtual Environments sind kein Overhead — sie sind Versicherung.

👥

Evolution statt Revolution

Der schrittweise Wechsel von Cloud zu Lokal minimiert Risiko. Jede Phase liefert Mehrwert, auch wenn die nächste noch nicht erreicht ist.

Große Migrationen scheitern. Kleine, inkrementelle Schritte nicht.

Ihre API-Kosten auf null reduzieren?

Als Brückenbauer zwischen Business und Technik unterstütze ich Sie bei der Migration zu lokaler KI-Infrastruktur — pragmatisch, ergebnisorientiert, ohne Berater-Bullshit.

📞 Jetzt anrufen ✉️ E-Mail senden