🚀 Bereit für Ihre digitale Transformation?
Vereinbaren Sie ein unverbindliches Strategiegespräch
📊 Business Value
Diese Next-Gen-Version des Hörbuch-Generators adressiert die größten Pain Points der ersten Version: API-Kosten, Latenz und Vendor-Lock-in. Der Fokus liegt auf lokaler Verarbeitung und Open-Source-Alternativen.
⚙️ Evolution der Pipeline
Cloud-Phase
GPT-4 API + ElevenLabs API + FFmpeg — funktionierend, aber API-kostenabhängig.
Hybrid-Phase
API-basierte Analyse + lokale TTS-Modelle. Kosten runter, Qualität vergleichbar.
Lokal-Phase
Vollständig lokale Pipeline ohne externe APIs. Eigene GPU-Infrastruktur (RTX 3060) nutzbar.
Produktion
Batch-Verarbeitung, Queue-Management und automatisierter YouTube-Upload.
💻 Echter Code aus dem Projekt
Code-Auszüge aus D:\arbeit\git\Hoerbuch_neu\. Die Architektur bleibt Python/Gradio,
aber mit Fokus auf Austauschbarkeit der TTS-Engine.
🔧 Zentrale Konfiguration (config.py)
# MySQL-Verbindungsinformationen
host = 'localhost'
user = 'politik'
password = 'DEIN_PASSWORT_HIER'
database = 'euchannel'
# API-Keys (werden in v2+ durch lokale Modelle ersetzt)
elevenlabs_api_key = "DEIN_ELEVENLABS_API_KEY"
openai_api_key = "DEIN_OPENAI_API_KEY"
# SCOPES für YouTube Upload
SCOPES = [
"https://www.googleapis.com/auth/youtube.upload",
"https://www.googleapis.com/auth/youtube.force-ssl",
"https://www.googleapis.com/auth/youtube"
]
📝 GPT-4 Prompt Engine (config.py & main.py)
promtGPT = """Analysiere den folgenden Text und strukturiere ihn
in einem kompakten JSON-Format ohne zusätzliche Erklärungen:
[
{"typ": "Charakter", "name": "CHARAKTERNAME", "text": "..."},
{"typ": "Erzähler", "text": "..."}
]"""
# OpenAI API Call
response = openai.ChatCompletion.create(
model="gpt-4",
messages=[{"role":"assistant","content":gpt_assistant_prompt},
{"role":"user","content":comment}],
temperature=0.2, max_tokens=5000, frequency_penalty=0.0
)
🎙️ ElevenLabs Voice Management (eleven.py)
def get_voices():
"""Ruft alle verfügbaren Stimmen von ElevenLabs ab"""
headers = {"xi-api-key": API_KEY}
response = requests.get(VOICES_URL, headers=headers)
return response.json()["voices"]
def generate_audio(text, voice_id, voice_settings):
"""Generiert MP3 für einen Textblock mit Voice-Settings"""
data = {"text": text, "model_id": "eleven_multilingual_v2",
"voice_settings": voice_settings}
response = requests.post(
GENERATE_URL.format(voice_id=voice_id),
headers=headers, json=data)
return response.content # MP3-Bytes
🎛️ Gradio Voice-Zuweisungs-Interface (eleven.py)
with gr.Blocks() as demo:
with gr.Tab("Stimmen zuordnen"):
json_file = gr.Textbox(label="JSON-Datei")
characters = gr.Dataframe(headers=["Charakter"])
def assign_voices(json_file, characters):
data = json.load(open(json_file.strip(), "r"))
characters_list = list(set(
item["name"] for item in data
if item["typ"] == "Charakter" and "name" in item))
characters_list.append("Erzähler")
return "Charaktere erfolgreich geladen."
demo.launch()
💻 Tech-Stack
🚀 Von API-Abhängigkeit zu lokaler Souveränität
🎯 Strategische Erkenntnisse
API-Kosten sind das stille Geschäftsrisiko
ElevenLabs kostet $0.30 pro 1.000 Zeichen. Bei einem 50.000-Zeichen-Hörbuch sind das $15. Bei 100 Hörbüchern pro Monat: $1.500 — lokal: $0.
Jeden API-Call kostentechnisch hinterfragen. Lokal ist oft günstiger als gedacht.
Modulare Architektur = Zukunftssicherheit
Die JSON-Schnittstelle zwischen Analyse und TTS erlaubt Engine-Austausch ohne Rewrite. GPT → Llama, ElevenLabs → Coqui — alles Plug & Play.
Investieren Sie in Schnittstellen, nicht in Anbieter-Bindungen.
venv-Isolation = Deployment-Sicherheit
Jedes Projekt bekommt sein eigenes venv. Keine Konflikte zwischen Dependency-Versionen. Reproduzierbar auf jedem Rechner.
Virtual Environments sind kein Overhead — sie sind Versicherung.
Evolution statt Revolution
Der schrittweise Wechsel von Cloud zu Lokal minimiert Risiko. Jede Phase liefert Mehrwert, auch wenn die nächste noch nicht erreicht ist.
Große Migrationen scheitern. Kleine, inkrementelle Schritte nicht.
Ihre API-Kosten auf null reduzieren?
Als Brückenbauer zwischen Business und Technik unterstütze ich Sie bei der Migration zu lokaler KI-Infrastruktur — pragmatisch, ergebnisorientiert, ohne Berater-Bullshit.