📊 Was Tortoise TTS ist
Tortoise-TTS ist ein neuronales Text-to-Speech-Modell, das auf Transformer-Architektur basiert. Es erzeugt natürlich klingende Sprache mit verschiedenen Stimmen und Emotionen – vollständig lokal auf GPU betreibbar, ohne Cloud-Abhängigkeit.
💻 Setup & Installation
Installation auf Windows mit GPU (CUDA)
# Repository klonen
git clone https://github.com/neonbjb/tortoise-tts.git
cd tortoise-tts
# Virtuelle Umgebung erstellen
python -m venv venv
venv\Scripts\activate
# Abhängigkeiten installieren
pip install -r requirements.txt
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
# Modelldateien werden beim ersten Start automatisch heruntergeladen
# (~2 GB, einmalig)
Grundlegende Nutzung (Python API)
import torch
from tortoise.api import TextToSpeech
from tortoise.utils.audio import load_voices
# TTS initialisieren (GPU falls verfügbar)
tts = TextToSpeech(use_deepspeed=False)
# Text mit bestimmter Stimme generieren
voice_samples, conditioning_latents = load_voices(["angie"])
gen = tts.tts_with_preset(
"Willkommen bei Computerkumpel. "
"Wie kann ich Ihnen helfen?",
voice_samples=voice_samples,
conditioning_latents=conditioning_latents,
preset="ultra_fast")
# Als WAV speichern
torchaudio.save("output.wav",
gen.squeeze(0).cpu(), 24000)
Verfügbare Presets (Qualität vs. Geschwindigkeit)
# Presets nach Geschwindigkeit sortiert:
presets = [
"ultra_fast", # ~2s pro Satz, niedrigste Qualität
"fast", # ~5s, gute Qualität
"standard", # ~15s, hohe Qualität
"high_quality", # ~45s, sehr hohe Qualität
]
# Für Produktion: "high_quality" oder "standard"
# Für schnelle Tests: "ultra_fast"
🎯 Vergleich mit Alternativen
Tortoise TTS
Höchste Qualität, offline, kostenlos. Nachteil: langsam (15-45s pro Satz). Ideal für Produktion mit Zeitpuffer.
Edge-TTS (empfohlen für Echtzeit)
Wenige ms Latenz, gute Microsoft-Stimmen. Nachteil: online. Für interaktive Anwendungen die bessere Wahl.
📝 Projekt-Status
Dieses Repository dient als Evaluierungs-Setup. Tortoise TTS wurde getestet und mit Edge-TTS verglichen. Für Echtzeitanwendungen (Telefonassistent) wurde Edge-TTS gewählt, für Offline-Produktion bleibt Tortoise die Referenz.