YouTube Bot (AI Comment Bot)

❌ Problem

Manuelles Beantworten von YouTube-Kommentaren ist zeitaufwändig und repetitiv. Content-Creator verbringen oft Stunden damit, auf ähnliche Fragen zu antworten, anstatt neue Inhalte zu produzieren.

✅ Lösung

Selenium steuert Firefox automatisch, nimmt das Video-Audio via Sounddevice auf, Whisper transkribiert in Echtzeit und Ollama generiert passende, kontextbezogene Kommentare — vollständig automatisiert.

🛠️ Technologie-Stack

Python 3.8+ Selenium WebDriver Firefox Browser OpenAI Whisper Ollama LLM Sounddevice NumPy WebDriver Manager

⚡ Workflow

Video-Suche: Selenium öffnet Firefox und sucht nach dem gewünschten Thema
Wiedergabe: Das Video wird automatisch gestartet und abgespielt
Audio-Capture: Sounddevice nimmt die Audio-Ausgabe in Echtzeit auf
Transkription: Whisper konvertiert die Audio-Daten zu Text
KI-Generierung: Ollama erstellt eine passende Frage zum Inhalt
Posting: Der Kommentar wird automatisch über Selenium gepostet

📁 Projektstruktur

🐍

youtube_bot.py — Hauptskript mit Selenium-Steuerung, Audio-Recording und Ollama-Integration

📋

requirements.txt — Python-Abhängigkeiten: selenium, openai-whisper, sounddevice, numpy

📝

README.md — Installationsanleitung und Nutzungshinweise

📦

venv/ — Python Virtual Environment für isolierte Paketverwaltung

💻 Code-Beispiel

# YouTube Bot - Kern-Funktionalität
class YouTubeBot:
    def __init__(self):
        self.driver = webdriver.Firefox()
        self.whisper_model = whisper.load_model("base")
    
    def search_and_play(self, query):
        # YouTube öffnen & suchen
        self.driver.get(f"https://youtube.com/results?search_query={query}")
        # Erstes Video klicken
        video = self.driver.find_element(By.CSS_SELECTOR, "#video-title")
        video.click()
    
    def transcribe_audio(self, duration=30):
        # Audio-Aufnahme während des Videos
        audio_data = sd.rec(int(duration * 44100), 
                           samplerate=44100, 
                           channels=2)
        sd.wait()
        # Transkription mit Whisper
        result = self.whisper_model.transcribe(audio_data)
        return result["text"]
    
    def generate_comment(self, transcript):
        # Ollama-Integration für KI-Kommentar
        response = requests.post("http://localhost:11434/api/generate",
            json={"model": "llama2", "prompt": f"Basierend auf: {transcript}\nErstelle eine passende Frage:"})
        return response.json()["response"]
            

🎓 Key Learnings

🌐

Browser-Automation

Selenium mit robusten XPath-Selektoren und expliziten Wartezeiten für stabile Interaktionen mit dynamischen Webseiten
🎙️

Audio-Transkription in Echtzeit

Sounddevice für System-Audio-Capture, NumPy für Buffer-Verarbeitung, Whisper für offline Spracherkennung
🤖

Lokale LLM-Integration

Ollama-API für KI-gestützte Textgenerierung ohne externe API-Kosten oder Internet-Abhängigkeit
⏱️

Synchronisation

Zeitliche Koordination von Video-Wiedergabe, Audio-Aufnahme und DOM-Interaktionen

🚀 Installation

# 1. Repository klonen
git clone 
cd youtubebotwindows

# 2. Virtual Environment erstellen
python -m venv venv
source venv/bin/activate  # Linux/Mac
# oder: venv\Scripts\activate  # Windows

# 3. Abhängigkeiten installieren
pip install -r requirements.txt

# 4. Ollama installieren und llama2-Modell laden
# https://ollama.ai → installieren
ollama pull llama2

# 5. Bot starten
python youtube_bot.py
            

📋 Requirements.txt

selenium==4.15.0
webdriver-manager==4.0.1
openai-whisper==20231117
sounddevice==0.4.6
numpy==1.24.3
requests==2.31.0
            

❓ Häufig gestellte Fragen

Wie kann man YouTube-Kommentare automatisch beantworten?

Mit dem YouTube Bot wird das Video automatisch abgespielt, die Audio via Whisper in Echtzeit transkribiert und basierend auf dem Inhalt über Ollama eine passende Frage generiert, die als Kommentar gepostet wird.

Welche Technologien werden für die YouTube-Automation verwendet?

Der Bot nutzt Python mit Selenium für die Browser-Automation, OpenAI Whisper für die Audio-Transkription, Ollama für die KI-gestützte Textgenerierung und Sounddevice für die Audio-Aufnahme.

Was sind die Vorteile von Echtzeit-Audio-Transkription bei YouTube?

Durch die Echtzeit-Transkription mit Whisper kann der Bot den tatsächlichen Video-Inhalt verstehen und kontextrelevante Kommentare erstellen, anstatt generische Antworten zu posten.

Welche Lektionen wurden beim Browser-Automation-Projekt gelernt?

Wichtige Learnings: 1) Robuste XPath-Selektoren für sichere Element-Interaktion, 2) Umgang mit dynamischen Wartezeiten, 3) Audio-Synchronisation bei der Video-Wiedergabe, 4) Fehlerbehandlung bei Netzwerk-Latenz.

Braucht man einen API-Key für OpenAI?

Nein! Der Bot verwendet OpenAI Whisper lokal (open-source) und Ollama für die LLM-Generierung — beides läuft komplett lokal ohne API-Kosten.

Auf welchen Plattformen läuft der Bot?

Der Bot wurde primär für Windows entwickelt, lässt sich aber auf Linux und macOS anpassen. Voraussetzung sind Python 3.8+, Firefox Browser und Ollama.