🤖 YouTube Bot (AI Comment Bot)

Automatisierte KI-Kommentare mit Selenium, Whisper & Ollama — Browser-Automation trifft auf Echtzeit-Audio-Transkription

❌ Problem

Manuelles Beantworten von YouTube-Kommentaren ist zeitaufwändig und repetitiv. Content-Creator verbringen oft Stunden damit, auf ähnliche Fragen zu antworten, anstatt neue Inhalte zu produzieren.

✅ Lösung

Selenium steuert Firefox automatisch, nimmt das Video-Audio via Sounddevice auf, Whisper transkribiert in Echtzeit und Ollama generiert passende, kontextbezogene Kommentare — vollständig automatisiert.

🛠️ Technologie-Stack

Python 3.8+ Selenium WebDriver Firefox Browser OpenAI Whisper Ollama LLM Sounddevice NumPy WebDriver Manager

⚡ Workflow

  1. Video-Suche: Selenium öffnet Firefox und sucht nach dem gewünschten Thema
  2. Wiedergabe: Das Video wird automatisch gestartet und abgespielt
  3. Audio-Capture: Sounddevice nimmt die Audio-Ausgabe in Echtzeit auf
  4. Transkription: Whisper konvertiert die Audio-Daten zu Text
  5. KI-Generierung: Ollama erstellt eine passende Frage zum Inhalt
  6. Posting: Der Kommentar wird automatisch über Selenium gepostet

📁 Projektstruktur

🐍
youtube_bot.py — Hauptskript mit Selenium-Steuerung, Audio-Recording und Ollama-Integration
📋
requirements.txt — Python-Abhängigkeiten: selenium, openai-whisper, sounddevice, numpy
📝
README.md — Installationsanleitung und Nutzungshinweise
📦
venv/ — Python Virtual Environment für isolierte Paketverwaltung

💻 Code-Beispiel

# YouTube Bot - Kern-Funktionalität class YouTubeBot: def __init__(self): self.driver = webdriver.Firefox() self.whisper_model = whisper.load_model("base") def search_and_play(self, query): # YouTube öffnen & suchen self.driver.get(f"https://youtube.com/results?search_query={query}") # Erstes Video klicken video = self.driver.find_element(By.CSS_SELECTOR, "#video-title") video.click() def transcribe_audio(self, duration=30): # Audio-Aufnahme während des Videos audio_data = sd.rec(int(duration * 44100), samplerate=44100, channels=2) sd.wait() # Transkription mit Whisper result = self.whisper_model.transcribe(audio_data) return result["text"] def generate_comment(self, transcript): # Ollama-Integration für KI-Kommentar response = requests.post("http://localhost:11434/api/generate", json={"model": "llama2", "prompt": f"Basierend auf: {transcript}\nErstelle eine passende Frage:"}) return response.json()["response"]

🎓 Key Learnings

🚀 Installation

# 1. Repository klonen git clone cd youtubebotwindows # 2. Virtual Environment erstellen python -m venv venv source venv/bin/activate # Linux/Mac # oder: venv\Scripts\activate # Windows # 3. Abhängigkeiten installieren pip install -r requirements.txt # 4. Ollama installieren und llama2-Modell laden # https://ollama.ai → installieren ollama pull llama2 # 5. Bot starten python youtube_bot.py

📋 Requirements.txt

selenium==4.15.0 webdriver-manager==4.0.1 openai-whisper==20231117 sounddevice==0.4.6 numpy==1.24.3 requests==2.31.0

❓ Häufig gestellte Fragen

Wie kann man YouTube-Kommentare automatisch beantworten?

Mit dem YouTube Bot wird das Video automatisch abgespielt, die Audio via Whisper in Echtzeit transkribiert und basierend auf dem Inhalt über Ollama eine passende Frage generiert, die als Kommentar gepostet wird.

Welche Technologien werden für die YouTube-Automation verwendet?

Der Bot nutzt Python mit Selenium für die Browser-Automation, OpenAI Whisper für die Audio-Transkription, Ollama für die KI-gestützte Textgenerierung und Sounddevice für die Audio-Aufnahme.

Was sind die Vorteile von Echtzeit-Audio-Transkription bei YouTube?

Durch die Echtzeit-Transkription mit Whisper kann der Bot den tatsächlichen Video-Inhalt verstehen und kontextrelevante Kommentare erstellen, anstatt generische Antworten zu posten.

Welche Lektionen wurden beim Browser-Automation-Projekt gelernt?

Wichtige Learnings: 1) Robuste XPath-Selektoren für sichere Element-Interaktion, 2) Umgang mit dynamischen Wartezeiten, 3) Audio-Synchronisation bei der Video-Wiedergabe, 4) Fehlerbehandlung bei Netzwerk-Latenz.

Braucht man einen API-Key für OpenAI?

Nein! Der Bot verwendet OpenAI Whisper lokal (open-source) und Ollama für die LLM-Generierung — beides läuft komplett lokal ohne API-Kosten.

Auf welchen Plattformen läuft der Bot?

Der Bot wurde primär für Windows entwickelt, lässt sich aber auf Linux und macOS anpassen. Voraussetzung sind Python 3.8+, Firefox Browser und Ollama.

← Zurück zur Projektübersicht