Custom-Knowledge-Chatbot: Proprietäre Daten intelligent nutzbar machen

Von statischen Dokumenten zur dialogfähigen KI-Wissensbasis mit RAG-Architektur

Python OpenAI API LlamaIndex RAG

🚀 Machen Sie Ihre Dokumente dialogfähig — mit RAG.

📞 02406 803 7603 ✉️ info@computerkumpel.de

💰 Warum ein RAG-Chatbot Ihr Unternehmen transformiert

Mitarbeiter verbringen durchschnittlich 19% ihrer Arbeitszeit mit der Suche nach Informationen — das sind bei einem 80-€-Stundensatz über 25.000 € pro Jahr und Mitarbeiter. Ein RAG-Chatbot, der Ihre eigenen Dokumente als Wissensbasis nutzt, reduziert diese Suchzeit um bis zu 80%.

📚
Eigenes Wissen
TXT, CSV und PDF-Dateien aus dem knowledge-Verzeichnis werden automatisch indiziert. Kein Training nötig — einfach ablegen und fragen.
🔍
Semantische Suche
GPTVectorStoreIndex von LlamaIndex findet relevante Passagen — kein Keyword-Matching, sondern echtes Textverständnis.
💾
Index-Persistenz
Einmal indizierte Dokumente bleiben gespeichert. Kein Neuaufbau des Index bei jedem Start — direkt einsatzbereit.
🎯
Zwei Modi
ChatCompletion für schnelle Dialoge oder VectorStore-basiertes Retrieval für präzise, quellenbasierte Antworten.

⚙️ So funktioniert's

Drei Schritte von der Dokumentenablage zur dialogfähigen KI — Retrieval-Augmented Generation in Reinform.

📥
1. Dokumente laden
PDFs, TXTs und CSVs im knowledge/-Ordner ablegen. Das System erkennt und verarbeitet sie automatisch.
🧠
2. Vektor-Index bauen
LlamaIndex erstellt einen GPTVectorStoreIndex — semantische Embeddings für jede Textpassage.
💬
3. Fragen & Antworten
Nutzerfragen triggern eine semantische Suche im Index, die besten Treffer werden als Kontext an GPT-3.5 gesendet.
🔄
4. Kontinuierlich erweitern
Neue Dokumente einfach in den Ordner legen. Index aktualisieren — das Wissen wächst organisch mit.

💻 Technische Umsetzung

RAG (Retrieval-Augmented Generation) kombiniert die Stärken von Vektorsuche und Large Language Models. Statt das LLM mit Faktenwissen zu trainieren, erhält es zur Laufzeit die relevantesten Kontextpassagen — dadurch sind Antworten präzise, aktuell und belegbar.

🏗️ Zwei Bot-Varianten

chat_completion.py
Einfacher Chatbot mit OpenAI ChatCompletion API. Nutzer gibt Wissens-Context manuell vor — schnell, direkt, ohne Index.
simple_vector_index.py
Vollständiges RAG-System: Automatisches Dokumenten-Indexing, semantische Suche, quellenbasierte Antworten mit Belegen.
LlamaIndex
Erstellt GPTVectorStoreIndex für semantische Suche — das Herzstück des RAG-Workflows.
LangChain
Orchestrierung der LLM-Aufrufe, Prompt-Templates und Kontext-Management.

🚀 Schnellstart

# Repository klonen
git clone https://github.com/robindekoster/chatgpt-custom-knowledge-chatbot.git
cd chatgpt-custom-knowledge-chatbot

# Abhängigkeiten installieren
pip install -r requirements.txt

# OpenAI API-Key setzen
export OPENAI_API_KEY=dein-api-key

# Dokumente in knowledge/ platzieren
# Dann starten:
python main.py

🛠️ Tech Stack

Python OpenAI API LlamaIndex LangChain GPT-3.5-turbo
⚠️ Hinweis: Dieses Projekt ist nicht mehr aktiv in Entwicklung. Der Autor empfiehlt stattdessen privateGPT oder ähnliche Alternativen. Die RAG-Prinzipien und Architekturerkenntnisse bleiben jedoch hochaktuell.

⚡ In 5–7 Tagen zum RAG-Prototyp — nicht in 8–13 Wochen.

📞 02406 803 7603 ✉️ info@computerkumpel.de

🚀 Gebaut mit Vibecoding — in 5–7 Tagen statt 8–13 Wochen

👴 Klassische Entwicklung
  • 📋 2–3 Wochen Requirements Engineering
  • 🏗️ 2–3 Wochen Architektur & Design
  • 💻 3–4 Wochen Implementierung
  • 🧪 1–2 Wochen Testing
  • 🚢 1 Woche Deployment
  • ⏱️ Gesamt: 8–13 Wochen
🤖 Vibecoding-Ansatz
  • 🗣️ 0.5 Tage Prompt-Engineering
  • ⚡ 2–3 Tage iterative Generierung
  • 🔧 1–2 Tage Refinement & Debugging
  • ✅ 1 Tag Integration & Testing
  • 🚀 0.5 Tage Deployment
  • ⏱️ Gesamt: 5–7 Tage

🗣️ Der System-Prompt hinter diesem Projekt

Dieser konkrete, deutsche System-Prompt wurde für Coding-Agenten optimiert — so entstand der gesamte RAG-Chatbot in wenigen Iterationen:

Du bist ein Python-Experte für RAG-Systeme mit LlamaIndex und OpenAI.

Aufgabe: Erstelle einen Chatbot, der auf eigenen Dokumenten basiert und 
Fragen mittels Retrieval-Augmented Generation (RAG) beantwortet.

Technische Anforderungen:
- Python 3.10+, LlamaIndex für Vektor-Indexing
- OpenAI GPT-3.5-turbo als LLM-Backend
- Unterstützung für TXT, CSV und PDF-Dokumente
- Persistenter Vektor-Index (kein Neuaufbau bei jedem Start)
- Zwei Modi: ChatCompletion (schnell) & VectorStore (präzise)

RAG-Workflow:
1. Dokumente aus knowledge/-Verzeichnis laden
2. Text-Chunking mit konfigurierbarer Chunk-Größe
3. Embedding-Generierung via OpenAI Embeddings API
4. GPTVectorStoreIndex für semantische Suche
5. Bei Anfrage: Top-k relevante Chunks retrieven
6. LLM beantwortet Frage mit den Chunks als Kontext

Wichtig:
- Fehlerbehandlung für leeres knowledge/-Verzeichnis
- Streaming-Responses für bessere UX
- Konfigurierbare Parameter (Chunk-Size, Top-k, Temperatur)
- Quellenangaben in Antworten für Nachvollziehbarkeit

🎯 Strategische Erkenntnisse aus diesem Projekt

RAG ist die Brücke zwischen statischen Dokumenten und dialogfähiger KI. Diese Erkenntnisse sind auf jede Wissensmanagement-Herausforderung übertragbar.

🧩
Chunking ist die Schlüsselentscheidung
Zu große Chunks verwässern die Relevanz, zu kleine verlieren Kontext. Die optimale Chunk-Größe hängt vom Dokumententyp ab: Handbücher (1000 Tokens), Rechtstexte (500 Tokens), FAQs (250 Tokens). Ein One-Size-Fits-All-Ansatz scheitert.
📊
Embedding-Qualität > Modell-Größe
Ein gutes Embedding-Modell (text-embedding-3-large) mit einem kleinen LLM liefert bessere RAG-Ergebnisse als ein schlechtes Embedding mit GPT-4. Die Retrieval-Qualität bestimmt die Antwort-Qualität.
🔐
Cloud vs. On-Premise: Der Datenschutz-GAU
OpenAI-Embeddings senden Ihre Dokumentinhalte an US-Server. Für viele Branchen ein No-Go. Die Lösung: Lokale Embedding-Modelle (all-MiniLM-L6-v2) via Sentence-Transformers — gleiche Qualität, null Datenabfluss. Der Trend geht klar zu lokalem RAG mit Ollama + ChromaDB.
🔄
Veraltung: Das unterschätzte Problem
Ein statischer Index wird mit jedem neuen Dokument unaktueller. Lösung: Inkrementelles Indexing + Versionierung. Dokument-Metadaten (Datum, Autor, Version) im Index speichern, regelmäßige Re-Indexierung automatisieren.

Bereit, Ihr Unternehmenswissen dialogfähig zu machen?

Jedes Unternehmen hat ungenutztes Wissen in Dokumenten, Handbüchern und Protokollen. Lassen Sie uns gemeinsam herausfinden, wie ein RAG-Chatbot Ihre Wissensarbeit revolutioniert.

🔍
Workshop & Analyse
Wir analysieren Ihre Dokumentenlandschaft, identifizieren RAG-Potenziale und skizzieren eine Implementierungs-Roadmap. Dauer: 1–2 Tage.
🧪
Proof-of-Concept
Ein funktionierender RAG-Prototyp mit Ihren echten Dokumenten — innerhalb von 5–7 Tagen. Sie testen das Ergebnis, bevor Sie sich committen.
🤝
Projektbegleitung
Von der Chunking-Strategie über das Prompt-Tuning bis zum produktiven Rollout — ich begleite Ihr Team bis zur autonomen Lösung.
📞 02406 803 7603 ✉️ info@computerkumpel.de