Custom-Knowledge-Chatbot: Proprietäre Daten intelligent nutzbar machen

Von statischen Dokumenten zur dialogfähigen KI-Wissensbasis mit RAG-Architektur

Python OpenAI API LlamaIndex RAG

🚀 Machen Sie Ihre Dokumente dialogfähig — mit RAG.

📞 02406 803 7603 ✉️ info@computerkumpel.de

💰 Warum ein RAG-Chatbot Ihr Unternehmen transformiert

Mitarbeiter verbringen durchschnittlich 19% ihrer Arbeitszeit mit der Suche nach Informationen — das sind bei einem 80-€-Stundensatz über 25.000 € pro Jahr und Mitarbeiter. Ein RAG-Chatbot, der Ihre eigenen Dokumente als Wissensbasis nutzt, reduziert diese Suchzeit um bis zu 80%.

📚

Eigenes Wissen

TXT, CSV und PDF-Dateien aus dem knowledge-Verzeichnis werden automatisch indiziert. Kein Training nötig — einfach ablegen und fragen.

🔍

Semantische Suche

GPTVectorStoreIndex von LlamaIndex findet relevante Passagen — kein Keyword-Matching, sondern echtes Textverständnis.

💾

Index-Persistenz

Einmal indizierte Dokumente bleiben gespeichert. Kein Neuaufbau des Index bei jedem Start — direkt einsatzbereit.

🎯

Zwei Modi

ChatCompletion für schnelle Dialoge oder VectorStore-basiertes Retrieval für präzise, quellenbasierte Antworten.

⚙️ So funktioniert's

Drei Schritte von der Dokumentenablage zur dialogfähigen KI — Retrieval-Augmented Generation in Reinform.

📥

1. Dokumente laden

PDFs, TXTs und CSVs im knowledge/-Ordner ablegen. Das System erkennt und verarbeitet sie automatisch.

🧠

2. Vektor-Index bauen

LlamaIndex erstellt einen GPTVectorStoreIndex — semantische Embeddings für jede Textpassage.

💬

3. Fragen & Antworten

Nutzerfragen triggern eine semantische Suche im Index, die besten Treffer werden als Kontext an GPT-3.5 gesendet.

🔄

4. Kontinuierlich erweitern

Neue Dokumente einfach in den Ordner legen. Index aktualisieren — das Wissen wächst organisch mit.

💻 Technische Umsetzung

RAG (Retrieval-Augmented Generation) kombiniert die Stärken von Vektorsuche und Large Language Models. Statt das LLM mit Faktenwissen zu trainieren, erhält es zur Laufzeit die relevantesten Kontextpassagen — dadurch sind Antworten präzise, aktuell und belegbar.

🏗️ Zwei Bot-Varianten

chat_completion.py

Einfacher Chatbot mit OpenAI ChatCompletion API. Nutzer gibt Wissens-Context manuell vor — schnell, direkt, ohne Index.

simple_vector_index.py

Vollständiges RAG-System: Automatisches Dokumenten-Indexing, semantische Suche, quellenbasierte Antworten mit Belegen.

LlamaIndex

Erstellt GPTVectorStoreIndex für semantische Suche — das Herzstück des RAG-Workflows.

LangChain

Orchestrierung der LLM-Aufrufe, Prompt-Templates und Kontext-Management.

🚀 Schnellstart

# Repository klonen
git clone https://github.com/robindekoster/chatgpt-custom-knowledge-chatbot.git
cd chatgpt-custom-knowledge-chatbot

# Abhängigkeiten installieren
pip install -r requirements.txt

# OpenAI API-Key setzen
export OPENAI_API_KEY=dein-api-key

# Dokumente in knowledge/ platzieren
# Dann starten:
python main.py

🛠️ Tech Stack

Python OpenAI API LlamaIndex LangChain GPT-3.5-turbo

⚠️ Hinweis: Dieses Projekt ist nicht mehr aktiv in Entwicklung. Der Autor empfiehlt stattdessen privateGPT oder ähnliche Alternativen. Die RAG-Prinzipien und Architekturerkenntnisse bleiben jedoch hochaktuell.

⚡ In 5–7 Tagen zum RAG-Prototyp — nicht in 8–13 Wochen.

📞 02406 803 7603 ✉️ info@computerkumpel.de

🚀 Gebaut mit Vibecoding — in 5–7 Tagen statt 8–13 Wochen

👴 Klassische Entwicklung

📋 2–3 Wochen Requirements Engineering
🏗️ 2–3 Wochen Architektur & Design
💻 3–4 Wochen Implementierung
🧪 1–2 Wochen Testing
🚢 1 Woche Deployment
⏱️ Gesamt: 8–13 Wochen

🤖 Vibecoding-Ansatz

🗣️ 0.5 Tage Prompt-Engineering
⚡ 2–3 Tage iterative Generierung
🔧 1–2 Tage Refinement & Debugging
✅ 1 Tag Integration & Testing
🚀 0.5 Tage Deployment
⏱️ Gesamt: 5–7 Tage

🗣️ Der System-Prompt hinter diesem Projekt

Dieser konkrete, deutsche System-Prompt wurde für Coding-Agenten optimiert — so entstand der gesamte RAG-Chatbot in wenigen Iterationen:

Du bist ein Python-Experte für RAG-Systeme mit LlamaIndex und OpenAI.

Aufgabe: Erstelle einen Chatbot, der auf eigenen Dokumenten basiert und 
Fragen mittels Retrieval-Augmented Generation (RAG) beantwortet.

Technische Anforderungen:
- Python 3.10+, LlamaIndex für Vektor-Indexing
- OpenAI GPT-3.5-turbo als LLM-Backend
- Unterstützung für TXT, CSV und PDF-Dokumente
- Persistenter Vektor-Index (kein Neuaufbau bei jedem Start)
- Zwei Modi: ChatCompletion (schnell) & VectorStore (präzise)

RAG-Workflow:
1. Dokumente aus knowledge/-Verzeichnis laden
2. Text-Chunking mit konfigurierbarer Chunk-Größe
3. Embedding-Generierung via OpenAI Embeddings API
4. GPTVectorStoreIndex für semantische Suche
5. Bei Anfrage: Top-k relevante Chunks retrieven
6. LLM beantwortet Frage mit den Chunks als Kontext

Wichtig:
- Fehlerbehandlung für leeres knowledge/-Verzeichnis
- Streaming-Responses für bessere UX
- Konfigurierbare Parameter (Chunk-Size, Top-k, Temperatur)
- Quellenangaben in Antworten für Nachvollziehbarkeit

🎯 Strategische Erkenntnisse aus diesem Projekt

RAG ist die Brücke zwischen statischen Dokumenten und dialogfähiger KI. Diese Erkenntnisse sind auf jede Wissensmanagement-Herausforderung übertragbar.

🧩

Chunking ist die Schlüsselentscheidung

Zu große Chunks verwässern die Relevanz, zu kleine verlieren Kontext. Die optimale Chunk-Größe hängt vom Dokumententyp ab: Handbücher (1000 Tokens), Rechtstexte (500 Tokens), FAQs (250 Tokens). Ein One-Size-Fits-All-Ansatz scheitert.

📊

Embedding-Qualität > Modell-Größe

Ein gutes Embedding-Modell (text-embedding-3-large) mit einem kleinen LLM liefert bessere RAG-Ergebnisse als ein schlechtes Embedding mit GPT-4. Die Retrieval-Qualität bestimmt die Antwort-Qualität.

🔐

Cloud vs. On-Premise: Der Datenschutz-GAU

OpenAI-Embeddings senden Ihre Dokumentinhalte an US-Server. Für viele Branchen ein No-Go. Die Lösung: Lokale Embedding-Modelle (all-MiniLM-L6-v2) via Sentence-Transformers — gleiche Qualität, null Datenabfluss. Der Trend geht klar zu lokalem RAG mit Ollama + ChromaDB.

🔄

Veraltung: Das unterschätzte Problem

Ein statischer Index wird mit jedem neuen Dokument unaktueller. Lösung: Inkrementelles Indexing + Versionierung. Dokument-Metadaten (Datum, Autor, Version) im Index speichern, regelmäßige Re-Indexierung automatisieren.

Bereit, Ihr Unternehmenswissen dialogfähig zu machen?

Jedes Unternehmen hat ungenutztes Wissen in Dokumenten, Handbüchern und Protokollen. Lassen Sie uns gemeinsam herausfinden, wie ein RAG-Chatbot Ihre Wissensarbeit revolutioniert.

🔍

Workshop & Analyse

Wir analysieren Ihre Dokumentenlandschaft, identifizieren RAG-Potenziale und skizzieren eine Implementierungs-Roadmap. Dauer: 1–2 Tage.

🧪

Proof-of-Concept

Ein funktionierender RAG-Prototyp mit Ihren echten Dokumenten — innerhalb von 5–7 Tagen. Sie testen das Ergebnis, bevor Sie sich committen.

🤝

Projektbegleitung

Von der Chunking-Strategie über das Prompt-Tuning bis zum produktiven Rollout — ich begleite Ihr Team bis zur autonomen Lösung.

📞 02406 803 7603 ✉️ info@computerkumpel.de