← Alle Projekte

Train

OpenAI Modell-Training & Document Retrieval

Ort: D:\arbeit\git\train
Status: Archiviert
Letzte Änderung: 2024
Python OpenAI API LangChain ChromaDB

Projektbeschreibung

Dieses Repository enthält experimentelle Skripte zur Interaktion mit der OpenAI API. Es umfasst sowohl ein Projekt zum Abrufen und Verarbeiten von Dokumenten (chatgpt-retrieval) als auch ältere Versuche zum Training eigener Modelle.

Der Fokus liegt auf der Verarbeitung von Textdateien und der Konvertierung in JSON-Formate für die weitere Nutzung mit OpenAI-Modellen.

Hauptkomponenten

1. chatgpt-retrieval/

Ein LangChain-basiertes Retrieval-System für Dokumente. Ermöglicht das Stellen von Fragen zu eigenen Dokumenten über eine Konversationsschnittstelle.

2. Text-Processing Skripte

Python-Skripte zum Aufbereiten von Textdateien für KI-Training:

3. doc/

Enthält Trainingsdaten wie grundsatzprogramm.txt – ein politisches Grundsatzprogramm als Beispieldokument.

Technologien

Python 3
Hauptsprache für alle Skripte
OpenAI API
Text-Einbettungen und Modellzugriff
LangChain
Framework für Document Retrieval & Chains
ChromaDB
Vektor-Datenbank für semantische Suche
chardet
Zeichensatz-Erkennung für Textdateien

Dateistruktur

chatgpt-retrieval/
LangChain Retrieval-System mit Git-Repository
doc/
Trainingsdaten-Verzeichnis
train.py
Experimentelles Modell-Training (OpenAI API v1)
splitt.py / splitt_new.py
Text-zu-JSON Konverter mit Chunking
perm.py
Modellberechtigungen verwalten
test.py
API-Verbindungstest

Hinweise

Dieses Projekt verwendet ältere OpenAI API-Aufrufe (z.B. openai.Model.create()), die mit der aktuellen API-Version nicht mehr kompatibel sind. Der Code dient primär archivarischen Zwecken.

Das chatgpt-retrieval Unterprojekt basiert auf einem YouTube-Tutorial und nutzt LangChain für modernes RAG (Retrieval-Augmented Generation).