← Alle Projekte

Train

OpenAI Modell-Training & Document Retrieval

Ort: D:\arbeit\git\train

Status: Archiviert

Letzte Änderung: 2024

Python OpenAI API LangChain ChromaDB

Projektbeschreibung

Dieses Repository enthält experimentelle Skripte zur Interaktion mit der OpenAI API. Es umfasst sowohl ein Projekt zum Abrufen und Verarbeiten von Dokumenten (chatgpt-retrieval) als auch ältere Versuche zum Training eigener Modelle.

Der Fokus liegt auf der Verarbeitung von Textdateien und der Konvertierung in JSON-Formate für die weitere Nutzung mit OpenAI-Modellen.

Hauptkomponenten

1. chatgpt-retrieval/

Ein LangChain-basiertes Retrieval-System für Dokumente. Ermöglicht das Stellen von Fragen zu eigenen Dokumenten über eine Konversationsschnittstelle.

2. Text-Processing Skripte

Python-Skripte zum Aufbereiten von Textdateien für KI-Training:

splitt.py / splitt_new.py – Teilen große Textdateien in 500-Zeichen-Chunks und speichern als JSON
train.py – Experimentelles OpenAI Modell-Training (veralteter API-Ansatz)
perm.py / test.py – API-Tests und Berechtigungsmanagement

3. doc/

Enthält Trainingsdaten wie grundsatzprogramm.txt – ein politisches Grundsatzprogramm als Beispieldokument.

Technologien

Python 3

Hauptsprache für alle Skripte

OpenAI API

Text-Einbettungen und Modellzugriff

LangChain

Framework für Document Retrieval & Chains

ChromaDB

Vektor-Datenbank für semantische Suche

chardet

Zeichensatz-Erkennung für Textdateien

Dateistruktur

chatgpt-retrieval/

LangChain Retrieval-System mit Git-Repository

doc/

Trainingsdaten-Verzeichnis

train.py

Experimentelles Modell-Training (OpenAI API v1)

splitt.py / splitt_new.py

Text-zu-JSON Konverter mit Chunking

perm.py

Modellberechtigungen verwalten

test.py

API-Verbindungstest

Hinweise

Dieses Projekt verwendet ältere OpenAI API-Aufrufe (z.B. openai.Model.create()), die mit der aktuellen API-Version nicht mehr kompatibel sind. Der Code dient primär archivarischen Zwecken.

Das chatgpt-retrieval Unterprojekt basiert auf einem YouTube-Tutorial und nutzt LangChain für modernes RAG (Retrieval-Augmented Generation).