📚 Custom Data

KI-gestĂŒtzte Dokumentensuche mit Vektor-Embeddings

🔍

Semantische Dokumentensuche

Status: Prototyp / Proof-of-Concept

Beschreibung

Custom Data ist ein Python-basiertes Projekt zur intelligenten Dokumentensuche. PDF-Dokumente werden extrahiert, in Vektor-Embeddings umgewandelt und in einer MySQL-Datenbank gespeichert. Über eine Web-OberflĂ€che können Nutzer semantische Suchanfragen stellen - die Suche findet Ă€hnliche Inhalte basierend auf Bedeutung, nicht nur auf exakte Keyword-Matches.

Technologien

Python Backend-Logik, PDF-Verarbeitung, API-Integration
OpenAI API text-embedding-ada-002 fĂŒr Vektor-Embeddings
Aleph Alpha Luminous-Extended Modell fĂŒr Textgenerierung
MySQL Speicherung von Embeddings und Dokumententexten
PHP Backend fĂŒr Suchanfragen (searchScript.php)
HTML/JavaScript Frontend mit Bootstrap UI und AJAX
PyPDF2 PDF-Textextraktion
jQuery Asynchrone Suchanfragen

Projektstruktur

custom_data/
├── data/                    # PDF-Dokumente (HandbĂŒcher, Anleitungen)
├── aa/                      # Aleph Alpha Beispiel-Skripte
├── alpha.py                 # Aleph Alpha API-Tests
├── config.py                # Datenbank- & API-Konfiguration
├── embedding.py             # PDF-Verarbeitung & Embedding-Generierung
├── search.py                # Semantische Suche mit Vektor-Vergleich
├── summary.py               # Zusammenfassungserstellung
├── test.py                  # Test-Skript
├── index.html               # Web-Interface fĂŒr die Suche
├── searchScript.php         # PHP-Backend fĂŒr Suchanfragen
└── index.php                # Alternative PHP-Version
                

Funktionen

  • 📄 PDF-Extraktion: Automatische Textextraktion aus PDF-Dokumenten
  • 🔱 Embeddings: Konvertierung von Text in 1536-dimensionale Vektoren (OpenAI)
  • đŸ’Ÿ Datenbank: MySQL-Speicherung mit JSON-Embeddings
  • 🔍 Semantische Suche: Ähnlichkeitssuche per Dot-Product im SQL-Query
  • 📝 Zusammenfassungen: Automatische Text-Zusammenfassung via GPT/AA
  • 🌐 Web-Interface: Einfache Suchmaske mit Ergebnisanzeige

Anwendungsfall

Entwickelt fĂŒr die Suche in technischen Dokumentationen (ca. 100+ PDF-HandbĂŒcher zu Lasersystemen, KĂŒhleinheiten, Sensoren). Statt starrer Keyword-Suche ermöglicht das System natĂŒrlichsprachliche Anfragen wie "Wie tausche ich den KĂŒhler?" und findet relevante Anleitungen unabhĂ€ngig von der exakten Formulierung.

Python OpenAI API Aleph Alpha MySQL PHP Embeddings Vektor-Suche NLP