Custom Data

Maßgeschneiderte Datenverarbeitung

Python ETL Datenverarbeitung

💻 Code-Einblicke

Ein Blick unter die Haube — so ist das Projekt technisch umgesetzt:

Semantische Vektor-Suche mit OpenAI Embeddings

def search_similar_vector(search_phrase):
    embedding_data = create_embeddings(search_phrase)
    search_vector = embedding_data["data"][0]["embedding"]

    connection = pymysql.connect(
        host=host, user=user, password=password,
        port=port, database=db, charset='utf8mb4',
        cursorclass=pymysql.cursors.DictCursor
    )

    dot_product_sql = generate_dot_product_sql(
        EMBEDDING_DIMENSION, search_vector)

    query = f"""
        SELECT file_name, file_text,
               ({dot_product_sql}) AS score
        FROM embeddings
        ORDER BY score DESC
        LIMIT 2;
    """

    with connection.cursor() as cursor:
        cursor.execute(query)
        results = cursor.fetchall()
        return [
            {'file_name': row['file_name'],
             'summary': create_summary(row['file_text']),
             'score': row['score']}
            for row in results
        ]

PDF-Extraktion & Embedding-Speicherung

def process_pdfs_in_folder(folder_path, model_id):
    for filename in os.listdir(folder_path):
        if filename.endswith(".pdf"):
            full_path = os.path.join(folder_path, filename)
            text = extract_text_from_pdf(full_path)
            embeddings = create_embeddings(model_id, text)
            store_embedding_in_mysql(embeddings, filename, text)

def extract_text_from_pdf(pdf_path):
    with open(pdf_path, 'rb') as file:
        reader = PdfReader(file)
        text = ""
        for page in reader.pages:
            text += page.extract_text()
    return text

KI-gestützte Zusammenfassung mit Aleph Alpha

def alpehSum(text):
    prompt_text = "create a summery: {text}"
    params = {
        "prompt": Prompt.from_text(prompt_text),
        "maximum_tokens": 32,
        "temperature": 0.12,
        "stop_sequences": ["###", "\n"],
    }
    request = CompletionRequest(**params)
    response = model.complete(
        request, model="luminous-extended")
    return response.completions[0].completion

Dot-Product SQL für Ähnlichkeitssuche

def generate_dot_product_sql(
        embedding_dimension, search_vector):
    components = [
        f"CAST(JSON_UNQUOTE(JSON_EXTRACT(
            summary_embedding, '$[{i}]'))
            AS DECIMAL(20,10)) * {search_vector[i]}"
        for i in range(embedding_dimension)
    ]
    return " + ".join(components)

🚀 Interesse an diesem Projekt? Sprechen Sie mich an!

📞 02406 803 7603 ✉️ info@computerkumpel.de

💰 Business Value

Framework für kundenspezifische Datenverarbeitungspipelines. Flexible Konfiguration für individuelle Extraktions-, Transformations- und Lade-Anforderungen (ETL)

⏱️
Effizienz
Automatisierte Prozesse sparen wertvolle Arbeitszeit und reduzieren manuelle Routineaufgaben auf ein Minimum.
💶
Kostensenkung
Open-Source-Technologien und lokale Ausführung minimieren laufende Kosten — keine teuren Cloud-Abhängigkeiten.
🎯
Präzision
Konsistente, fehlerfreie Ausführung ohne menschliche Ermüdung — 24/7 einsatzbereit und zuverlässig.
📈
Skalierbarkeit
Flexible Architektur wächst mit Ihren Anforderungen — von Einzelplatz bis Enterprise ohne Systemwechsel.

⚙️ Funktionsweise

Die Kern-Mechanik des Projekts im Überblick.

📥
1. Eingabe
Daten, Dateien oder Parameter werden definiert und dem System übergeben — per UI, API oder Konfiguration.
⚙️
2. Verarbeitung
Das System führt automatisierte Operationen aus — Transformation, Analyse, Anreicherung oder Generierung.
3. Validierung
Ergebnisse werden geprüft und validiert — Fehlererkennung und Logging für vollständige Nachvollziehbarkeit.
📤
4. Ausgabe
Resultate werden im Zielformat bereitgestellt — Datei-Export, API-Response, Upload oder Datenbank-Eintrag.

💻 Technische Umsetzung

Das Projekt nutzt moderne Technologien und bewährte Open-Source-Tools für maximale Effizienz und Wartbarkeit.

⚡ In wenigen Tagen zum MVP — mit Vibecoding.

📞 02406 803 7603 ✉️ info@computerkumpel.de

🚀 Gebaut mit Vibecoding

👴 Klassische Entwicklung
  • 📋 2–3 Wochen Requirements
  • 🏗️ 2–3 Wochen Architektur
  • 💻 3–4 Wochen Implementierung
  • 🧪 1–2 Wochen Testing
  • ⏱️ Gesamt: 8–13 Wochen
🤖 Vibecoding-Ansatz
  • 🗣️ 0.5 Tage Prompt-Engineering
  • ⚡ 2–3 Tage iterative Generierung
  • 🔧 1–2 Tage Refinement
  • ✅ 1 Tag Testing & Deployment
  • ⏱️ Gesamt: 5–7 Tage

🎯 Strategische Erkenntnisse

Jedes Projekt liefert wertvolle Einsichten — technisch wie strategisch. Diese Learnings fließen direkt in Folgeprojekte ein.

🔒
Open Source = Unabhängigkeit
Offene Technologien bedeuten keine Vendor-Lock-ins, volle Kontrolle über den Code und langfristige Wartbarkeit ohne Lizenzkosten.
📈
Bottom-up statt Big Bang
Kleine, funktionierende Prototypen schlagen monatelange Planungsphasen. Erst beweisen, dann ausrollen — iterativ und risikominimiert.
🔄
Wiederverwendbarkeit
Modular aufgebauter Code beschleunigt Folgeprojekte massiv. Einmal gelöste Probleme werden zur Template-Bibliothek für zukünftige Herausforderungen.
🤖
KI als Beschleuniger
Vibecoding mit Coding-Agenten komprimiert Entwicklungszyklen von Wochen auf Tage — ohne Qualitätseinbußen durch iterative Prompt-Verfeinerung.

Bereit für Ihr nächstes Projekt?

Lassen Sie uns gemeinsam herausfinden, wo Automatisierung und KI den größten Hebel für Ihr Business haben — unverbindlich und pragmatisch.

🔍
Analyse & Konzept
Wir analysieren Ihre Anforderungen und skizzieren eine passgenaue Lösung — technisch fundiert und wirtschaftlich sinnvoll.
🧪
Proof-of-Concept
Ein funktionierender Prototyp innerhalb weniger Tage — Sie sehen das Ergebnis, bevor Sie sich committen.
🤝
Projektbegleitung
Von der Entwicklung über das Deployment bis zum Go-Live — ich begleite Sie durch den gesamten Prozess.
📞 02406 803 7603 ✉️ info@computerkumpel.de