💻 Code-Einblicke
Ein Blick unter die Haube — so ist das Projekt technisch umgesetzt:
Semantische Vektor-Suche mit OpenAI Embeddings
def search_similar_vector(search_phrase):
embedding_data = create_embeddings(search_phrase)
search_vector = embedding_data["data"][0]["embedding"]
connection = pymysql.connect(
host=host, user=user, password=password,
port=port, database=db, charset='utf8mb4',
cursorclass=pymysql.cursors.DictCursor
)
dot_product_sql = generate_dot_product_sql(
EMBEDDING_DIMENSION, search_vector)
query = f"""
SELECT file_name, file_text,
({dot_product_sql}) AS score
FROM embeddings
ORDER BY score DESC
LIMIT 2;
"""
with connection.cursor() as cursor:
cursor.execute(query)
results = cursor.fetchall()
return [
{'file_name': row['file_name'],
'summary': create_summary(row['file_text']),
'score': row['score']}
for row in results
]
PDF-Extraktion & Embedding-Speicherung
def process_pdfs_in_folder(folder_path, model_id):
for filename in os.listdir(folder_path):
if filename.endswith(".pdf"):
full_path = os.path.join(folder_path, filename)
text = extract_text_from_pdf(full_path)
embeddings = create_embeddings(model_id, text)
store_embedding_in_mysql(embeddings, filename, text)
def extract_text_from_pdf(pdf_path):
with open(pdf_path, 'rb') as file:
reader = PdfReader(file)
text = ""
for page in reader.pages:
text += page.extract_text()
return text
KI-gestützte Zusammenfassung mit Aleph Alpha
def alpehSum(text):
prompt_text = "create a summery: {text}"
params = {
"prompt": Prompt.from_text(prompt_text),
"maximum_tokens": 32,
"temperature": 0.12,
"stop_sequences": ["###", "\n"],
}
request = CompletionRequest(**params)
response = model.complete(
request, model="luminous-extended")
return response.completions[0].completion
Dot-Product SQL für Ähnlichkeitssuche
def generate_dot_product_sql(
embedding_dimension, search_vector):
components = [
f"CAST(JSON_UNQUOTE(JSON_EXTRACT(
summary_embedding, '$[{i}]'))
AS DECIMAL(20,10)) * {search_vector[i]}"
for i in range(embedding_dimension)
]
return " + ".join(components)
🚀 Interesse an diesem Projekt? Sprechen Sie mich an!
💰 Business Value
Framework für kundenspezifische Datenverarbeitungspipelines. Flexible Konfiguration für individuelle Extraktions-, Transformations- und Lade-Anforderungen (ETL)
⚙️ Funktionsweise
Die Kern-Mechanik des Projekts im Überblick.
💻 Technische Umsetzung
Das Projekt nutzt moderne Technologien und bewährte Open-Source-Tools für maximale Effizienz und Wartbarkeit.
⚡ In wenigen Tagen zum MVP — mit Vibecoding.
🚀 Gebaut mit Vibecoding
- 📋 2–3 Wochen Requirements
- 🏗️ 2–3 Wochen Architektur
- 💻 3–4 Wochen Implementierung
- 🧪 1–2 Wochen Testing
- ⏱️ Gesamt: 8–13 Wochen
- 🗣️ 0.5 Tage Prompt-Engineering
- ⚡ 2–3 Tage iterative Generierung
- 🔧 1–2 Tage Refinement
- ✅ 1 Tag Testing & Deployment
- ⏱️ Gesamt: 5–7 Tage
🎯 Strategische Erkenntnisse
Jedes Projekt liefert wertvolle Einsichten — technisch wie strategisch. Diese Learnings fließen direkt in Folgeprojekte ein.
Bereit für Ihr nächstes Projekt?
Lassen Sie uns gemeinsam herausfinden, wo Automatisierung und KI den größten Hebel für Ihr Business haben — unverbindlich und pragmatisch.