📊 Business Value

🎤
KI-Voiceover
ElevenLabs multilingual v2 generiert natürliche Sprachausgabe aus Produktbeschreibung. Automatische Audio-Normalisierung via FFmpeg loudnorm.

🎨

Visuelle Overlays

Titel, Preis, QR-Code und Overlay-Grafiken als CompositeVideoClip. Hochkant (720x1280) für Social Media optimiert.

🖼️

AI-Bildanalyse

OpenAI Vision analysiert Produktbilder und generiert beschreibende Voiceover-Texte pro Szene.

🎵

Musik-Mix

Hintergrundmusik (5% Lautstärke) mit Fade-Out. CompositeAudioClip mixt Voiceover + Musik.

💻 Code — Flask Web-App mit ElevenLabs Voiceover

Voiceover-Generierung mit Audio-Normalisierung

import subprocess, uuid, requests
from flask import Flask, render_template, request

app = Flask(__name__)
ELEVENLABS_API_KEY = 'sk_0895c474f3796dd962cfea38...'

def generate_speech(text, api_key):
    url = ("https://api.elevenlabs.io/v1/text-to-speech"
           "/neSsqAiYj0KThbslcqPj")
    headers = {
        "Accept": "audio/mpeg",
        "Content-Type": "application/json; charset=utf-8",
        "xi-api-key": api_key
    }
    data = {
        "text": text.encode('utf-8').decode('utf-8'),
        "model_id": "eleven_multilingual_v2",
        "voice_settings": {
            "stability": 0.5,
            "similarity_boost": 0.8,
            "style": 0.00,
            "use_speaker_boost": True
        }
    }
    response = requests.post(url, json=data, headers=headers)
    
    if response.status_code == 200:
        temp = f"/tmp/{uuid.uuid4()}_temp.mp3"
        with open(temp, "wb") as f:
            f.write(response.content)
        
        # FFmpeg Loudnorm Normalisierung
        normalized = f"/tmp/{uuid.uuid4()}_voiceover.mp3"
        subprocess.run([
            "ffmpeg", "-i", temp,
            "-af", "loudnorm=I=-23:LRA=7:TP=-1.5",
            "-ar", "44100", "-b:a", "192k",
            normalized
        ], check=True)
        os.remove(temp)
        return normalized
    return None

💻 Code — MoviePy Bild-in-Bild Komposition mit QR-Code

Overlay-Stack: Hintergrund + Video + Titel + Preis + QR-Code

from moviepy.editor import (VideoFileClip, ImageClip, 
    CompositeVideoClip, AudioFileClip, CompositeAudioClip)

def add_text_and_qr_to_video(video_path, qr_path, 
                              title_path, price_path, music_path):
    video_clip = VideoFileClip(video_path)
    
    # Weißer Hintergrund (verhindert schwarze Balken)
    back = ColorClip(size=video_clip.size, 
                     color=(255,255,255),
                     duration=video_clip.duration)
    
    # Overlay-Bilder positionieren
    overlay = ImageClip("overlay_vertical.png") \
        .set_duration(video_clip.duration) \
        .set_position((0, 0))
    
    price_clip = ImageClip(price_path) \
        .set_duration(video_clip.duration) \
        .set_position((506, 0))
    
    title_clip = ImageClip(title_path) \
        .set_duration(video_clip.duration) \
        .set_position((74, 0))
    
    qr_clip = ImageClip(qr_path) \
        .set_duration(video_clip.duration) \
        .set_position((291, 0))
    
    # Musik: 5% Lautstärke + Fade-Out
    music = AudioFileClip(music_path) \
        .volumex(0.05) \
        .set_duration(video_clip.duration) \
        .audio_fadeout(1)
    
    combined_audio = CompositeAudioClip(
        [video_clip.audio, music])
    
    # Finale Komposition: 5 Ebenen
    final = CompositeVideoClip([
        back, video_clip, overlay, 
        qr_clip, title_clip, price_clip
    ]).set_audio(combined_audio)
    
    final.write_videofile("output.mp4", fps=24)

💻 Code — Bildanalyse mit OpenAI Vision

Produktbild → beschreibender Voiceover-Text

def analyze_image(image_url, product_title, product_desc):
    """OpenAI Vision analysiert Produktbild"""
    response = openai.ChatCompletion.create(
        model="gpt-4-vision-preview",
        messages=[{
            "role": "user",
            "content": [
                {"type": "text", 
                 "text": f"Beschreibe dieses Produktbild für "
                         f"ein Voiceover (max 2 Sätze). "
                         f"Produkt: {product_title}"},
                {"type": "image_url",
                 "image_url": image_url}
            ]
        }],
        max_tokens=150
    )
    return response.choices[0].message.content

🎯 Strategische Erkenntnisse

📈

Video-Content ist Reichweite

Amazon-Produkte mit Video verkaufen 3.6x häufiger (laut Amazon-Studie). Aber manuelle Videoproduktion skaliert nicht. Die Pipeline löst das.

Jedes Affiliate-Produkt braucht ein Video — Automation macht's möglich.

🎤

Stimme = Emotion

ElevenLabs multilingual v2 mit Speaker Boost klingt natürlicher als 90% der menschlichen Voiceover auf YouTube.

KI-Stimme ist nicht mehr erkennbar — das ist seit 2024 Realität.

Ihre Video-Produktionsstraße

Produktdaten → KI-Voiceover → Video-Komposition → Upload. Ich baue Ihre Content-Automation. In 2 Wochen produktiv.

📞 Jetzt anrufen ✉️ E-Mail senden

🎬 Amazon Werbevideo Generator — Produktvideo mit KI-Voiceover in Minuten