← Alle Projekte

🧹 Kontakliste Doppel Clean

CSV-Deduplizierungstool für Kontaktdaten

📋 Beschreibung

Python-Tool zum Entfernen von doppelten Kontakteinträgen aus einer CSV-Datei. Prüft auf Duplikate basierend auf Vorname, Nachname, Straße und Hausnummer und exportiert einzigartige Datensätze.

🔧 Technologien

  • Sprache: Python 3
  • Bibliothek: Pandas (DataFrame-Operationen)
  • Encoding: ISO-8859-1 (Windows-1252)
  • Input: Kontaktpersonen.csv (semikolon-getrennt)
  • Output: Kontaktpersonen_einzigartig2.csv

⚙️ Funktionsweise

  1. CSV-Datei mit ISO-8859-1 Encoding einlesen
  2. Duplikate entfernen basierend auf Spalten 12, 13, 18, 19
  3. Einzigartige Datensätze in neue CSV exportieren

📁 Dateien

  • main.py - Hauptskript
  • Kontaktpersonen.csv - Eingabedaten
  • Kontaktpersonen_einzigartig.csv - Bereinigte Daten (v1)
  • Kontaktpersonen_einzigartig2.csv - Bereinigte Daten (v2)

🐍 Code-Ausschnitt

import pandas as pd

# CSV-Datei einlesen
df = pd.read_csv('Kontaktpersonen.csv', 
                 sep=';', 
                 header=None, 
                 encoding='ISO-8859-1')

# Duplikate entfernen (Vorname, Nachname, Straße, Hausnr.)
df_unique = df.drop_duplicates(subset=[12, 13, 18, 19])

# Exportieren
df_unique.to_csv('Kontaktpersonen_einzigartig2.csv', 
                 sep=';', 
                 header=False, 
                 index=False)