Grab IDs

Website Grabber für Ratsinfo Herzogenrath

Python BeautifulSoup Selenium requests

Über das Projekt

Ein Web-Crawler zum automatischen Herunterladen von Dokumenten aus dem Ratsinformationssystem der Stadt Herzogenrath. Das Tool extrahiert Vorlagen, Sitzungsprotokolle und zugehörige PDF-Dokumente aus dem öffentlichen Ratsinfo-Portal.

Funktionen

  • Automatisches Crawling durch die Vorlagen-Übersicht
  • PDF-Download mit Duplikatserkennung per Hash
  • Selenium-Unterstützung für JavaScript-basierte Inhalte
  • AJAX-API-Ansatz als Fallback-Strategie
  • Fortschrittsanzeige mit tqdm
  • Organisierte Speicherung in HTML- und PDF-Ordnern

Technische Details

Der Crawler nutzt eine hybride Architektur: Primär wird Selenium für JavaScript-intensive Seiten eingesetzt, bei Bedarf greift ein direkter AJAX-API-Ansatz zurück. BeautifulSoup analysiert das HTML, um Vorlagen-Links und PDF-URLs zu extrahieren. Duplikate werden durch MD5-Hashes erkannt und ausgeschlossen.

Anwendungsfall

Ideal für Bürger, Journalisten oder Forscher, die systematisch auf kommunale Dokumente zugreifen möchten. Das Tool automatisiert den mühsamen manuellen Download-Prozess aus dem Ratsinfo-System.