Grab IDs
Website Grabber für Ratsinfo Herzogenrath
Über das Projekt
Ein Web-Crawler zum automatischen Herunterladen von Dokumenten aus dem Ratsinformationssystem der Stadt Herzogenrath. Das Tool extrahiert Vorlagen, Sitzungsprotokolle und zugehörige PDF-Dokumente aus dem öffentlichen Ratsinfo-Portal.
Funktionen
- Automatisches Crawling durch die Vorlagen-Übersicht
- PDF-Download mit Duplikatserkennung per Hash
- Selenium-Unterstützung für JavaScript-basierte Inhalte
- AJAX-API-Ansatz als Fallback-Strategie
- Fortschrittsanzeige mit tqdm
- Organisierte Speicherung in HTML- und PDF-Ordnern
Technische Details
Der Crawler nutzt eine hybride Architektur: Primär wird Selenium für JavaScript-intensive Seiten eingesetzt, bei Bedarf greift ein direkter AJAX-API-Ansatz zurück. BeautifulSoup analysiert das HTML, um Vorlagen-Links und PDF-URLs zu extrahieren. Duplikate werden durch MD5-Hashes erkannt und ausgeschlossen.
Anwendungsfall
Ideal für Bürger, Journalisten oder Forscher, die systematisch auf kommunale Dokumente zugreifen möchten. Das Tool automatisiert den mühsamen manuellen Download-Prozess aus dem Ratsinfo-System.