Beschreibung
Auslesen aller Links einer URL (Link zeigt auf ein PDF, externe URL). Nur Links in einem bestimmten Bereich. Dieser Bereich ist wie folgt aufgebaut bzw. verschachtelt:1. section Tag mit einem bestimmen data-cid Attribut
2. article Tag zweites Vorkommen (z.B. nth-type-of oder ähnliches)
3. Link mit bestimmter Klasse
Aus den Links bzw. den verlinkten PDF sollen folgende Informationen gespeichert bzw. extrahiert werden:
• Name des Links, Text zwischen den a Tags: Dieser Text
• URL des Link, href
• Hashwert des PDF
• Titel des PDF aus den Metadaten des PDF
• Erstellt am aus den Metadaten des PDF
• Geändert am aus den Metadaten des PDF
Die Daten sollen in eine Datenbank (MariaDB) gespeichert werden. Zu den oben aufgeführten Daten soll auch folgende Daten gespeichert werden:
• Die PDF-Datei aus dem Link. Alternativ auf Speicherung auf dem Filesystem des Servers möglich.
Wurde eine Datei schon einmal gecrawlt und es hat sich der Hashwert geändert, soll die ältere Version (Datei) noch beibehalten werden (z.B. pdf_old). Ältere Versionen müssen nicht gespeichert werden.
Bei einer Änderung soll eine E-Mail an eine definierte E-Mail-Adresse eine Infomail versendet werden.
Der oben beschriebene Vorgang (crawlen, etc.) soll täglich per Cronjob ablaufen.
Bei evtl. benötigten Libraries sind wir offen, wenn möglich OpenSource.
Optional
Die neue Version (PDF) soll mit der bereits vorhandenen Version (PDF) vergleichen werden. Die Änderungen sollen in der Infomail mit gesendet werden.