PHP/MaiaDB: Crawlen einer externen URL & extrahieren von Links in eine DB

Offenburg, Baden-Württemberg  ‐ Remote
Dieses Projekt ist archiviert und leider nicht (mehr) aktiv.
Sie finden vakante Projekte hier in unserer Projektbörse.

Beschreibung

Auslesen aller Links einer URL (Link zeigt auf ein PDF, externe URL). Nur Links in einem bestimmten Bereich. Dieser Bereich ist wie folgt aufgebaut bzw. verschachtelt:
1. section Tag mit einem bestimmen data-cid Attribut
2. article Tag zweites Vorkommen (z.B. nth-type-of oder ähnliches)
3. Link mit bestimmter Klasse

Aus den Links bzw. den verlinkten PDF sollen folgende Informationen gespeichert bzw. extrahiert werden:
• Name des Links, Text zwischen den a Tags: Dieser Text
• URL des Link, href
• Hashwert des PDF
• Titel des PDF aus den Metadaten des PDF
• Erstellt am aus den Metadaten des PDF
• Geändert am aus den Metadaten des PDF

Die Daten sollen in eine Datenbank (MariaDB) gespeichert werden. Zu den oben aufgeführten Daten soll auch folgende Daten gespeichert werden:
• Die PDF-Datei aus dem Link. Alternativ auf Speicherung auf dem Filesystem des Servers möglich.

Wurde eine Datei schon einmal gecrawlt und es hat sich der Hashwert geändert, soll die ältere Version (Datei) noch beibehalten werden (z.B. pdf_old). Ältere Versionen müssen nicht gespeichert werden.

Bei einer Änderung soll eine E-Mail an eine definierte E-Mail-Adresse eine Infomail versendet werden.

Der oben beschriebene Vorgang (crawlen, etc.) soll täglich per Cronjob ablaufen.

Bei evtl. benötigten Libraries sind wir offen, wenn möglich OpenSource.

Optional
Die neue Version (PDF) soll mit der bereits vorhandenen Version (PDF) vergleichen werden. Die Änderungen sollen in der Infomail mit gesendet werden.
Start
ab sofort
Dauer
1 Monate
Von
Lukrativ GmbH
Eingestellt
01.07.2018
Ansprechpartner:
Matthias Luchner
Projekt-ID:
1590872
Vertragsart
Freiberuflich
Einsatzart
100 % Remote
Um sich auf dieses Projekt zu bewerben müssen Sie sich einloggen.
Registrieren