PHP/MaiaDB: Crawlen einer externen URL & extrahieren von Links in eine DB

Offenburg, Baden-Württemberg

‐ Remote

Dieses Projekt ist archiviert und leider nicht (mehr) aktiv.
Sie finden vakante Projekte hier in unserer Projektbörse.

Schlagworte

MySQL PHP MariaDB Datenbank PDF webcrawler

Beschreibung

Auslesen aller Links einer URL (Link zeigt auf ein PDF, externe URL). Nur Links in einem bestimmten Bereich. Dieser Bereich ist wie folgt aufgebaut bzw. verschachtelt:
1. section Tag mit einem bestimmen data-cid Attribut
2. article Tag zweites Vorkommen (z.B. nth-type-of oder ähnliches)
3. Link mit bestimmter Klasse

Aus den Links bzw. den verlinkten PDF sollen folgende Informationen gespeichert bzw. extrahiert werden:
• Name des Links, Text zwischen den a Tags: Dieser Text
• URL des Link, href
• Hashwert des PDF
• Titel des PDF aus den Metadaten des PDF
• Erstellt am aus den Metadaten des PDF
• Geändert am aus den Metadaten des PDF

Die Daten sollen in eine Datenbank (MariaDB) gespeichert werden. Zu den oben aufgeführten Daten soll auch folgende Daten gespeichert werden:
• Die PDF-Datei aus dem Link. Alternativ auf Speicherung auf dem Filesystem des Servers möglich.

Wurde eine Datei schon einmal gecrawlt und es hat sich der Hashwert geändert, soll die ältere Version (Datei) noch beibehalten werden (z.B. pdf_old). Ältere Versionen müssen nicht gespeichert werden.

Bei einer Änderung soll eine E-Mail an eine definierte E-Mail-Adresse eine Infomail versendet werden.

Der oben beschriebene Vorgang (crawlen, etc.) soll täglich per Cronjob ablaufen.

Bei evtl. benötigten Libraries sind wir offen, wenn möglich OpenSource.

Optional
Die neue Version (PDF) soll mit der bereits vorhandenen Version (PDF) vergleichen werden. Die Änderungen sollen in der Infomail mit gesendet werden.

Start: ab sofort
Dauer: 1 Monate
Von: Lukrativ GmbH
Eingestellt: 01.07.2018
Ansprechpartner:: Matthias Luchner
Projekt-ID:: 1590872
Vertragsart: Freiberuflich
Einsatzart: 100 % Remote

Um sich auf dieses Projekt zu bewerben müssen Sie sich einloggen.

PHP/MaiaDB: Crawlen einer externen URL & extrahieren von Links in eine DB

Schlagworte

Beschreibung

Projekt melden

Projekt empfehlen

Bewerbungslimit erreicht

Willkommen bei freelancermap!