Bot / Skript zum Auslesen von Instagram

Stuttgart, Baden-Württemberg  ‐ Remote
Dieses Projekt ist archiviert und leider nicht (mehr) aktiv.
Sie finden vakante Projekte hier in unserer Projektbörse.

Beschreibung

Wir lesen mit einem Script auf PHP Basis Social Media Seiten, Google usw. aus. Im Endeffekt wie ein Bot.

Eine aktuelle, sehr eingeschränkte, Version ist als Beispiel unter

http:///gu3.php?u=https%3A%2F%2Fwww.seedingup.de

aufrufbar. Diese Version verwendet eine alte HTTPRetriever Klasse von Steve Blinch.

Diese Version bekommt beim Aufruf von Instagram Seiten aktuell nur eine Login Seite angezeigt (fehlendes JavaScript Handling).
https://www.instagram.com/ausmeinerwelt/

Für den Aufruf dieser Seite (als Beispiel), muss also der komplett Content angezeigt werden können und NICHT die Login Seite.
Da wurde auch schon versucht einiges zu optimieren, bei Instagram hat dies aber kein Erfolg. Diese scheinen seit einiger Zeit weitreichende Schutzmaßnahmen zu haben. Wobei der Googlebot es schafft Instagram auszulesen.

Dieses Script soll per URL erreichbar sein. Beim Aufruf dieses Scriptes muss eine URL übergeben werden können.
Für diese übergebene URL soll das Script den Content ermitteln und anschließend ausgeben.
Weiterleitungen der übergebenen URL muss nicht gefolgt werden.
Eine Liste von verschiedenen User-Agents, die über einen Parameter spezifisch oder im Falle keiner Übergabe alternierend ausgewählt werden, ist gewünscht. Wir haben für bestimmte Dienste einen eigenen User-Agent, über den wir uns authentifizieren. Dieser wird jedoch nicht für alle Anfragen in Anspruch genommen, daher muss dieser dann aus dem Alternieren ausgeschlossen sein.
Es muss gewährleistet sein, dass der Content trotz geforderter Cookies, JavaScript oder ähnlichen Bedürfnissen korrekt ermittelt wird.
Eine einfache Rückgabe des ermittelten Contents ist ausreichend.
Zwecks Fehleranalyse sollte das Script, über eine Variable steuerbar (boolean, standardmäßig false), die Ausgabe von Stages, Exceptions u. ä. beinhalten.

ABER: Wir sind auch offen für andere Lösungen, wenn eine solche Lösung nicht mehr möglich ist.

Wir bitten nur Mails von Freelancern zu erhalten, die sich mit der Thematik bereits gut auskennen. Danke!
Start
ab sofort
Von
netzgefährten GmbH
Eingestellt
02.07.2020
Ansprechpartner:
Andreas Armbruster
Projekt-ID:
1942357
Vertragsart
Freiberuflich
Einsatzart
100 % Remote
Um sich auf dieses Projekt zu bewerben müssen Sie sich einloggen.
Registrieren