Projekt CRAWLER / LINKDATENBANK

Stuttgart  ‐ Vor Ort
Dieses Projekt ist archiviert und leider nicht (mehr) aktiv.
Sie finden vakante Projekte hier in unserer Projektbörse.

Schlagworte

Beschreibung

EINLEITUNG

Das Crawler System, nachfolgend nur Crawler genannt, ist ein Webseiten Crawler, der das Internet durchläuft und Informationen zu Verlinkungen von Webseiten sammelt. Durch die ermittelten ausgehenden Links einer Webseite A soll die Menge der eingehenden Backlinks auf eine Webseite B aus den gesammelten Daten ermittelt werden. Ziel ist es, einen Großteil der Webseiten An „zufällig“ zu finden um somit einen Großteil der Webseiten zu kennen die auf eine bestimmte Url verlinken.

Der Crawler funktioniert hierbei grundsätzlich wie eine Suchmaschine. Im Unterschied zu einer klassischen Suchmaschine, wird der Inhalt der Webseite nicht gespeichert, sondern „nur“ die Verlinkungen und die zugehörigen Linktexte

Die Daten müssen so gespeichert sein, dass eine schnelle Abfrage auf jeden Fall gewährleistet ist.

Hauptaufgabe dieses Projekts ist es somit:

1. Ein System zu entwickeln, mit dem die Verlinkungen zwischen beliebig vielen Webseiten ermittelt, gespeichert und ausgewertet werden können.

2. Ein Hard- und Softwarearchitektur zu definieren, die in der Lage ist eine sehr große Menge an Daten verwalten zu können und das flexibel horizontal skaliert werden kann.
Hierfür muss der Auftragnehmer selbst eine Strategie entwickeln, mit der die nachfolgend genannten Anforderungen erfüllt werden können.

SYSTEMARCHITEKTUR

Das neue System muss dezentral und verteilt funktionieren. Die Hauptlast trägt die Datenbank, daher muss diese horizontal über mehrere Server skaliert werden. Die Lastverteilung und Replikation soll automatisch geschehen.

Das Crawling wird von beliebig vielen „kleinen“ Agents/Servern übernommen, die ihre gesammelten Daten mit der Datenbank abgleichen. Die Systeme sollen unter 64-Bit Linux laufen und – soweit möglich – OpenSource/kostenlos sein.

Bei der Programmiersprache der Clients, der Kommunikationsart mit der Datenbank und dem DMS-Produkt selbst werden keine besonderen Anforderungen gestellt um dem Auftragnehmern die bestmögliche Architektur wählen zu lassen.

MUSSKRITERIEN - AUSSCHNITT

• Der Crawler muss innerhalb eines Monats 1 Milliarde Urls (Sollkriterium min 5Mrd) untersuchen können, das heißt, die Crawlingprozesse und die Datenbank müssen in der Lage sein, die Daten von min. 386 Urls pro Sekunde verarbeiten können.
• Die Crawlingprozesse sollen parallel auf einem Server aber auch auf verschiedenen Server laufen können. Die Speicherung von redundanten Daten sowie parallele Verarbeitung der gleichen Urls muss unterbunden werden.
• Performancesteigerungen des Crawlers müssen durch horizontale Skalierung erreicht werden und nicht durch vertikale Aufrüstung vereinzelter Server. Das System muss verteilt in verschiedenen Rechenzentren verwendet werden können.
• Einschränkungen nach TLD oder Dateiendung müssen möglich sein. Die Crawltiefe wird durch geeignete Algorithmen gesteuert, so dass das Crawling sehr umfangreicher Webseiten ab einer bestimmten Tiefe abgebrochen werden kann.
• Die Daten müssen so gespeichert werden, dass sowohl beim Erfassen als auch bei der Abfrage (Schnittstelle) effiziente Zugriffszeiten erreicht werden.
ABGRENZUNGSKRITERIEN - AUSSCHNITT
• Der Crawler ermittelt nur suchmaschinenrelevante Textlinks. Verlinkte Grafiken, Links per Javascript oder in Flashanimationen sollen nicht gefunden und indiziert werden.
• Als Datenbanksystem muss keine Relationale/SQL Datenbank zum Einsatz kommen. NoSQL oder Key-Value Systeme sind ausdrücklich erwünscht.

------

Um dieses Projekt umzusetzen ist ein hohes Know-How in Sachen effizienter Datenprogrammierung, sowie mit den Themen Hosting und Website-Crawling notwendig.

Diese Kurz-Pflichtenheft dient erst einmal darum grob zu vermitteln, um was es genau geht und um zu evaluieren, ob Ihrerseits grundsätzliches Interesse an einer Umsetzung dieses Projektes besteht.

Falls grundsätzliches Interesse Ihrerseits betsteht, würde ich ihnen bei Interesse als 2. Schritt ein ausführliches Pflichtenheft zukommen lassen. Wir bitten aber um Referenzen / Vorstellung.

Für freuen uns auf Ihr Feedback!
Start
09.2011
Von
teliad Internetmarketing GmbH
Eingestellt
30.08.2011
Ansprechpartner:
Andreas Armbruster
Projekt-ID:
230262
Vertragsart
Freiberuflich
Um sich auf dieses Projekt zu bewerben müssen Sie sich einloggen.
Registrieren