Beschreibung
Aufgabe:- Entwicklung von Machine Learning Modellen zur Erstellung von Nutzerprofilen und zur Ermittlung statistischer Zwillinge
- Mitarbeit an der Bereitstellung synthetischer Daten, die statistische Eigenschaften von Produktivdaten erhalten um Privacy-preserving Data Mining zu ermöglichen
- Anwendung verschiedener Methoden des Statistical Learning auf großen Datenmengen mit Python, Scikit-Learn, PySpark und Spark
- Arbeiten im Kontext von u.a. Hadoop, Scala, Java, Spark etc.
- Selbständiges, kreatives Arbeiten im Scrum-Team und Fähigkeit zur eigenständigen Konzeption und Entwicklung von Lösungsansätzen im agilen Umfeld
Anforderung:
- Fundierte Kenntnisse in der Verarbeitung großer, heterogener Datenmengen mit Hadoop Ecosystem< (Yarn, Hive, Spark SQL und Spark ML); sicherer Umgang mit relationalen Datenbanken wie PostgreSQL, MySQL oder Oracle
- Starke und bewährte Entwickler-Skill in Python und Scala
- ausgeprägte Erfahrungen mit Scrum
Umgebung/Sonstiges:
- Auslastung: 100% -
Umgebung/Sonstiges:
- Auslastung: 100% - wünschenswert: 5 Tage / Woche
- Option auf Verlängerung
Projektziel:
- Lieferung von Lookalikes zur Nutzung durch interne Nutzer (als Service wie auch über ein Self Service Tool) wie externe Nutzer (via DMP)
- Lieferung von synthetischen Daten zur Unterstützung der Definition von Datenverarbeitungsstrecken im Self Service Tool
Beginn: 01.02.2017
Dauer: 30.04.2017
Branche: Handel/Konsum