Profilbild von Simon Streubel Big Data Engineer / Cloud Architect aus Koeln

Simon Streubel

verfügbar

Letztes Update: 06.04.2024

Big Data Engineer / Cloud Architect

Firma: Simon Streubel
Abschluss: Bachelor of Arts / Wirtschaft und Politik Ostasiens / Schwerpunkte Japanisch & Wirtschaft
Stunden-/Tagessatz: anzeigen
Sprachkenntnisse: deutsch (Muttersprache) | englisch (verhandlungssicher) | japanisch (gut)

Skills

Ich unterstütze Sie
  • In der Konzeption und Umsetzung von komplexen Microservice-Architekturen mit Kubernetes, Helm, Terraform, Apache Kafka, Schema Registry & Co.
  • Im Aufbau, bei der Installation und Konfiguration einer Hadoop basierten Big Data Umgebung sowohl On-Premise als auch in der Cloud
  • In der Konzeption und Implementierung von batch- und streaming-basierten Big Data ETL-Strecken, sowohl mit „klassischen“ ETL-Tools als auch unter Einsatz von Microservices/Docker/Kubernetes
  • In der Programmierung von Microservices mit Java und/oder Go
  • In der Datenmodellierung von „klassischen“ (relationalen) Data Warehouses
  • In der Leitung und Koordination von Teams (technische Führung)
  • Im Umfeld des Marketings, besonders in der Online-Vermarktung
  • Beim Halten von Schulungen & Workshops zum Thema Apache Kafka & Schema Registry

Projekthistorie

05/2022 - bis jetzt
Data Engineer / Cloud Architect
(Medien und Verlage, 1000-5000 Mitarbeiter)

  • Konzeption und Umsetzung eines Data Storage Layers
  • Konzeption und Umsetzung eines Feature Stores
  • Umsetzung von Beladungs-Pipelines mit Google DataProc / PySpark / Airflow
  • Analysen von Datengrundlagen und Data Cleansing
  • Ausbau zentraler Bibliotheken
  • Generalisierung von Beladungsstrecken
  • Anbindung von externen Tools über Apache Kafka
  • Beratung bei der Einführung von Scrum in benachbarten Teams
Technologien
  • Google Cloud Platform (v.a. DataProc, Bigquery, Google Storage, Kubernetes Engine)
  • Apache Spark (PySpark)
  • Airflow
  • Python
  • Terraform
  • SQL
  • Kafka
  • Kubernetes
  • Docker
  • Linux / Shell-Scripting
  • Continuous Integration
  • Gitlab
  • Scrum
  • Jira/Confluence

01/2022 - 02/2024
Data Engineer / Cloud Architect
(Konsumgüter und Handel, 1000-5000 Mitarbeiter)

  • Konzeption und Umsetzung einer vollautomatisierten Big Data Platform „auf der
    grünen Wiese“ mit Dev-, Test-, Produktions- Umgebungen mit Hilfe von Serverless/OnDemand-Technologien
  • Umsetzung mehrerer Beladungs-Pipelines mit Google Dataflow / Apache Beam
  • Berechnung von KPIs im Fachbereich
  • Lizenzmanagement
  • Bereitstellung von Kundenbezogenen Datamarts an externe Kunden / Berichtsprogramme (Tableau)
  • Aufbau und Umsetzung eines CI/CD Konzeptes mit Terraform/CloudBuild/gcloud/Bitbucket
  • Coaching eines Teams im Umgang mit Big Data Technologien

Technologien
  • Google Cloud Platform (v.a. IAM, Dataflow, Cloud Storage, CloudBuild, CloudFunctions, BigQuery)
  • Apache Beam
  • Terraform
  • Python
  • SQL
  • Docker
  • Linux / Shell-Scripting
  • Continuous Integration
  • Bitbucket
  • Scrum
  • Jira/Confluence

04/2020 - 12/2021
Data Engineer / Cloud Architect
(Telekommunikation, 500-1000 Mitarbeiter)

  • Migration einer on premise Big Data Umgebung zu AWS Cloud Umgebung
  • Vollautomatisierung Infrastruktur-Deployments
  • Nutzbarmachung von Daten aus on premise DWH, REST APIs, Google BigQuery über ETL Pipelines und Historisierung der Daten in der Cloud
  • Berechnung von Machine Learning Features und Aufbau eines Feature Stores mit Hilfe von Spark
  • Modellierung von Kundenverhalten mit Machine Learning Modellen und Berechnung von Scores
  • Personalisierung von E-Mail-Kampagnen
  • Erarbeitung und Implementierung von Datenschutzkonzepten (DSGVO/PII)
  • Aufbau eines zentralen Data Lakes im Unternehmen zur Unterstützung des Data Driven Company Zielbildes
  • Vollautomatisierung CI/CD Pipelines
  • Erarbeitung von möglichen Next-Steps im Ausbau vorhandener Arbeitsumgebungen und Beratung hinsichtlich möglicher Produktvisionen

Technologien
  • Apache Spark
  • AWS Cloud (v.a. IAM, Glue, EMR, Lambda, Step Functions, SageMaker, Athena, Transcribe, Comprehend, CloudWatch, CodeCommit, S3)
  • Terraform
  • Scala
  • Google BigQuery
  • Docker
  • Jenkins
  • Linux / Shell-Scripting
  • Continous Integration
  • Gitlab
  • Scrum
  • Jira/Confluence

10/2019 - 12/2019
Big Data Engineer
(Transport und Logistik, >10.000 Mitarbeiter)

  • Konzipierung und Umsetzung mehrerer ETL-Streaming-Pipelines mit Apache Kafka / Apache Spark
  • Aufbau Infrastruktur Apache Kafka, Apache Nifi, Solr, Zookeeper, Docker
  • Proof-of-Concept und Evaluation MS SQL Server Big Data Cluster

Technologien
  • Apache Spark
  • Apache Kafka
  • Apache Nifi
  • Docker
  • Java
  • Spring Boot
  • Testcontainers
  • Redis
  • MS SQL Server 2019
  • Linux / Shell-Scripting
  • Continous Integration
  • Gitlab
  • Scrum
  • Jira/Confluence

05/2019 - 09/2019
Big Data Engineer
(Konsumgüter und Handel, 5000-10.000 Mitarbeiter)

  • Aufbau einer Big Data Umgebung in der Amazon Cloud auf Basis von ElasticMapReduce (EMR), die sich on-demand mit Hilfe von Gitlab Pipelines und Terraform für beliebige Teams dynamisch hochfahren und skalieren lässt
  • Bereitstellung von Big Data Interfaces/Tools wie JupyterHub, Apache Zepellin, R Studio, Hue
  • Konzipierung & Implementierung von DSGVO-konformen ETL-Pipelines mit Kafka, Kafka Connect, Hive. Presto und Apache Spark
  • Workshops & Schulungen zu Themen Hadoop, Big Data & Tooling
 
Technologien
  • AWS (EMR, S3, Amazon Glue, EC2, etc)
  • Terraform
  • Apache Spark (Scala/Python)
  • Hive
  • Presto
  • ORC
  • Kafka Connect
  • Kafka Schema Registry
  • Avro
  • Go
  • Docker
  • Linux / Shell-Scripting
  • Continuous Deployment
  • Gitlab
  • Scrum
  • Jira/Confluence

06/2018 - 05/2019
Big Data Engineer
(Konsumgüter und Handel, 5000-10.000 Mitarbeiter)

  • Erstellung eines Konzepts zur Umsetzung einer Customer Data Platform
  • Katalogisierung/Sichtung der bereits vorhandenen Datenquellen & Infrastruktur
  • Erstellung einer Road Map „Customer Analytics“
  • Konzeption einer Login-Lösung zur Identifikation von Kunden (Single-Sign-On)
  • Workshops & Schulungen „Streaming und Data Analytics“
  • Aufbau und Betrieb mehrerer Kafka Cluster auf Kubernetes
  • Programmierung eines Kafka-Management-Dashboards
  • Programmierung von Kubernetes-Operatoren zur Automatisierung von Entwicklungsprozessen
  • Workshops & Schulungen „Apache Kafka, Schema-Registry & Service-to-Service-Kommunikation“
  • Workshops & Schulungen „Microservices & Eventing“

Technologien
  • Azure
  • Kubernetes
  • Helm
  • Keycloak
  • Apache Kafka
  • Kafka Schema Registry
  • Avro
  • Microservice-Architektur
  • Go
  • Java
  • Python
  • JavaScript (VueJS/Node)
  • Docker
  • Linux / Shell-Scripting
  • Continuous Deployment
  • Gitlab
  • Scrum
  • Jira/Confluence

07/2017 - 06/2018
Big Data Engineer
(Konsumgüter und Handel, >10.000 Mitarbeiter)

  • Konzeption und Aufbau einer Streaming-Targeting-Engine im Umfeld des Onlinemarketings basierend auf einer Microservice-Architektur und Apache Kafka
  • Programmierung von einzelnen Java-basierten Microservices mit Hilfe von Spring Boot
  • Programmierung und Deployment von Google Dataflow/Apache Beam basierten ETL-Jobs
  • Erstellung von Streaming-ETL-Prozessen in Apache NiFi
  • Deployment innerhalb der Google Cloud/Kubernetes
  • Aufbau einer Development-Umgebung mit Continuous Deployment, Docker, Kubernetes, Jenkins, Bitbucket/Git
  • Datenmigration in die Cloud
  • Konzeption und Implementierung von Grafana-Dashboards und Monitoring der Microservices
  • Evaluation diverser AdServing-Technologien
  • Führen von Bewerbungsgesprächen

Technologien
  • AdServer Technologies (Adform DSP/DMP)
  • Apache Kafka
  • Apache NiFi
  • Apache Beam
  • Google Cloud
  • Big Query
  • Dataflow
  • Cloud Storage
  • Kubernetes
  • Google Compute Engine
  • CloudSQL
  • Stackdriver Logging
  • IAM/Rights Management
  • Docker
  • Java
  • Scala
  • Spring Boot
  • PostgreSQL
  • MySQL
  • Grafana
  • Prometheus
  • Linux (Alpine Linux, Ubuntu)
  • RESTful Services/Swagger UI
  • Jenkins
  • Jira/Confluence/Bitbucket
  • Git
  • Microservice-Architektur
  • Domain-Driven-Design
  • Continuous Deployment
  • Scrum

03/2017 - 06/2017
Big Data Engineer
(Transport und Logistik, >10.000 Mitarbeiter)

  • Aufbau einer Docker-basierten Apache Spark Data-Engine innerhalb einer OpenShift Enterprise Umgebung
  • Evaluation von MS SQL Server on Linux (Docker)
  • Datenimport und Berechnung von KPIs auf Basis von Apache Spark
  • Anbindung von Apache Spark an MS SQL Server 2016
  • Verwaltung von Git-Respositories innerhalb von GitLab
  • Dokumentation und Projektmangement innerhalb von Confluence/Jira

Technologien
  • Spark (pySpark)
  • Docker
  • OpenShift
  • Linux (CentOS, Ubuntu)
  • MS SQL Server 2016
  • Jira/Confluence

08/2014 - 01/2017
Anwendungsberater Data Warehouse
(Medien und Verlage, 1000-5000 Mitarbeiter)

  • Anforderungsaufnahme im BI-Umfeld
  • Management von Data Warehouse-Projekten (Backend & Frontend)
  • Konzeption und Modellierung von Datenmodellen
  • Programmierung von Data Warehouse ETL-Strecken mit SQLServer Data Tools und T-SQL.
  • Konzeption und Entwicklung einer Online-Targeting-Infrastruktur und Plattform
  • Installation und Betrieb eines Hadoop Big Data-Systems (Distribution: Hortonworks Data Platform) via Ambari, Apache NiFi und Airflow
  • Modellierung und Programmierung von Big Data ETL-Pipelines via Hive und Apache NiFi
  • Integration und Programmierung von Workflows in Python und Airflow
  • Integration von Machine Learning Modellen via Spark (pyspark) und Spark ML
  • (Teil-)Koordination eines 10-köpfigen Entwickler-Teams
  • Betrieb und Supporttätigkeiten

Technologien
  • Hadoop/HDFS/MapReduce
  • Spark/pySpark
  • Hive
  • Ambari
  • Apache NiFi
  • Airflow
  • SAP BusinessObjects 4.1
  • SQLServer 2014/2016
  • SQLServer Integration Services (Data Tools)
  • Microsoft PowerBI

05/2012 - 07/2014
SAP BusinessObjects Entwickler
(Medien und Verlage, 1000-5000 Mitarbeiter)

  • Entwicklung von SAP BusinessObjects-Reports
  • Modellierung von SAP BusinessObjects-Universen
  • Administration einer SAP BusinessObjects-Plattform
  • Programmierung Microsoft SQLServer 2012 + 2014

Technologien
  • SAP BusinessObjects 3.x/4.x (DeskI/WebI)
  • SAP BusinessObjects Universe-Design-Tool
  • SQLServer 2014/2016

Reisebereitschaft

Verfügbar in den Ländern Deutschland
Profilbild von Simon Streubel Big Data Engineer / Cloud Architect aus Koeln Big Data Engineer / Cloud Architect
Registrieren