Profilbild von Jan Krol Big Data Architect & Data Engineer [AWS, Azure, Spark, Kafka] aus Berlin

Jan Krol

verfügbar

Letztes Update: 27.01.2024

Big Data Architect & Data Engineer [AWS, Azure, Spark, Kafka]

Abschluss: Robotics, Cognition, Intelligence
Stunden-/Tagessatz: anzeigen
Sprachkenntnisse: deutsch (Muttersprache) | englisch (verhandlungssicher) | polnisch (verhandlungssicher)

Dateianlagen

profil_270124.docx
profil-en_270124.docx

Skills

Methodische und fachliche Schwerpunkte
  • Architecture (Microsoft Azure & AWS) 
  • Data Engineering (Databricks, Fabric, Apache Spark, Azure Synapse Analytics, Azure Data Factory, AWS Glue, Athena, EMR) 
  • Infrastructure as Code (Terraform, ARM, AWS CDK) 
  • Containerization (Kubernetes, Docker) 

Tätigkeitsschwerpunkte
  • Software Engineer & Cloud Consultant mit Fokus auf Microsoft Azure & Amazon Web Services 
  • ETL Prozesse & Data Engineering 
  • Entwicklung Big Data / ETL-Pipelines 
  • Anwendungsmigrationen unter Nutzung von Cloud Services 
  • Beratung & Implementierung von Automatisierungskonzepten 
  • Integration von ActiveDirectory, Sicherheitskonzepten und Compliancevorgaben (Überwachung und Protokollierung) 

Zertifizierungen
  • HashiCorp Certified: Terraform Associate
  • Databricks Certified Associate Developer  for Apache Spark
  • Azure Solutions Architect Expert:
    • AZ-300: Microsoft Azure Architect Technologies
    • AZ-301: Microsoft Azure Architect Design
  • Microsoft Certified: Azure Data Scientist Associate
    • DP-100: Designing and Implementing a Data Science Solution on Azure
  • AWS Certified Machine Learning – Specialty
  • AWS Certified Solutions Architect – Associate

Projekthistorie

03/2023 - 05/2024
Entwicklung einer umfassenden Datenstrategie und eines Governance-Frameworks für eine Datenmanagementplattform auf Databricks
(Transport und Logistik, 500-1000 Mitarbeiter)

  • Projektzusammenfassung:
  • In diesem „Leuchtturm“-Projekt leitete ich die Entwicklung einer robusten Datenstrategie und eines Governance-Frameworks mit dem Ziel, die Datenverarbeitungskapazitäten der Organisation zu optimieren und zu verbessern. Kern des Projekts war der Aufbau einer hochperformanten Datenmanagementplattform auf Databricks, ergänzt durch das Design und die Implementierung einer effizienten Data-Hub-Ingest-Plattform.
     
    • Leitung des Designs und der Etablierung einer unternehmensweiten Datenstrategie, ausgerichtet an Geschäftszielen und technologischen Fortschritten
    • Entwicklung eines umfassenden Daten-Governance-Frameworks zur Gewährleistung von Datenqualität, Datenschutz und Einhaltung von Branchenstandards
    • Überwachung der Bereitstellung und Anpassung der Datenmanagementplattform auf Databricks, Verbesserung der Datenverarbeitung, Analyse und Reportingfähigkeiten mit Power BI
    • Entwicklung eines robusten Data-Hubs mit hochperformanter Ingest-Pipelines basierend auf AWS EventBridge,
    • Optimierung des Datenflusses von verschiedenen Quellen zu zentralisierten Speichersystemen (Data Lake House auf Azure)
    • Zusammenarbeit mit funktionsübergreifenden Teams zur Integration der Datenmanagementplattform in die bestehende IT-Infrastruktur und Geschäftsprozesse
    • Durchführung von Schulungen und Workshops für neue Teams, Förderung einer datengetriebenen Kultur und Verbesserung der Datenkompetenz in der gesamten Organisation
    • Services:  
      • Azure Databricks
      • Databricks Data Catalog
      • AWS EventBridge
      • Kinesis
      • Event Hub
      • Structured Streaming (Apache Spark)

01/2022 - 02/2023
Innovative Integration und Analyse von Logistikdatenströmen mit PySpark Structured Streaming und Data Mesh-Implementierung
(Transport und Logistik, 500-1000 Mitarbeiter)

  • Projektzusammenfassung:
Dieses Projekt konzentrierte sich auf die anspruchsvolle Integration von Logistikdatenströmen mit Event Hub und Kafka unter Verwendung von PySpark Structured Streaming. Unser Ansatz revolutionierte die Art und Weise, wie Logistikdaten in Echtzeit erfasst, verarbeitet und durch den Graphen-Ansatz verknüpft werden konnten. Durch den Einsatz von Technologien wie GraphFrame, Azure Synapse Analytics, Apache Spark und PowerBI etablierten wir ein robustes System, das nicht nur eine hohe Datenqualität und reibungslose Übertragung gewährleistet, sondern auch den IT-Governance-Prinzipien entspricht.
 
    • Integration eines Logistikdatenstroms mit Kafka durch PySpark Structured Streaming
    • Definition der notwendigen Datenstrukturen für den Datenstrom
    • Robuste und effiziente Integration des Logistikdatenstroms mit Event Hubs
    • Echtzeitnutzung von Logistikdaten für Analyse und Weiterverarbeitung
    • Entwurf und Implementierung von Pipelines zur Erfassung, Verarbeitung und Weiterleitung des Datenstroms
    • Effiziente Datenverarbeitung mit PySpark Structured Streaming
    • Konfiguration und Initialisierung des PySpark Streaming-Jobs
    • Durchführung umfassender Test- und Überwachungsmechanismen
    • Gewährleistung einer reibungslosen Datenübertragung und hoher Datenqualität
    • Services:  
      • Azure Synapse Analytics
      • Purview Data Catalog
      • Apache Spark
      • Event Hub
      • Structured Streaming 
      • GraphFrame
      • Azure Storage v2
      • PowerBI

09/2021 - 01/2022
Verbesserte Datenverarbeitungs- und Integrationssysteme für E-Commerce mit serverlosen und verteilten Data-Mesh-Architekturen
(Konsumgüter und Handel, 1000-5000 Mitarbeiter)

  • Projektzusammenfassung:
In diesem Projekt war meine Hauptaufgabe, verschiedene interne E-Commerce-Produktteams bei der Entwicklung, Implementierung und Wartung leistungsfähiger Datenverarbeitungs- und Integrationssysteme zu leiten und zu unterstützen. Der Schwerpunkt lag auf der Migration bestehender Datendienste und -pipelines zu einer neuen, verbesserten Architektur, wobei die Entwicklung eines eventbasierten Systems unter Verwendung serverloser Technologien und Big-Data-Frameworks betont wurde.
 
  • Unterstützung und Anleitung bei der Migration der bestehenden Datendienste, Pipelines und Assets auf eine neue und weiterentwickelte Architektur
  • Entwicklung eines eventbasierten Systems
  • Verwendung von Lambda-Funktionen und PySpark
  • Integration mit Kafka
  • Design- und Architekturplanung
  • Implementierung von Lambda-Funktionen und PySpark-Jobs
  • Konfiguration und Verbindung mit Kafka
  • Serverlose Architektur für Skalierbarkeit und Verfügbarkeit
  • Verarbeitung und Analyse von Ereignisdaten in Echtzeit
  • PySpark-Transformationen, Filterungen und Aggregationen
  • Effiziente und zuverlässige Verbindung mit Kafka
  • Konfiguration, Sicherheitseinstellungen und Integration mit anderen Komponenten
  • Umfangreiche Tests und Überwachungsmechanismen
  • Hochperformantes und skalierbares Event-System
  • Gewinnung wertvoller Erkenntnisse aus Ereignisdaten
  • Datengetriebene Entscheidungsfindung
  • Services:  
    • AWS Glue 
    • Apache Spark 
    • Data Catalog 
    • S3 
    • Athena 
    • Redshift 
    • Lambda 
    • ECS 
    • Step Functions 
  • Umsetzung verteilter Data Mesh Architekturen, damit verschiedene Produktteams effizient mit Daten arbeiten können 
  • Datenverarbeitung mit Big-Data-Frameworks und Datenbanktechnologien 
  • Erarbeitung serverlose/elastische Cloud-Architektur (AWS) 
Bereitstellung der Architektur nach DevOps-Best-Practices und Infrastructure-as-Code (AWS CDK & Terraform)

04/2020 - 09/2021
Migration und Verbesserung der E-Commerce-Datenplattform zur AWS Data Lakehouse-Architektur
(Konsumgüter und Handel, 500-1000 Mitarbeiter)

  • Projektzusammenfassung:
Dieses Projekt beinhaltete die strategische Entwicklung und Migration bestehender Analytics-Datenpipelines in eine Data Lakehouse-Architektur unter Nutzung von AWS-Diensten. Ein wesentlicher Aspekt war die Verbesserung der Big-Data-Lake-Umgebung und die Gewährleistung strenger Datenqualitäts- und Compliance-Standards, insbesondere im Hinblick auf die DSGVO.
  • Weiterentwicklung der Big Data Lake Umgebung in AWS 
  • Umsetzung und Konzeption eines Data Lakehouse 
  • explorative Analyse sowie Algorithmenentwicklung durch Datenbereitstellung und -aufbereitung (AWS Glue, Spark, Lambda
  • Data Ingestion 
  • Entwicklung von Data Pipelines, ETL-Jobs zur Bereitstellung von konsumfertigen Datenquellen (AWS Glue, AWS Redshift, Spark, PySpark) 
  • Regressionstest und Qualitätsprüfung in den Datenstrecken und Data Lake 
  • Orchestrierung und Anbindung von Datenquellen 
  • Umsetzung von automatisieren Deployments mittels DevOps-Best-Practices (AWS Codebuild + Codepipeline, GitHub Actions
  • Aufbau der Infrastruktur mittels IaC (AWS CDK
  • Systembetreuung (inkl. Kostenmonitoring) 

02/2019 - 04/2020
Entwicklung einer Architektur und Implementierung einer Big-Data-Umgebung für konzernweite, standardisierte Plattformdienste auf Basis von Azure
(Transport und Logistik, 5000-10.000 Mitarbeiter)

  • Projektzusammenfassung:
Dieses Projekt umfasste die Entwicklung und Implementierung einer standardisierten Big-Data-Architektur für konzernweite Plattformdienste im Transport- und Logistiksektor unter Verwendung verschiedener Azure-Dienste. Meine Rolle war entscheidend, um die Integration von Datentransparenz, Datenqualität, DataOps, die Einhaltung von Datenvorschriften und die Implementierung agiler Methodologien sicherzustellen.
    • Erarbeitung von Lösungen in Projekten zu Azure und Automatisierung und Vorstellung/ Diskussion derselben 
    • Azure-Services: Azure Data Catalogue, Azure Synapse Analytics, Azure Data Factory, Azure Databricks 
    • Automatisierter Aufbau der Infrastruktur mit Infrastructure as Code (Terraform) und Ansible 
    • Scrum, JIRA, Gitlab, Docker 
    • Umsetzung Echtzeit-Datenübertragung mit Apache Kafka 
    • Beratung zu Azure Plattformstrategie bzgl. Referenzarchitekturen 
    • Entwicklung von Mechanismen und Automatismen zur proaktiven Beseitigung von Schwachstellen der Azure- und Kubernetes-Komponenten auf Basis standardisierter Cluster (Security by default) 
    • Konzeptionelle Weiterentwicklung der architektonischen und technologischen Plattform im Bereich Container-Orchestrierung auf Basis von Kubernetes, Continuous Integration & Continuous Deployment 
    • Erstellung Benutzer- und Berechtigungskonzepte unter Berücksichtigung der Konzernvorgaben 
    • Betriebsführung der angebotenen Services 
    • Agil arbeitendes Team 
    • Services:
      • Azure Data Catalogue (Purview),
      • Azure Synapse Workspace Analytics,
      • Azure Data Factory,
      • Azure Databricks
      • Terraform
      • Gitlab Runner
      • Azure DevOps

Reisebereitschaft

Weltweit verfügbar

exali IT-Haftpflicht-Siegel (Sondertarif für Freelancermap-Mitglieder)

Das original exali IT-Haftpflicht-Siegel bestätigt dem Auftraggeber, dass die betreffende Person oder Firma eine aktuell gültige branchenspezifische Berufs- bzw. Betriebshaftpflichtversicherung abgeschlossen hat. Diese Versicherung wurde zum Sondertarif für Freelancermap-Mitglieder abgeschlossen.

Versicherungsbeginn:
01.03.2023

Versicherungsende:
01.03.2027

Profilbild von Jan Krol Big Data Architect & Data Engineer [AWS, Azure, Spark, Kafka] aus Berlin Big Data Architect & Data Engineer [AWS, Azure, Spark, Kafka]
Registrieren