Technologien
ArgoCD, Kubernetes, AWS, GitHub Actions, GitOps, Bash, Python, GoLang, Datadog, Harbor, Blackduck, Kyverno, Akamai, Jenkins, Terraform
Beschreibung
Als Site Reliability Engineer bei Mercedes-Benz' New Car Sales eCommerce-Shop war ich verantwortlich für die Wartung und Weiterentwicklung einer gemeinsam genutzten Infrastruktur, die auf AWS-Komponenten basiert und mehrere AWS EKS Kubernetes-Cluster betreibt. Weitere AWS Komponenten, wie S3 Buckets, RDS-Instanzen (MyDQL und PostgreSQL) werden mittels Crossplane provisioniert und gemanaged. Als GitOps Tool kam zunächst FluxCD zum Einsatz, welches später von ArgoCD abgelöst wurde. Grund dafür war unter anderem, dass dieses eine Benutzeroberfläche anbietet, welche den Deployment-Zustand für Nicht-DevOps-Teammitglieder visualisierte. Dies reduzierte die Serviceanfragen an unser Team erheblich. Zusätzlich beschleunigte die Migration von CI-Tools von Jenkins zu GitHub Actions die Deployment-Zeiten. Wobei hier von der Wiederverwendbarkeit eigens konzipierter Actions und Workflows Gebrauch gemacht wurde, um neben CI auch Automatisierungen vorzunehmen, wie das automatische Erstellen von Jira Tickets für gefundene Vulnerabilitäten.
Des Weiteren war die Einrichtung eines auf Datadog basierenden Alerting-Frameworks, das unsere Fähigkeit zur Überwachung und Reaktion auf Vorfälle verbesserte, Teil meiner Aufgaben. Der Betrieb beinhalte auch die stetige Weiterentwicklung und Optimierung der Cloud Resourcen in Hinblick auf das Nutzererlebnis des Endkunden als auch der Koste. Im Zuge dessen wurde der Medienspeicher der auf der Infrastruktur beriebenen SAP Commerce Anwendung zur speziellen Verbesserung der I/O-Leistung für kleine Dateien angepasst.
Das Projekt wurde als Agile Release Train (ART) mittels Scaled Agile Framework® (SAFe®) organisiert und durchgeführt. Im Zuge der Einführung von SAFe® wurden das gesamte Team geschult.
Rolle
Site Reliability Engineer
Aufgaben
Wartung und Verbesserung der gemeinsamen Cloud-Infrastruktur, Verwaltung der Migration und Implementierung von CI/CD-Tools, Einrichtung und Pflege von Systemen zur Überwachung und Alarmierung von Vorfällen, Optimierung des Nutzer-/Kundenerlebnisses durch Verbesserung der Performance und Zuverlässigkeit der Anwendung.