Beschreibung
Wir suchen ab dem 01.07.2025 einen erfahrenen Site Reliability Engineer (SRE) mit Schwerpunkt auf Google Cloud Platform (GCP). Ziel ist es, hochverfügbare und skalierbare Cloud-Umgebungen abzusichern, zu überwachen und kontinuierlich zu optimieren.
Rahmenbedingungen:
- Start: 01.07.2025
- Dauer: 8 Monate, Verlängerung sehr wahrscheinlich
- Ort: regelmäßige Onsite-Meetings 1 x Woche in Bochum
- Auslastung: 80% - 4 Tage die Woche
- Sprache: Deutsch C2 / Englisch C1
Aufgaben:
- Betrieb, Überwachung und kontinuierliche Verbesserung verteilter Cloud-Systeme auf GCP
- Aufbau und Pflege von Observability-Strukturen mit Prometheus, Grafana und Google Cloud Monitoring
- Implementierung von automatisierten Deployments und Self-Healing-Mechanismen
- Arbeiten mit Terraform zur Infrastrukturautomatisierung sowie Kubernetes (GKE) zur Container-Orchestrierung
- Mitgestaltung und Weiterentwicklung von CI/CD-Pipelines (GitLab CI, Cloud Build o.ä.)
- Unterstützung bei Incident Response, Root Cause Analysis und Capacity Management
Anforderungen:
- Mehrjährige Erfahrung als Site Reliability Engineer oder vergleichbare Position
- Fundierte Kenntnisse in GCP Services wie Compute Engine, Cloud Functions, GKE, Cloud Storage, IAM & VPC
- Sehr gute Erfahrung mit Monitoring/Alerting via Prometheus, Grafana, Stackdriver (Cloud Monitoring/Logging)
- Praktische Erfahrung mit Infrastructure-as-Code, bevorzugt Terraform
- Kenntnisse in Scripting (Bash, Python oder Go) und Automatisierung
- Verständnis für SLOs/SLIs und deren Umsetzung in produktiven Umgebungen
- Teamorientierte, analytische und lösungsfokussierte Arbeitsweise
- Erfahrung im Umgang mit juniorigen Kollegen und dessen Förderung
Rahmenbedingungen:
- Start: 01.07.2025
- Dauer: 8 Monate, Verlängerung sehr wahrscheinlich
- Ort: regelmäßige Onsite-Meetings 1 x Woche in Bochum
- Auslastung: 80% - 4 Tage die Woche
- Sprache: Deutsch C2 / Englisch C1
Aufgaben:
- Betrieb, Überwachung und kontinuierliche Verbesserung verteilter Cloud-Systeme auf GCP
- Aufbau und Pflege von Observability-Strukturen mit Prometheus, Grafana und Google Cloud Monitoring
- Implementierung von automatisierten Deployments und Self-Healing-Mechanismen
- Arbeiten mit Terraform zur Infrastrukturautomatisierung sowie Kubernetes (GKE) zur Container-Orchestrierung
- Mitgestaltung und Weiterentwicklung von CI/CD-Pipelines (GitLab CI, Cloud Build o.ä.)
- Unterstützung bei Incident Response, Root Cause Analysis und Capacity Management
Anforderungen:
- Mehrjährige Erfahrung als Site Reliability Engineer oder vergleichbare Position
- Fundierte Kenntnisse in GCP Services wie Compute Engine, Cloud Functions, GKE, Cloud Storage, IAM & VPC
- Sehr gute Erfahrung mit Monitoring/Alerting via Prometheus, Grafana, Stackdriver (Cloud Monitoring/Logging)
- Praktische Erfahrung mit Infrastructure-as-Code, bevorzugt Terraform
- Kenntnisse in Scripting (Bash, Python oder Go) und Automatisierung
- Verständnis für SLOs/SLIs und deren Umsetzung in produktiven Umgebungen
- Teamorientierte, analytische und lösungsfokussierte Arbeitsweise
- Erfahrung im Umgang mit juniorigen Kollegen und dessen Förderung