Stellenbeschreibung
Projektbeschreibung
Rahmenparameter
AufgabenArchitektur und Konzeption
- Erstellung und Weiterentwicklung von Architektur- und Betriebskonzepten für die Observability Platform, einschließlich der Definition von Zielbildern, Schnittstellen und Integrationspunkten zu bereits vorhandenen oder zukünftigen Services
Entwicklung und Betrieb
- Aufbau und kontinuierliche Weiterentwicklung bzw. Anpassung der Entwicklungs- und Betriebsumgebung, insbesondere im Hinblick auf:
- CI/CD-Pipelines (z.B. GitLab und ArgoCD)
- Release- und Deployment-Prozesse
- Automatisiertes Testen und Monitoring
- Versionierung und Reproduzierbarkeit von Builds
- Aufbau, Betrieb und Pflege der Observability Platform mittels Infrastructure as Code (IaC) unter Verwendung etablierter Tools wie Ansible, Terraform, Helm und Cloud-Native-Technologien wie Kubernetes, Crossplane, Prometheus und Grafana
- Automatisierung von Abläufen und Prozessen innerhalb der Observability Platform unter Nutzung von Python, Go, Kubernetes Operatoren, REST-APIs sowie weiterer Cloud-Native-Tools
- Integration von Observability-Komponenten (z.B. Prometheus, Grafana, OpenTelemetry) oder anderer kontextrelevanter Tools zur Bereitstellung von Metriken, Logs und Traces
- Sicherstellung der Mandantenfähigkeit, Skalierbarkeit und Resilienz der Plattform unter Berücksichtigung von Betriebsanforderungen und kundenspezifischen Best Practices
- Selbständige Erarbeitung von Lösungsansätzen zur Umsetzung fachlicher und technischer Use Cases, insbesondere im Bereich Monitoring, Logging, Alerting, Tracing und Service Health
- Beachtung und Umsetzung von Kundenvorgaben zu Security- und Compliance-Anforderungen, insbesondere in Bezug auf Authentifizierung, Autorisierung, Verschlüsselung, Datenschutz und Zugriffskontrolle
- Dokumentation der entwickelten Komponenten, Architekturen und Prozesse in den entsprechenden Tools sowie strukturierter Wissenstransfer an die betrieblichen Einheiten
Qualitätskontrolle
- Entwicklung und Implementierung automatisierter Testverfahren, um Funktionalität, Stabilität, Mandantentrennung und Sicherheitsaspekte der Observability Platform sicherzustellen
- Durchführung von Last- und Performancetests zur Verifizierung der Skalierbarkeit, Reaktionszeit und Systemstabilität unter realitätsnahen Bedingungen
- Einrichtung von Monitoring- und Alerting-Mechanismen für die Observability Platform selbst (Meta-Monitoring), um proaktiv Engpässe oder Fehlverhalten zu erkennen
- Überwachung technischer KPIs und SLIs/SLOs, die den operativen Zustand und die Servicequalität der Plattform messbar machen und Dokumentation in Bewiki
- Überprüfung der Einhaltung von Kundenvorgaben zu Architektur- und Sicherheitsrichtlinien, insbesondere im Hinblick auf Automatisierungsprozesse, Infrastrukturänderungen und Rollouts
- Erstellung von Review- und Testberichten, einschließlich Dokumentation von Ergebnissen, identifizierten Schwachstellen und Handlungsempfehlungen
- Mitwirkung an der Weiterentwicklung der Test- und QA-Strategie im Zusammenspiel mit den DevOps-, Security- und Compliance-Teams
Erfahrungen & KenntnisseMust-Haves:
- Mindestens 3 Jahre Erfahrung in ALLEN folgenden Bereichen:
- Terraform
- Kubernetes
- GitOps (ArgoCD)
- Grafana
- Alerting Rules (Prometheus)
- Erstellung von Runbooks
- Mimir, Loki und Tempo
- Kubernetes Operator
- Grafana Automatisierung (Grafana Operator)
- Software-Entwicklung (API-Anbindungen)
- Tenant Lifecycle
Nice-to-Have:
- Zertifizierung RDBMS
- Kenntnisse in SAFe und ITIL (mind. 3 Jahre)
- Erfahrung mit /dev/null as a Service (mind. 1 Jahr)