Jobtitel: 95% Remote: Senior System Engineer - Kubernetes, Terraform, GitOps (m/w/d)
Zahlungsintervall: Stündlich
Lohnsatz: Verhandelbar
Ort: remote
Job veröffentlicht: 20-02-2026
Job-ID: 67927
Name: Dirk Gebhardt
Telefonnummer: +494087709284
E-Mail: dirk.gebhardt@nemensis.de

Stellenbeschreibung

Für unseren Kunden suchen wir einen "Senior System Engineer" (m/w/d)
 

Projektbeschreibung

Im Rahmen dieses Projekts wird eine moderne Observability Platform aufgebaut und weiterentwickelt. Der Senior System Engineer übernimmt die Konzeption, Implementierung und den Betrieb dieser Plattform mit Fokus auf Cloud-Native-Technologien, Infrastructure as Code und DevOps-Methoden.
 

Rahmenparameter

Start: Schnellstmöglich
Laufzeit: bis 31.12.2026
Auslastung: Vollzeit (100%)
Einsatzort: ca. 95% Remote (ausschließlich aus dem deutschen Bundesgebiet), gelegentliche Vor-Ort-Termine am wohnortnahen Kundenstandort
Sicherheitsanforderung: Bereitschaft zur Sicherheitsüberprüfung (SÜ2), Staatsbürgerschaft gemäß Staatenliste erforderlich
Stundensatz: 88,– € all-in
Hinweis: Für diese Position gibt es einige Must-Haves, die im Profil vollständig erfüllt und nachvollziehbar dargestellt sein müssen.
 

AufgabenArchitektur und Konzeption

  1. Erstellung und Weiterentwicklung von Architektur- und Betriebskonzepten für die Observability Platform, einschließlich der Definition von Zielbildern, Schnittstellen und Integrationspunkten zu bereits vorhandenen oder zukünftigen Services

Entwicklung und Betrieb

  1. Aufbau und kontinuierliche Weiterentwicklung bzw. Anpassung der Entwicklungs- und Betriebsumgebung, insbesondere im Hinblick auf:
  2. CI/CD-Pipelines (z.B. GitLab und ArgoCD)
  3. Release- und Deployment-Prozesse
  4. Automatisiertes Testen und Monitoring
  5. Versionierung und Reproduzierbarkeit von Builds
  6. Aufbau, Betrieb und Pflege der Observability Platform mittels Infrastructure as Code (IaC) unter Verwendung etablierter Tools wie Ansible, Terraform, Helm und Cloud-Native-Technologien wie Kubernetes, Crossplane, Prometheus und Grafana
  7. Automatisierung von Abläufen und Prozessen innerhalb der Observability Platform unter Nutzung von Python, Go, Kubernetes Operatoren, REST-APIs sowie weiterer Cloud-Native-Tools
  8. Integration von Observability-Komponenten (z.B. Prometheus, Grafana, OpenTelemetry) oder anderer kontextrelevanter Tools zur Bereitstellung von Metriken, Logs und Traces
  9. Sicherstellung der Mandantenfähigkeit, Skalierbarkeit und Resilienz der Plattform unter Berücksichtigung von Betriebsanforderungen und kundenspezifischen Best Practices
  10. Selbständige Erarbeitung von Lösungsansätzen zur Umsetzung fachlicher und technischer Use Cases, insbesondere im Bereich Monitoring, Logging, Alerting, Tracing und Service Health
  11. Beachtung und Umsetzung von Kundenvorgaben zu Security- und Compliance-Anforderungen, insbesondere in Bezug auf Authentifizierung, Autorisierung, Verschlüsselung, Datenschutz und Zugriffskontrolle
  12. Dokumentation der entwickelten Komponenten, Architekturen und Prozesse in den entsprechenden Tools sowie strukturierter Wissenstransfer an die betrieblichen Einheiten

Qualitätskontrolle

  1. Entwicklung und Implementierung automatisierter Testverfahren, um Funktionalität, Stabilität, Mandantentrennung und Sicherheitsaspekte der Observability Platform sicherzustellen
  2. Durchführung von Last- und Performancetests zur Verifizierung der Skalierbarkeit, Reaktionszeit und Systemstabilität unter realitätsnahen Bedingungen
  3. Einrichtung von Monitoring- und Alerting-Mechanismen für die Observability Platform selbst (Meta-Monitoring), um proaktiv Engpässe oder Fehlverhalten zu erkennen
  4. Überwachung technischer KPIs und SLIs/SLOs, die den operativen Zustand und die Servicequalität der Plattform messbar machen und Dokumentation in Bewiki
  5. Überprüfung der Einhaltung von Kundenvorgaben zu Architektur- und Sicherheitsrichtlinien, insbesondere im Hinblick auf Automatisierungsprozesse, Infrastrukturänderungen und Rollouts
  6. Erstellung von Review- und Testberichten, einschließlich Dokumentation von Ergebnissen, identifizierten Schwachstellen und Handlungsempfehlungen
  7. Mitwirkung an der Weiterentwicklung der Test- und QA-Strategie im Zusammenspiel mit den DevOps-, Security- und Compliance-Teams

Erfahrungen & KenntnisseMust-Haves:

  1. Mindestens 3 Jahre Erfahrung in ALLEN folgenden Bereichen:
  2. Terraform
  3. Kubernetes
  4. GitOps (ArgoCD)
  5. Grafana
  6. Alerting Rules (Prometheus)
  7. Erstellung von Runbooks
  8. Mimir, Loki und Tempo
  9. Kubernetes Operator
  10. Grafana Automatisierung (Grafana Operator)
  11. Software-Entwicklung (API-Anbindungen)
  12. Tenant Lifecycle

Nice-to-Have:

  1. Zertifizierung RDBMS
  2. Kenntnisse in SAFe und ITIL (mind. 3 Jahre)
  3. Erfahrung mit /dev/null as a Service (mind. 1 Jahr)
Bewerben mit indeed
Dateitypen (doc, docx, pdf, rtf) mit einer Größe von bis zu 10 MB
Dateitypen (doc, docx, pdf, rtf) mit einer Größe von bis zu 10 MB