Was ich tue

Drei eng verwandte Disziplinen, durchgängig verantwortet — und nicht zwischen den Teams über den Zaun geworfen.

Notizen aus dem Feld

Praxisnahe Texte über Zuverlässigkeit, Architektur und den Betrieb echter Systeme — ohne Hype, ohne Thought-Leadership-Theater.

SLOs, die nicht lügen: messen, was Nutzer wirklich erleben

Die meisten SLOs sind grün, während die Nutzer leiden — sie messen das System, nicht den Menschen. Wie man SLIs aus echten User-Journeys baut, jeder Journey das Ziel gibt, das sie verdient, den Spielraum in ein Fehlerbudget mit Eigentümer verwandelt und Alerts verdrahtet, die direkt zur Ursache durchsteigen.

Alarme entwerfen, die niemand ignoriert

Laute Alarme bringen dem Team bei, ausgerechnet den zu ignorieren, der zählt. Ein tiefer, praxisnaher Leitfaden zu symptombasierten Alarmen und Multi-Window-/Multi-Burn-Rate-Alerting — die Mathematik hinter der Burn Rate, kopierfertiges PromQL und der On-Call-Prozess, der Pages wieder vertrauenswürdig macht.

Terraform-Module, die mit Ihrem Team skalieren, nicht gegen es

Wiederverwendbare Module skalieren nur, wenn man sie wie Produkte behandelt: klein, reviewt, getestet und versioniert. Ein praktischer Leitfaden, um Terraform-Module direkt aus GitHub zu bauen, zu veröffentlichen und zu konsumieren — gepinnt an einen Tag oder, wenn es darauf ankommt, an einen unveränderlichen Commit-Hash — mit einer Terragrunt-Struktur, die deine Landschaft abbildet.

Haben Sie ein System, das nicht ausfallen darf?

Ob Architektur-Review, ein SRE-Engagement oder ein Zuverlässigkeitsbrand, den Sie löschen müssen — lassen Sie uns reden.

Kontakt aufnehmen

Finden Sie mich in den sozialen Medien