Zephyrnet-Logo

Signal vs. Rauschen: Ausgleich der Bereitschaftshygiene für datengesteuerte Teams – DATAVERSITY

Datum:

In der Welt der Echtzeitsoftware ist eine Verfügbarkeit rund um die Uhr für Kernsoftware von entscheidender Bedeutung, in der jede Sekunde Millionen von Transaktionen stattfinden. Im Jahr 24 erlebte die Prime Day-Veranstaltung von Amazon eine 13-minütiger Ausfall Einigen Schätzungen zufolge könnte dies dem Unternehmen Umsatzeinbußen in Höhe von bis zu 99 Millionen US-Dollar gekostet haben. Zuverlässigkeit ist von größter Bedeutung, wenn das Unternehmen für Umsatz, Kundenerlebnis und Wettbewerbsvorteile darauf angewiesen ist. Datengesteuert Teams verlassen sich auf Tracking-Metriken und alle verfügbaren Systemleistungsdaten, um sicherzustellen, dass die Systeme wie erwartet funktionieren und skaliert werden.

Um die Zuverlässigkeit zu verbessern und eine konstante Betriebszeit sicherzustellen, stehen Ingenieure und Manager häufig für die von ihnen bereitgestellten Dienste auf Abruf bereit. Bei einem „Bereitschaftsdienst“ geht es darum, bereit zu sein, Warnungen zu bestätigen, Vorfälle zu entschärfen, die Reaktion auf Warnungen und die richtigen Eskalationen sicherzustellen und Nachverfolgungen nach einem Vorfall durchzuführen. Dies ist eine unglaublich wichtige Rolle, da der Bereitschaftstechniker oft die erste Verteidigungslinie ist, wenn es darum geht, die Zuverlässigkeit und Verfügbarkeit der Dienste eines Unternehmens sicherzustellen. 

Hier erfahren Sie, was unterschiedliche Verfügbarkeitsstufen für Ihr Team bedeuten könnten:

Verfügbarkeit Ausfallzeit pro Jahr 
99% 3.65 Tage
99.9% 8.76 Stunden 
99.99% 52.6 Мinuten
99.999% 5.26 Мinuten

Aber hier liegt das Problem: Eine schlechte Bereitschaftsrotation mit einem niedrigen Signal-Rausch-Verhältnis kann zum Burnout der Entwickler, zur Abwanderung von Ingenieuren und zum Verlust der Konzentration auf die eigentliche Ingenieursarbeit führen. Es erhöht auch die durchschnittliche Zeit bis zur Erkennung von Vorfällen, da Entwickler Zeit damit verbringen müssen, das Rauschen zu sichten, um die richtigen Probleme zu identifizieren, auf die sie reagieren müssen. 

Wie stellen Sie also ein gesundes Bereitschaftserlebnis sicher? 

In diesem Beitrag erfahren Sie:

  • Tipps für Teams und technische Leiter zur Verbesserung der Bereitschaftshygiene
  • Beispiele für Unternehmen mit effektiven Bereitschaftsdiensten
  • Denkwürdige Ideen für Ihr eigenes Team

Identifizieren Sie wöchentlich Probleme

Der erste Schritt zu einem gesunden Bereitschaftsdienst besteht darin, regelmäßig Probleme zu identifizieren und für ein gutes Signal-Rausch-Verhältnis zu sorgen. Hygiene auf Abruf ist keine einmalige Lösung, sondern ein fortlaufender Prozess. Richten Sie eine wöchentliche Überprüfung ein, um Warnungen zu analysieren und festzustellen, welche von ihnen wertvolle Signale und nicht nur Rauschen liefern. Eliminieren Sie lautstarke Alarme, die keine sofortige Aufmerksamkeit erfordern, rücksichtslos. Ein häufiges Beispiel hierfür könnten laute Warnungen sein, wenn das Gesamtsystem fehlerfrei ist, aber ein kleiner Fehler in den Messwerten auftritt, der sich automatisch erholt. In solchen Fällen ist es wichtig, die Grundursache zu identifizieren und sie sofort zu beheben, anstatt zuzulassen, dass sie die Aufmerksamkeit der Entwickler häufig auf sich zieht und ablenkt. 

Priorisieren Sie Wiederholungstäter

Alarme, die wiederholt auslösen, erfordern besondere Aufmerksamkeit. Wenn diese Probleme nicht behoben werden, verschlimmern sich diese Probleme und führen in Zukunft zu noch mehr Warnungen. Priorisieren Sie die Beseitigung dieser Wiederholungstäter, um der Alarmermüdungskurve einen Schritt voraus zu sein. 

Deduplizieren und gruppieren Sie bezogene Warnungen

Bei einem schwerwiegenden Vorfall ist es das Letzte, was Sie wollen, dass Entwickler hunderte Male wegen desselben zugrunde liegenden Problems angerufen werden. Arbeiten Sie daran, zusammengehörige Warnungen zu einer einzigen Benachrichtigung zu deduplizieren. Dies hilft Ihrem Team, sich auf das eigentliche Problem zu konzentrieren, anstatt sich in überflüssigen Seiten zu verlieren. Anstatt beispielsweise Fehlerratenwarnungen auf jedem Host oder Server zu haben, prüfen Sie, ob eine aggregierte Warnung auf höherer Ebene das gleiche Maß an Zuverlässigkeit und Erkennungsfunktionen bieten kann. Dann wird die Aggregation dazu beitragen, die allgemeine Gesundheit zu verbessern. Diese einzelne Warnung liefert ein klares Signal, dass ein anwendungsweites Problem vorliegt, ohne den Bereitschaftstechniker mit Lärm zu überfordern.

Manuelle Arbeit automatisieren

Im Bereitschaftsdienst müssen häufig dieselben manuellen Schritte wiederholt ausgeführt werden. Suchen Sie nach Möglichkeiten, diese wiederkehrenden Aufgaben zu automatisieren. Dies kann so einfach sein wie ein Runbook-Skript oder ein ausgefeilteres automatisches Korrektursystem. Je mehr Sie automatisieren können, desto einfacher wird die Rufbereitschaft.

Fördern Sie eine Bereitschaftskultur

Die Verbesserung der Bereitschaftsbereitschaft ist nicht nur eine technische, sondern auch eine kulturelle Herausforderung. Arbeiten Sie daran, eine Kultur zu entwickeln, die die Bedeutung eines gesunden Bereitschaftsdienstes betont. Das bedeutet, den Ingenieuren Zeit zu geben, an der Alarmhygiene zu arbeiten, Best Practices zwischen den Teams auszutauschen und Erfolge bei der Alarmreduzierung zu feiern. 

Bedeutung des sekundären Bereitschaftsdienstes

Es ist außerdem sehr wichtig, dass die Teams einen Bereitschaftsdienst mit primären und sekundären Bereitschaftstechnikern aufrechterhalten. Die spezifischen Rollen und Verantwortlichkeiten der primären und sekundären Bereitschaftstechniker können je nach den Anforderungen des Teams variieren. Einige Teams verwenden den sekundären Rufbereitschaftsdienst als Backup für alle Seiten, die der primäre Dienst möglicherweise verpasst, während andere den primären Dienst damit beauftragen, nur dringende Anrufe zu bearbeiten, und dem sekundären Dienst Tickets mit niedriger Priorität zuweisen. 

Ungeachtet dessen ist die Verfügbarkeit einer sekundären Person bei der Schadensbegrenzung besonders wichtig. Während eines Vorfalls kann der sekundäre Bereitschaftsdienst wichtige Aufgaben wie die Untersuchung von Dashboards von Abhängigkeitsdiensten, die Kommunikation mit Stakeholdern und nachgelagerten Kunden oder die Dokumentation des Vorfalls übernehmen, sodass sich der primäre Bereitschaftsdienst auf die Eindämmung des jeweiligen Vorfalls konzentrieren kann.

Darüber hinaus kann im Falle eines längeren Vorfalls der sekundäre Bereitschaftsdienst die primäre Rolle übernehmen und sicherstellen, dass der Dienst während des gesamten Vorfalls unterstützt und überwacht bleibt.

Fazit

Das Erkennen und Korrigieren von Bereitschaftsprozessen kann zu enormen Vorteilen führen: zufriedenere Teamkollegen, geringere Abwanderung von Technikern und mehr Konzentration auf die Arbeit, die am wichtigsten ist. 

Die wichtigsten Imbissbuden:

  • Überprüfen Sie die Warnmeldungen regelmäßig, um ein hohes Signal-Rausch-Verhältnis aufrechtzuerhalten
  • Priorisieren Sie die Beseitigung von Wiederholungstätern
  • Deduplizieren Sie zugehörige Warnungen
  • Automatisieren Sie manuelle Arbeit
  • Fördern Sie eine Kultur, die ein gesundes Bereitschaftserlebnis schätzt
spot_img

Neueste Intelligenz

spot_img