Logotipo de Zephyrnet

Señal versus ruido: equilibrio de la higiene de guardia para equipos basados ​​en datos – DATAVERSITY

Fecha:

En el mundo del software en tiempo real, el tiempo de actividad 24×7 es fundamental para el software central, donde se producen millones de transacciones cada segundo. En 2018, el evento Prime Day de Amazon experimentó un corte de 13 minutos eso, según algunas estimaciones, puede haberle costado a la empresa hasta 99 millones de dólares en ventas perdidas. La confiabilidad es primordial cuando la empresa depende de ella para obtener ingresos, experiencia del cliente y ventaja competitiva. Basado en datos Los equipos dependen del seguimiento de las métricas y de todos los datos de rendimiento del sistema que pueden obtener para garantizar que los sistemas funcionen y se escalen según lo esperado.

Para mejorar la confiabilidad y garantizar un tiempo de actividad constante, los ingenieros y gerentes suelen estar disponibles para los servicios que poseen. Una “de guardia” implica estar preparado para reconocer alertas, mitigar incidentes, garantizar la respuesta de alerta y las escalaciones correctas, y realizar seguimientos posteriores al incidente. Es una función increíblemente importante, ya que el ingeniero de guardia suele ser la primera línea de defensa para garantizar la confiabilidad y disponibilidad de los servicios de una empresa. 

Esto es lo que podrían significar los diferentes niveles de disponibilidad para su equipo:

Disponibilidad Tiempo de inactividad por año 
99% 3.65 días
99.9% 8.76 horas 
99.99% 52.6 minutos
99.999% 5.26 minutos

Pero aquí está el problema: una mala rotación de guardia con una baja relación señal-ruido puede provocar agotamiento de los desarrolladores, rotación de ingenieros y pérdida de concentración en el trabajo de ingeniería real. También aumenta el tiempo medio para la detección de incidentes, ya que los desarrolladores deben dedicar tiempo a examinar el ruido para identificar el conjunto correcto de problemas sobre los cuales actuar. 

Entonces, ¿cómo se garantiza una experiencia de guardia saludable? 

En esta publicación, aprenderá:

  • Consejos para equipos y líderes de ingeniería para mejorar la higiene de guardia
  • Ejemplos de empresas con enfoques de guardia eficaces
  • Ideas que vale la pena considerar para su propio equipo

Identificar problemas semanalmente

El primer paso para una guardia saludable es identificar problemas y garantizar una relación señal-ruido sólida con regularidad. La higiene de guardia no es una solución única, sino un proceso continuo. Configure una revisión semanal para analizar alertas y determinar cuáles brindan señales valiosas y cuáles solo ruido. Elimine sin piedad las alertas ruidosas que no requieren atención inmediata. Un ejemplo común de esto podrían ser las alertas ruidosas cuando el sistema general está en buen estado pero tiene un pequeño problema en las métricas que se recupera automáticamente. En tales casos, es importante identificar la causa raíz y abordarla de inmediato en lugar de dejar que alerte y desvíe la atención de los desarrolladores con frecuencia. 

Priorizar a los reincidentes

Las alertas que se disparan repetidamente exigen atención especial. Si no se abordan, estos problemas se multiplicarán y generarán aún más alertas en el futuro. Priorice la reparación de estos reincidentes para adelantarse a la curva de fatiga de alerta. 

Alertas relacionadas con grupos y eliminación de duplicados

Durante un incidente importante, lo último que desea es que los desarrolladores reciban llamadas cientos de veces por el mismo problema subyacente. Trabaje para eliminar la duplicación de alertas relacionadas en una sola notificación. Esto ayudará a su equipo a mantenerse concentrado en el problema real en lugar de quedar enterrado en páginas redundantes. Como ejemplo, en lugar de tener alertas de tasa de error en cada host o servidor, vea si una alerta agregada de nivel superior puede proporcionar el mismo nivel de confiabilidad y capacidades de detección; entonces, la agregación ayudará a mejorar la cordura general. Esta única alerta proporciona una señal clara de que hay un problema en toda la aplicación, sin abrumar al ingeniero de guardia con ruido.

Automatizar el trabajo manual

La guardia a menudo implica ejecutar los mismos pasos manuales repetidamente. Busque oportunidades para automatizar estas tareas repetidas. Esto podría ser tan simple como un script de runbook o un sistema de corrección automática más sofisticado. Cuanto más pueda automatizar, más fácil será la guardia.

Fomentar una cultura amigable con las guardias

Mejorar el servicio de guardia no es sólo un desafío técnico sino también cultural. Trabajar para desarrollar una cultura que enfatice la importancia de una experiencia de guardia saludable. Esto significa darles a los ingenieros tiempo para trabajar en la higiene de las alertas, compartir las mejores prácticas entre los equipos y celebrar los logros en la reducción de alertas. 

Importancia de la guardia secundaria

También es muy importante que los equipos mantengan una configuración de guardia con ingenieros de guardia primarios y secundarios. Las funciones y responsabilidades específicas de los ingenieros de guardia primarios y secundarios pueden variar según las necesidades del equipo. Algunos equipos utilizan el servicio secundario de guardia como respaldo para cualquier página que el principal pueda omitir, mientras que otros asignan al principal para que maneje solo páginas urgentes y asignan tickets de baja prioridad al secundario. 

De todos modos, tener un secundario es especialmente crucial durante la mitigación de incidentes. Durante un incidente, el guardia secundario puede asumir tareas importantes como investigar paneles de servicios de dependencia, comunicarse con las partes interesadas y los clientes intermedios, o documentar el incidente, lo que permite que el guardia principal se concentre en mitigar el incidente en cuestión.

Además, en caso de un incidente prolongado, el guardia secundario puede asumir la función principal, garantizando que el servicio siga siendo respaldado y monitoreado durante todo el incidente.

Resumen

Identificar y corregir los procesos de guardia puede generar enormes beneficios: compañeros de equipo más felices, reducción de la rotación de ingenieros y más concentración en el trabajo que más importa. 

Las conclusiones clave:

  • Revise periódicamente las alertas para mantener una alta relación señal-ruido
  • Priorizar la reparación de infractores reincidentes
  • Deduplicar alertas relacionadas
  • Automatizar el trabajo manual
  • Fomentar una cultura que valore una experiencia de guardia saludable
punto_img

Información más reciente

punto_img