Reducir los tiempos medios de reparación, primera tarea de las SRE
hace 3 años
Un estudio reciente realizado por el editor Dynatrace de 450 ingenieros de confiabilidad del sitio o SRE (sitio de confiabilidad de los ingenieros) muestra que el papel de este último ahora se comprende mejor y es cada vez más estratégico.
Apareciendo entre los grandes actores de la nube pública, la profesión de SRE (ingeniero de confiabilidad del sitio) se ha vuelto popular y ahora está presente en la mayoría de las grandes organizaciones que utilizan tecnologías de nube. Estos ingenieros son responsables de garantizar la confiabilidad y seguridad de infraestructuras cada vez más basadas en código, en particular a través de la definición de objetivos de nivel de servicio y automatización. Sin embargo, su papel no siempre ha sido bien entendido. Esta situación está cambiando, como lo demuestra una encuesta reciente realizada por Dynatrace de 450 SRE en todo el mundo. En esta encuesta, el 88% de los encuestados cree que la importancia estratégica de su rol se entiende mejor hoy que hace tres años, aunque solo el 20% considera que su organización está madura en el tema. Además, el 76% obtiene bonos o recompensas cuando se alcanzan los indicadores clave de confiabilidad.
Entre las tareas que ocupan la mayor parte de su tiempo, los SRE encuestados citan en primer lugar la reducción del tiempo medio de reparación (MTTR), mencionado por el 67% de ellos. Le sigue el desarrollo y mantenimiento de código de automatización (60%), la detección y eliminación rápida de vulnerabilidades de seguridad (58%) y el diseño de pruebas y experimentos para reducir el riesgo de falla en la producción (52%). La dimensión de seguridad está ganando importancia en el papel de los SRE: el 68 % de los encuestados espera que su papel en esta área sea cada vez más central, en particular debido al uso cada vez mayor de bibliotecas de software de terceros en el desarrollo de aplicaciones en la nube.
Automatización e IA para ampliar las prácticas de SRE
Sin embargo, las SRE muestran ciertas dificultades recurrentes. Así, casi todos enfrentan obstáculos a la hora de definir los objetivos de nivel de servicio (SLO), a pesar de que son cada vez más importantes para brindar una experiencia de calidad al cliente. El 64 % de las SRE mencionan demasiadas fuentes de datos; Al 54% le resulta difícil encontrar los indicadores más relevantes para un servicio y el 36% señala la incapacidad de las herramientas de monitoreo para definir y monitorear fácilmente los SLO. Los encuestados también notan dificultades en la gestión y evaluación de los SLO: el primero es el funcionamiento en silos de equipos y herramientas (citado por el 68 %), seguido de la creciente complejidad de las aplicaciones, lo que resulta en áreas grises (59 %). Finalmente, el 52% menciona una incapacidad para correlacionar los indicadores de rendimiento con la experiencia del usuario.
Para los encuestados, uno de los temas clave para extender las prácticas de SRE radica en el creciente uso de la automatización. De hecho, en términos de herramientas, utilizan principalmente soluciones internas (66 %), que son difíciles de escalar. Hoy en día, confían en la automatización para reducir las vulnerabilidades de seguridad (61 %) y las fallas de las aplicaciones a través de la autocorrección (57 %), para acelerar el ritmo de entrega (56 %) y para predecir las infracciones de SLO antes de que ocurran (55 %). La inteligencia artificial representa otra palanca que se considera prometedora, ya que el 68 % de los SRE indican que están desarrollando el uso de tecnologías AIOps. Creen que esto permitirá a los equipos automatizar más procesos esenciales para garantizar que los niveles de servicio se cumplan continuamente (64 %). AIOps también ayudará a priorizar los problemas con mayor impacto en la satisfacción del usuario (63 %), así como las vulnerabilidades de seguridad para minimizar el tiempo de inactividad (62 %). Finalmente, es una forma de liberar tiempo, de aprovechar mejor las capacidades de los equipos operativos (62%).
Si quieres conocer otros artículos parecidos a Reducir los tiempos medios de reparación, primera tarea de las SRE puedes visitar la categoría Otros.
Otras noticias que te pueden interesar