Según un análisis del incidente llevado a cabo por milyes, los desgloses habían causado una gran falta de disponibilidad de Azure y varios servicios en la nube de Microsoft Durante 90 minutos el 25 de enero, los efectos en cascada de una republicación rápida y repetida del prefijo de enrutamiento BGP (protocolo de puerta de enlace fronteriza). Según el editor especializado en el análisis de redes, Cisco Property, La falla es la consecuencia de una modificación externa de las tablas de enrutamiento BGP por Microsoft quien afectó a los proveedores de servicios. Como explicó Milicheyes, varios prefijos BGP de Microsoft fueron eliminados por completo, luego se volvieron a publicar casi de inmediato. El protocolo BGP (Protocolo de la puerta de enlace fronteriza) indica al tráfico de Internet el camino a tomar, y el algoritmo de selección para la mejor ruta BGP determina las carreteras óptimas que se utilizarán para la transferencia de tráfico. Según Milleyes, la retirada de las carreteras BGP antes del colapso parece haber tenido un impacto significativo en los compañeros directos. Si una ruta directa no estuviera disponible durante los períodos de retiro, la mejor ruta disponible habría sido la de un proveedor de tránsito. Una vez que se vuelven a publicar las rutas directas, el algoritmo de selección para la mejor ruta BGP habría elegido la ruta más corta, lo que habría resultado en un regreso a la carretera original.
Estas republicaciones se han repetido varias veces, causando una inestabilidad significativa en el enrutamiento. "La situación ha evolucionado rápidamente, causando una alta inestabilidad en las tablas de enrutamiento de Internet global", dijo Kemal Sanjta, analista principal de Internet en Thousleyes, en un análisis de la transmisión de Desglose de Microsoft en la web. "En consecuencia, podemos ver que muchos enrutadores han ejecutado el algoritmo de selección para el mejor camino, que en realidad no es una operación barata desde el punto de vista del consumo de energía", agregó el analista. Más importante aún, los cambios de enrutamiento han causado pérdidas significativas de paquetes, lo que impide que los clientes accedan a equipos de Microsoft, Outlook, SharePoint y otras aplicaciones. "Microsoft ha pasado de un proveedor de tránsito a otro de una manera muy volátil antes de instalar la mejor ruta, y repitió la operación, lo que nunca es bueno para la experiencia del cliente", dijo nuevamente el Sr. Sanjta.
Tráfico difícil
Además de estos cambios rápidos en las rutas de enrutamiento, el tráfico se ha movido a gran escala a través de redes de proveedores de tránsito, una operación difícil de absorber para los proveedores de servicios que explica los niveles de pérdida de paquetes documentados por miles de años. "Dada la popularidad de los servicios de Microsoft como SharePoint, equipos y otros servicios afectados como parte de este incidente, es muy probable que los proveedores de tránsito recibieran cantidades bastante grandes de tráfico cuando se les desvió", explicó el Sr. Sanjta. Dependiendo de los Tecnología de enrutamiento utilizada por estos ISP - Network SDN o Ingeniería de Tráfico MPLS activada por el Protocolo de control de red RSVP - "Todas estas soluciones requirieron algo de tiempo para reaccionar a la afluencia de una gran cantidad de tráfico. Y en el caso de que no tuvieran tiempo suficiente para reaccionar ante este aumento en los paquetes, ciertas interfaces fueron abrumadas debido a su uso excesivo, lo que finalmente resultó en caídas de tráfico ". La pérdida significativa de paquetes consecutivos" fue ciertamente observada por los clientes y resultó En una experiencia realmente mediocre ", agregó analista de Thousaneyes.
Con respecto a las perturbaciones de la conectividad, Milicheyes dijo que el alcance y la velocidad de los cambios indican una mala decisión en la administración, que probablemente implica tecnología de automatización, lo que ha causado una desestabilización de los caminos mundiales a los prefijos de Microsoft. "Dada la velocidad de estos cambios en la tabla de enrutamiento, creemos que algunos de estos cambios han sido causados por una acción automatizada del lado de Microsoft", dijo Sanjta. "Esencialmente, creemos que una cierta automatización ha comenzado, que reaccionó inesperadamente desde el punto de vista de la ingeniería de tráfico, y que se repitió varias veces", agregó el analista. La mayoría de las interrupciones del servicio duraron aproximadamente 90 minutos, incluso si Milicheyes dijo que había visto problemas de conectividad residual al día siguiente.
Explicaciones de Microsoft
El editor de Redmont dijo que publicaría un informe final más detallado del incidente, probablemente en las próximas dos semanas, después de completar su examen interno. Por lo que Microsoft ha declarado hasta ahora un cambio en la configuración de la red ha causado el desglose, que reconoció por primera vez en un tweet publicado a las 7:31 UTC en la cuenta de Twitter de Microsoft 365 Status (@MSFT365Status): "Estamos investigando problemas con Un impacto en varios servicios de Microsoft 365 ". Aproximadamente 90 minutos después, la cuenta de Twitter publicó: "Aislamos el problema de configuración de la red y estamos estudiando la mejor estrategia de atenuación para remediarla sin causar impacto adicional". Y a las 9:26 am UTC: “Hemos cancelado un cambio de configuración en la red que, en nuestra opinión, causa un impacto. Monitoreamos el servicio mientras la cancelación entra en vigencia ”.
La firma compartió más detalles en un análisis preliminar posterior a la incidente publicado a través de su página de estado de Azure. “Entre las 07:05 UTC y las 12:43 PM UTC del 25 de enero de 2023, los clientes han encontrado problemas de conectividad de red, manifestándose en una latencia de red larga y/o tiempos de espera durante los intentos de conexión a los recursos alojados en las regiones de Azure, Así como otros servicios, incluidos Microsoft 365 y Power Platform. Si bien la mayoría de las regiones y servicios se restablecieron a las 9:00 a.m. UTC, los problemas de pérdida de paquetes intermitentes se atenuaron por completo a las 12:43 pm UTC. Este incidente también tuvo un impacto en los servicios gubernamentales de Azure Cloud Azure que dependían de la nube pública de Azure. "
Actualización actualizada desafortunadamente extendida
Según Microsoft, una modificación realizada a su red WAN tuvo un impacto en la conectividad: “Como parte de un cambio planificado destinado a actualizar la dirección IP de un enrutador WAN, un comando dado al enrutador condujo a la 'envío de mensajes a todos los demás Los enrutadores WAN, alentándolos a todos, recalculan sus tablas de adyacencia y transferencia. Durante este proceso de recalculación, los enrutadores no pudieron transmitir adecuadamente los paquetes de tránsito. El orden en el origen del problema tiene diferentes comportamientos dependiendo de los dispositivos de red, y el orden no se había verificado utilizando nuestro proceso de calificación completo en el enrutador en el que se ejecutó ”.
Otras noticias que te pueden interesar