El 19 de julio, a los pocos minutos de que el gigante de la seguridad de datos Crowdstrike lanzara lo que se suponía que sería una actualización de seguridad, las empresas comenzaron a perder terminales de Windows. Y terminamos con una de las interrupciones de TI más graves y generalizadas de todos los tiempos. Se ha dicho mucho sobre los motivos de este evento, pero ¿qué impacto ha tenido en la forma en que las empresas anticipan las interrupciones y lo que creen que deberían hacer cuando ocurren? También hemos escuchado que las empresas están repensando sus estrategias en la nube a raíz de la interrupción de Crowdstrike. ¿Es esto cierto y, de ser así, qué planean hacer?

Una cosa está clara: las empresas creen que Crowdstrike es el problema. Solo 21 de las empresas con las que me puse en contacto creían que Microsoft tenía algo que ver en el asunto, y ninguna creía que fuera el principal responsable.

Los dos errores de Crowdstrike

Según las empresas, Golpe de masas Cometió dos errores. En primer lugar, no tuvo en cuenta la sensibilidad de su software cliente Falcon para endpoints en lo que respecta a los datos que describen cómo escanear en busca de problemas de seguridad. Como resultado, una actualización de esos datos hizo que el cliente colapsara al introducir una condición que ya existía pero que no se había probado adecuadamente. En segundo lugar, en lugar de hacer una distribución limitada del nuevo archivo de datos, que probablemente habría detectado el problema y limitado su impacto, Crowdstrike lo distribuyó a toda su base de usuarios.

Toda lógica de programación depende de los datos, en el sentido de que las rutas del software están determinadas por los datos que procesa. Por lo tanto, no se puede decir que se ha probado un programa si no se han explorado todas esas rutas. De los 89 directores de desarrollo de empresas que me proporcionaron comentarios, todos dijeron que se habían encontrado con este problema en sus propias pruebas y que esperan que un proveedor de software sea incluso más cuidadoso que ellos. Sin embargo, entienden cómo puede suceder. Uno dijo que había oído que el error de software había estado en el cliente Falcon durante más de un año y que simplemente no se había detectado todavía.

Microsoft: ¿culpa o no?

Las cosas se ponen un poco más confusas en relación con los fallos de los sistemas Windows (más de ocho millones de ellos) tras el fallo de CrowdStrike y su resistencia a la recuperación remota. Las 21 empresas que creen que Microsoft contribuyó al problema creen que Windows no debería haber respondido como lo hizo al error de CrowdStrike. Las 37 empresas que no responsabilizaron a Microsoft señalaron que el software de seguridad necesariamente tiene una capacidad única para interactuar con el software del núcleo de Windows, lo que significa que puede crear un problema importante si sale mal.

Pero aunque las empresas no están convencidas de que Microsoft haya contribuido al problema, más de tres cuartas partes de ellas creen que Microsoft podría hacer algo para reducir el riesgo de una recaída. Casi la misma cantidad de empresas dijeron que pensaban que Windows era más susceptible que otros sistemas operativos al tipo de problemas creados por el error de Crowdstrike, y esa opinión fue compartida por 80 de los 89 ejecutivos de desarrollo encuestados, muchos de los cuales señalaron que MacOS o Linux no planteaban el mismo nivel de riesgo y que ninguno de ellos se había visto afectado por el problema.

Evaluación del impacto de la nube en la confiabilidad de las aplicaciones

Pero, ¿qué significa todo esto para el uso de la nube? Tradicionalmente, las empresas han considerado el uso de la nube como una forma de mejorar la confiabilidad de las aplicaciones. Pero la proporción de quienes creen que juzgaron mal el valor de la nube en esta área ha crecido de menos del 15% antes de la interrupción al 35% inmediatamente después y al 55% a principios de agosto. El principal impulsor de este crecimiento ha sido la comprensión de que fallas masivas de puntos finales podrían paralizar sus negocios y que ninguna copia de seguridad en la nube sería efectiva. Las empresas se han visto obligadas a analizar en profundidad el impacto de la nube en la confiabilidad de las aplicaciones.

Digamos que una aplicación alojada en un centro de datos está vinculada a una PC con Windows. Supongamos además que cada una de ellas tiene probabilidades de fallar el 1 % del tiempo. Quiere mejorar la confiabilidad agregando un front-end en la nube, que también tiene una tasa de falla del 1 % del tiempo. ¿Qué tan confiable es? Todo depende de qué tan bien la nube y el centro de datos puedan respaldarse mutuamente. Si no pueden, la probabilidad de que los tres estén funcionando al mismo tiempo es de 0,99 al cubo, o 97 %, que es menor que la disponibilidad sin la nube. Pero si la nube y el centro de datos pueden confiar entre sí, ambos tendrían que fallar para que su aplicación no esté disponible. Entonces, el riesgo de que tanto la nube como el centro de datos fallen es de 1 % por 1 %, o uno en diez mil. Esto mejora la confiabilidad de la aplicación.

¿La multicloud mejora la confiabilidad? No siempre

El mismo tipo de cálculo debe tenerse en cuenta para la multicloud. De las 110 empresas que comentaron sobre el impacto de la multicloud en la confiabilidad, 108 dijeron que hacía que las aplicaciones fueran más confiables. ¿Es así? Depende. Si dos nubes se respaldan mutuamente, el riesgo de falla es menor, como en mi ejemplo anterior. Pero muchas empresas admitieron que al menos algunas de sus aplicaciones necesitaban ambas nubes porque los componentes dependían de características específicas de cada entorno. En este caso, ambos proveedores deben estar en funcionamiento al mismo tiempo, ¡y la multicloud en realidad reduce la confiabilidad de las aplicaciones!

Esto demuestra que las empresas pueden estar engañándose a sí mismas respecto de la nube. No siempre va a mejorar la confiabilidad ni siempre va a reducir los costos. No hay sustituto para saber exactamente lo que se está haciendo, especialmente en la gestión de la confiabilidad. El instinto no es un buen sustituto para un curso de probabilidad y estadística.

La cuestión clave de la fiabilidad del acceso

Pero volvamos a mi cálculo de la fiabilidad de la nube. Sí, el riesgo de fallo de la nube y del centro de datos es de uno en diez mil, pero el riesgo de fallo de los puntos finales de ETS, en este ejemplo, es de uno en cien. El riesgo asociado a los puntos finales es claramente mayor, así que ¿qué pueden hacer las empresas al respecto?

De las 138 empresas que comentaron sobre el problema, la sugerencia más común fue capacitar a las personas clave en cada sitio para que "inicien de forma segura" sus sistemas, ya que eso era todo lo que realmente se necesitaba para resolver rápidamente el problema de Crowdstrike. La segunda recomendación más común fue utilizar una interfaz de navegador en el dispositivo en lugar de una aplicación. De hecho, 44 ​​empresas informaron que usaban un acceso basado en navegador y pudieron operar normalmente durante una interrupción del servicio como la de Crowdstrike siempre que tuvieran un dispositivo que no fuera Windows. Lo más común fue que se tratara de un teléfono o una tableta, pero algunas (13) tenían sistemas de escritorio Mac o Linux que podrían haber usado durante la interrupción. Además, es posible usar varios dispositivos básicos para ejecutar un navegador, como un Chromebook, y es menos probable que estos tipos de dispositivos sean víctimas de problemas como el que encontró Crowdstrike, o incluso que requieran herramientas de seguridad de puntos finales especializadas.

Simplificar terminales

¿Debería entonces “repensar su estrategia en la nube”? De hecho, lo que necesita hacer es repensar su estrategia de endpoints. La recomendación de acceso basado en navegador podría significar que aumentar el uso de la nube reduciría el riesgo. Porque el problema real aquí es que los dispositivos sofisticados que sirven como puertas de entrada a las aplicaciones son más difíciles de reparar de forma remota y el personal local no tiene las habilidades para hacer el trabajo por sí mismo. Simplificar los endpoints puede generar una multiplicidad de opciones de endpoints disponibles, como ha sido el caso de muchas empresas, lo que hace que el tipo de falla que creó Crowdstrike sea un gran inconveniente. No se asuste; bien utilizada, la nube sigue siendo su amiga.