Al ayudar a las empresas clientes a desarrollar y gestionar de manera efectiva los entornos de red de IA, este es el objetivo de las funciones de equilibrio de carga y observabilidad centradas en las tareas de ayuda agregadas por Arista Networks a sus principales productos de software. La función de equilibrio de carga y rendimiento de los grupos de IA ahora es parte del sistema operativo del sistema extensible (EOS) de Arista, ejecutado por toda su cartera de redes. El proveedor también ha fortalecido su solución de gestión de CloudVision para ayudar mejor a las tareas de IA cuando cruzan la red.

La función de equilibrio de carga de clúster (CLB), que forma parte del conjunto de herramientas AI Smart AI Arista EOS para la gestión de redes de IA, es un paquete RDMA (acceso de memoria directa remota) basado en Ethernet que garantiza un alto ancho de banda y una baja latencia entre los grupos de IA y las redes de columna vertebral y la columna vertebral a las que están conectadas. "Las tareas de IA no pueden tolerar la alta latencia o los flujos lentos como las redes tradicionales", dijo Praful Bhaidasna, directora de gestión de productos de Arista. "Las tareas de IA se basan en el hecho de que todo debe terminar antes del siguiente paso, para que solo un flujo lento pueda detener todo", continuó. "El clúster de equilibrio de carga funciona observando la conexión RDMA en Ethernet para monitorear los flujos de tráfico, luego utilizando la información de estado para crear una solución de equilibrio de carga óptima", agregó Bhaidasna. "El CLB garantiza una baja latencia, por lo que no hay un flujo lento y todos los enlaces se usan al máximo. Ningún enlace estará más desordenado que otro debido a flujos importantes, porque todos los flujos son importantes en el mundo de la IA", insistió el Sr. Bhaidasna. La otra característica esencial del CLB es que es agnóstico en términos de GPU y NIC. "El CLB garantiza un uso equilibrado.» »

Desde sus intra., El hueso de Arista ha ganado en funcionalidad. (Crédito de Arista)

Actualizaciones de la plataforma de Urista CloudVision

Para ayudar a las empresas a administrar entornos de IA y red, Arista agregó a su sistema Universal Network Observability (CV UNO) centrado en tareas de IA para una mejor solución de problemas. CV UNO es un componente bajo la licencia de la plataforma CloudVision AS de Arista que recopila datos telemétricos y analíticos en la red y asociados con tecnologías de IA y aprendizaje automático para ofrecer información detallada en tiempo real en el flujo y aplicaciones de la red, el análisis de riesgos y los incidentes, y la gestión de los cambios. "CV UNO permitirá a los clientes correlacionar los datos de la red y las medidas de tareas de IA para optimizar el rendimiento de las tareas de IA e identificar cuellos de botella y problemas de materiales que afectan el rendimiento de la carga de trabajo de IA", dijo Bhaidasna. El sistema puede ver los tiempos de finalización de las tareas de IA, los indicadores de congestión y el uso de buffers/enlaces para garantizar una ejecución ininterrumpida y altamente efectiva de las cargas de trabajo IA. "Tradicionalmente, a menudo consideramos la salud de la red en una T. Por ejemplo, los datos de SNMP planteados en un momento dado indican si la interfaz está debajo o desactivada, o si un interruptor está roto, etc. Pero no hay visibilidad en lo que ha sucedido mientras tanto", dijo el Sr. Bhaidasna. "CV UNO elimina las conjeturas sobre lo que realmente está sucediendo allí, y la IA puede identificar problemas y proponer sugerencias sobre su resolución antes de que tengan un impacto".

La función de equilibrio de carga de clúster ya está disponible en los interruptores 7260x3, 7280R3 y 7500R3 de Arista, así como en la plataforma Etherlink 7800R3. El soporte para las plataformas Etherlink 70660x6 y 7060x5 está programada para el segundo trimestre de 2025. La administración de la plataforma de caja de spine Etherlink 800G AI 7800R4 800G está programada para la segunda mitad de 2025. "CV UNO ahora está disponible y las mejoras de observabilidad para AI están sujetas a los clientes activos, la disponibilidad general está programada para el cuarto trimestre de 2025, se está disponible ahora.