AI Spine, la respuesta de Arista a la presión que ejerce la IA en las redes
hace 2 años
Para controlar el intenso tráfico de IA, reducir la latencia y evitar la pérdida de paquetes, AI Spine se basa en los conmutadores de Arista con búferes de paquetes profundos y su software de red Extensible Operating System (EOS). ).
Según Martin Hull, vicepresidente de Cloud Titans y Platform Product Management en Arista Networks, "el problema es que las interconexiones de red tradicionales de hoy en día no pueden proporcionar la escala y el ancho de banda necesarios para satisfacer las demandas de la IA". . Históricamente, la única opción para conectar núcleos de procesador y memoria la proporcionaban interconexiones patentadas como InfiniBand, PCI Express y otros protocolos que conectan clústeres de procesamiento. Pero, en su mayor parte, no funcionará con la IA y sus requisitos de recursos.
Columna vertebral Arista AI
La tecnología desarrollada por Arista debe abordar estas preocupaciones. Llamado AI Spine, se basa en conmutadores de centros de datos con búferes de paquetes profundos y software de red que proporciona monitoreo en tiempo real para administrar los búferes y controlar el tráfico de manera efectiva. “La llegada de una multitud de aplicaciones basadas en IA, lenguaje natural, aprendizaje automático da como resultado una gran ingestión de datos distribuidos en cientos o miles de chips (CPU, GPU, DPU) que asumen la tarea computacional, la dividen en pedazos, cada uno hace su parte y lo envía de vuelta”, dijo Hull. “Y si la red interrumpe el tráfico, significa que el procesamiento inicial de la IA se retrasa porque tiene que transmitirse nuevamente. Además, si durante el procesamiento de estas cargas de trabajo de IA, el tráfico realiza otros viajes de ida y vuelta, ralentiza las tareas de IA e incluso pueden fallar”, agregó.
La arquitectura de la columna vertebral de IA
La arquitectura AI Spine de Arista se basa en los conmutadores de centro de datos de la serie 7800R3, que en el extremo superior ofrecen una capacidad de conmutación de 460 Tb/s y cientos de interfaces de 40 Gb/s, 50 Gb/s, 100 Gb/s o 400 Gb/s, así como 384 GB de memoria intermedia. "Los amortiguadores son esenciales para mantener el tráfico en movimiento y evitar pérdidas", dijo Martin Hull. "Algunas personas se preocupan por la latencia que podrían causar los buffers grandes, pero nuestros análisis muestran que esto no está sucediendo", agregó el vicepresidente de Cloud Titans y Platform Product Management de Arista Networks. De acuerdo con un libro blanco sobre AI Spine, los sistemas AI Spine deben ser controlados por el software de red central de Arista, el sistema operativo extensible (EOS). Adecuado para redes Ethernet de gran ancho de banda, sin pérdidas y de baja latencia, este software sería capaz de interconectar miles de GPU a velocidades de 100, 400 y 800 Gbps, según los esquemas de asignación de búfer.
“Para lograr esto, los conmutadores y el ensamblaje EOS crean una estructura que divide los paquetes y los vuelve a formatear en celdas de tamaño uniforme, 'rociándolos' uniformemente a través de la estructura”, explicó Arista. El objetivo es garantizar un acceso equitativo a todas las rutas disponibles dentro de la estructura y cero pérdida de paquetes. "A un tejido basado en celdas no le importan las velocidades de conexión de front-end, por lo que mezclar y combinar 100G, 200G y 400G no es un problema", escribió el proveedor. “Además, la estructura celular lo protege de los problemas de 'colisión de flujo' a los que está expuesto un tejido Ethernet. Se utiliza un mecanismo de programación distribuida dentro del conmutador para garantizar flujos de tráfico justos que compitan por el acceso a un puerto de salida congestionado. Como cada flujo usa cualquier ruta disponible para llegar a su destino, la estructura es adecuada para manejar un tráfico muy denso, del tipo "flujo de elefante", común a las aplicaciones AI/ML, y por lo tanto, "no hay puntos de acceso internos en el red”, escribió Arista además.
Modelos de columna con IA
Para explicar cómo funciona AI Spine, el documento técnico de Arista proporciona dos ejemplos. En el primero, un diseño Leaf & Spine dedicado con switches Arista 7800 está conectado a cientos de racks de servidores, con las capacidades de balanceo de carga automático de EOS que controlan el tráfico entre servidores para evitar colisiones. La clasificación de calidad de servicio (QoS), la notificación de congestión explícita (ECN) y el control de flujo prioritario (PFC) están configurados en todos los conmutadores para evitar la pérdida de paquetes. El analizador de latencia Arista EOS Latency Analyzer (LANZ) determina los umbrales apropiados para evitar la pérdida de paquetes mientras mantiene un alto rendimiento y permite que la red se amplíe al tiempo que garantiza una baja latencia predictiva. El segundo caso de uso, que podría escalar a cientos de puntos finales, conecta todos los modos de GPU directamente a los conmutadores 7800R3 en AI Spine. “Por lo tanto, la estructura resultante proporciona un solo salto entre todos los puntos finales, lo que reduce la latencia y permite una única red grande sin pérdidas que no requiere configuración ni ajuste”, explicó Arista.
Los desafíos de las redes de IA
Son principalmente tecnologías y aplicaciones como la virtualización de servidores, la creación de contenedores de aplicaciones, la computación en múltiples nubes, Web 3.0, big data y HPC las que han impulsado el desarrollo de la arquitectura AI Spine. Para optimizar y aumentar el rendimiento de estas nuevas tecnologías, se ha demostrado que una estructura de IP distribuida, sin escalas y con búfer profundo ofrece un rendimiento constante y admite patrones de tráfico extremos "Este-Oeste". “,” escribió nuevamente Arista. Si bien para la mayoría de las empresas puede ser demasiado pronto para preocuparse por la gestión de cargas de trabajo de clústeres de IA a gran escala, algunos entornos más grandes, como hiperescaladores, redes HPC para finanzas, realidad virtual, juegos y desarrollo automotriz, ya se están preparando para las interrupciones del tráfico que podrían generar estos entornos. causa en las redes tradicionales. “A medida que crecen las cargas de trabajo de IA, ejercen una presión cada vez mayor sobre la red en términos de escala y ancho de banda, pero también en términos de almacenamiento y profundidad del búfer, latencia predecible y gestión de datos. paquetes pequeños y flujos de elefantes”, dijo recientemente el CEO de Arista, Jayshree Ullal, en una reunión de tecnología de Goldman Sachs. “Se necesita mucha ingeniería para hacer que Ethernet tradicional funcione como una red de back-end para respaldar esta tecnología en el futuro, y el uso creciente de 400G agregará un volumen de tráfico adicional”, dijo el Sr. Ullal.
Si quieres conocer otros artículos parecidos a AI Spine, la respuesta de Arista a la presión que ejerce la IA en las redes puedes visitar la categoría Otros.
Otras noticias que te pueden interesar