Para satisfacer las demandas de rendimiento y capacidad sin precedentes que se espera que las cargas de trabajo de IA impongan a las redes, los proveedores de redes se han unido para mejorar la tecnología Ethernet actual y gestionar mejor la escala y la velocidad requeridas por la IA. 'AI. AMD, Arista, Broadcom, Cisco, Eviden, HPE, Intel, Meta y Microsoft han anunciado la creación del Consorcio Ultra Ethernet (UEC). Organizado por la Fundación Linux, el grupo trabajará en la capa física, el enlace, el transporte y el software de Ethernet para desarrollar el estándar que celebró su 50 aniversario. Caracterizada por su flexibilidad y adaptabilidad, se espera que esta venerable tecnología desempeñe un papel vital en el apoyo a las infraestructuras de inteligencia artificial. Sin embargo, existe la preocupación de que las interconexiones de redes tradicionales actuales no puedan proporcionar el rendimiento, la escala y el ancho de banda necesarios para cumplir con los requisitos de la IA, y el consorcio pretende abordar estas preocupaciones. “Las cargas de trabajo de IA son exigentes para las redes porque requieren un uso intensivo de datos y computación. Son tan importantes que los parámetros se distribuyen entre miles de procesadores. Los modelos de lenguajes grandes (LLM) como GPT-3, Chinchilla y PALM, así como sistemas de recomendación como DLRM (Deep Learning Recommendation) y DHEN (Deep and Hierarchical Ensemble Network) se entrenan en grupos de varios miles de GPU que comparten "parámetros" con otros procesadores involucrados en el cálculo", escribió Jayshree Ullal, CEO de Arista, en un blog sobre el consorcio. "En este ciclo de computación, intercambio y reducción, el volumen de datos intercambiados Es tan grande que cualquier desaceleración debido a una red deficiente o congestionada puede afectar críticamente el rendimiento de la aplicación de inteligencia artificial”, añadió.
Históricamente, las interconexiones como InfiniBand, PCI Express, acceso remoto directo a memoria a través de Ethernet (RDMA) y otros protocolos que conectan clústeres de computación con descargas son las únicas opciones disponibles para conectar núcleos de procesador y memoria. Pero son insuficientes para satisfacer las demandas de las cargas de trabajo de IA. “Arista y los miembros fundadores del Consorcio Ultra Ethernet creen que es hora de reconsiderar y reemplazar las limitaciones de RDMA. La tecnología RDMA tradicional, tal como la definió hace décadas la InfiniBand Trade Association (IBTA), ha alcanzado sus límites cuando el tráfico de red como AI/ML se vuelve muy exigente. RDMA transmite datos en porciones de grandes flujos, y estos grandes flujos pueden desequilibrar y sobrecargar los enlaces”, escribió además el Sr. Ullal. "Es hora de dejar atrás el pasado y crear un protocolo de transporte moderno que admita RDMA para aplicaciones emergentes", añadió el director ejecutivo de Arista. “El protocolo Ultra Ethernet Transport (UET) del Consorcio integrará los beneficios de Ethernet/IP teniendo en cuenta la escala de la red de IA para aplicaciones, puntos finales y procesos, preservando al mismo tiempo el objetivo de estándares abiertos y de interoperabilidad de múltiples proveedores.
Desarrollos esperados
En un documento técnico, la UEC dice que evolucionará la especificación Ethernet para incorporar una serie de tecnologías y capacidades fundamentales, que incluyen:
- Rutas múltiples y pulverización de paquetes para garantizar que los flujos de trabajo de inteligencia artificial tengan acceso a un destino simultáneamente.
- Orden de entrega flexible para garantizar que los enlaces Ethernet estén equilibrados de forma óptima; La orden solo se aplica cuando la carga de trabajo de IA lo requiere para operaciones que requieren un uso intensivo de ancho de banda.
- Mecanismos modernos de control de congestión para garantizar que las cargas de trabajo de IA eviten puntos críticos y distribuyan uniformemente la carga entre rutas múltiples. Se pueden diseñar para funcionar junto con la pulverización de paquetes de múltiples rutas, lo que permite un transporte confiable del tráfico de IA.
- Telemetría de extremo a extremo para gestionar la congestión. La información de la red puede informar a los participantes sobre la ubicación y la causa de la congestión. Un camino más corto para informar la congestión y enviar más información a los puntos finales proporciona un control de la congestión más receptivo.
Un futuro protocolo UEC
El Consorcio Ultra Ethernet dice que aumentará la escala, la estabilidad y la confiabilidad de las redes Ethernet, al tiempo que mejorará la seguridad. “El transporte UEC tiene seguridad de red incorporada por diseño y puede cifrar y autenticar todo el tráfico de red enviado entre puntos de procesamiento como parte del trabajo de inferencia o aprendizaje de IA. La UEC desarrollará un protocolo de transporte que aproveche las técnicas comprobadas para la gestión eficiente de sesiones, la autenticación y la privacidad de los métodos de cifrado modernos como IPSec y PSP”, escribió la UEC. “A medida que el volumen de tareas continúa aumentando, es necesario realizar el cifrado sin sobrecargar la sesión a nivel de host y de interfaz de red. Para ello, el protocolo Ultra Ethernet Transport integra nuevos mecanismos de gestión de claves que permiten compartir claves de forma eficiente entre decenas de miles de nodos informáticos que participan en una tarea. Está diseñado para implementarse de manera eficiente a las altas velocidades y escalas requeridas por el aprendizaje y la inferencia de la IA”, dijo el Consorcio. "No se trata de revisar Ethernet", dijo en un comunicado el Dr. J. Metz, presidente del Consorcio Ultra Ethernet. “Se trata de ajustar Ethernet para mejorar la eficiencia de las cargas de trabajo con requisitos de rendimiento específicos. Analizamos cada capa, desde la capa física hasta la capa de software, para encontrar la mejor manera de mejorar la eficiencia y el rendimiento a escala”, añadió Metz.
Se empieza a sentir la necesidad de mejorar la tecnología de conectividad de IA. Por ejemplo, en su último informe titulado "Informe de pronóstico de 5 años de julio de 2023 para centros de datos", Dell'Oro Group afirmó que para 2027, el 20% de los puertos de conmutador Ethernet de los centros de datos se conectarán a servidores acelerados para soportar cargas de trabajo de IA. "El aumento de nuevas aplicaciones de IA generativa ayudará a impulsar aún más un mercado de conmutadores de centros de datos ya sólido, que se espera que supere los 100 mil millones de dólares en ventas acumuladas durante los próximos cinco años", dijo Sameh Boujelbene, vicepresidente de Dell'Oro. En otro informe publicado recientemente, el Grupo 650 dijo que AI/ML impone importantes demandas de rendimiento de ancho de banda en la red, y que AI/ML es uno de los motores de crecimiento clave para la conmutación de centros de datos en los próximos cinco años. “A medida que aumenta el ancho de banda de la IA, la proporción de conmutación Ethernet vinculada a la IA/ML y el procesamiento acelerado pasará de un nicho de mercado a lo que es hoy en día para 2027. Hoy en día, tiene una participación significativa del mercado. "Se espera que los envíos de ópticas y conmutadores de 800 Gbps alcancen niveles récord tan pronto como se puedan poner en producción los productos para satisfacer las necesidades de AI/ML", dijo Alan Weckel, fundador y analista de tecnología de 650 Group.
Otras noticias que te pueden interesar