El hecho de que Intel y AMD se hayan unido para ofrecer un producto competidor es una clara señal del dominio de Nvidia en el espacio de los aceleradores. La semana pasada, AMD e Intel, junto con Broadcom, Cisco, Google, Hewlett Packard Enterprise, Meta y Microsoft, formaron el grupo promotor Ultra Accelerator Link (UALink) para desarrollar interconexiones de alta velocidad entre procesadores y aceleradores. Nvidia ya cuenta con la tecnología NVLink, que permite a sus procesadores comunicarse entre sí y compartir datos a velocidades extremadamente altas. Con la tecnología de interconexión de aceleradores de alta velocidad UALink, los competidores de Nvidia se están uniendo para hacer lo mismo con sus propios chips. La asociación entre Microsoft, Meta y Google puede parecer poco probable, pero todos fabrican procesadores personalizados para sus servicios en la nube. “El primer paso para UALink es definir y establecer un estándar industrial abierto para que los aceleradores de IA se comuniquen de manera más eficiente”, explicó el grupo. Según los partidarios de UALink, una interconexión basada en estándares abiertos debería permitir a los fabricantes de equipos, profesionales de TI e integradores de sistemas facilitar la integración, mejorar la flexibilidad y la escalabilidad de sus centros de datos conectados mediante IA.

La IA y la computación de alto rendimiento (HPC) requieren mover cantidades masivas de datos entre núcleos y memoria. Para construir sus interconexiones NVLink de alta velocidad, Nvidia aprovechó la tecnología de redes de alta velocidad que adquirió en 2019 con su adquisición de Mellanox por 6.900 millones de dólares. “Cuando se observan las necesidades de los sistemas de IA en el centro de datos, queda muy claro que los modelos de IA siguen creciendo enormemente”, dijo Forrest Norrod, vicepresidente ejecutivo y gerente general del Grupo de Soluciones para Centros de Datos de AMD, en una conferencia de prensa telefónica. “Esto significa que, para los modelos más avanzados, varios aceleradores deben trabajar juntos para la inferencia o el entrenamiento. La capacidad de escalar estos aceleradores será fundamental para mejorar la eficiencia, el rendimiento y la economía de los sistemas a gran escala en el futuro”.

Unificar a los proveedores contra Nvidia

El grupo UALink planea desarrollar una especificación para definir una interconexión de alta velocidad y baja latencia para comunicaciones a gran escala entre aceleradores y conmutadores en módulos de cómputo de IA. Según el grupo, con la especificación 1.0, será posible conectar hasta 1.024 aceleradores dentro de un módulo de cómputo de IA y realizar operaciones de carga y almacenamiento directamente en la memoria conectada a los aceleradores, como las GPU, en el módulo. Norrod señaló que los miembros de UALink también apoyan al Consorcio Ultra Ethernet (UEC), creado para desarrollar tecnologías para aumentar la escala, la estabilidad y la confiabilidad de las redes Ethernet para cumplir con los requisitos de redes de alto rendimiento de la IA. Fundado el año pasado por AMD, Arista, Broadcom, Cisco, Eviden, HPE, Intel, Meta y Microsoft, el UEC ahora incluye más de 50 proveedores. A finales de este año, el consorcio planea publicar especificaciones formales que se centrarán en una serie de mejoras en el escalamiento de Ethernet, incluida una mejor entrega de paquetes y opciones de múltiples rutas, así como funciones modernas de congestión y telemetría. “Esta interconexión a nivel de pod que el grupo UALink está promoviendo puede abordar un aspecto importante de las futuras arquitecturas de sistemas de IA a gran escala. Y en conjunto con Ultra Ethernet, permitirá que sistemas de cientos de miles o millones de aceleradores trabajen juntos de manera eficiente”, dijo Norrod.

En una declaración que anuncia la formación del grupo, J. Metz, presidente del Consorcio Ultra Ethernet, promocionó el potencial de colaboración entre UALink y los partidarios de UEC: “En muy poco tiempo, la industria tecnológica ha abordado los desafíos introducidos por la IA y la HPC. Interconectar aceleradores como las GPU requiere una perspectiva holística para mejorar la eficiencia y el rendimiento. En UEC, creemos que el enfoque de escalamiento de UALink para resolver los desafíos de los clústeres de pods complementa nuestro propio protocolo de escalamiento horizontal, y esperamos colaborar en la creación de una solución abierta, consciente del ecosistema y para toda la industria que aborde ambas necesidades en el futuro”. El Grupo Promotor de UALink planea enviar la especificación 1.0 en el tercer trimestre de este año. Estará disponible para las empresas que se unan al Consorcio Ultra Accelerator Link (UALink). Los productos podrían aparecer el próximo año, con una posible implementación alrededor de 2026.