Amazon Web Services ha estado reforzando seriamente su red para manejar las demandas cada vez mayores asociadas con sus aplicaciones y servicios de IA. Una publicación reciente del blogPrasad Kalyanaraman, vicepresidente de servicios de infraestructura de AWS, brindó una descripción general de los pasos que está tomando el proveedor para optimizar su red global para manejar cargas de trabajo de IA. Kalyanaraman señaló que, durante más de 25 años, Amazon ha estado utilizando IA y aprendizaje automático para impulsar funciones como recomendaciones de compras y opciones de empaquetado, y los clientes han podido acceder a servicios de IA y aprendizaje automático a través de AWS. Hoy, el negocio de la empresaAWS La inteligencia artificial es un negocio multimillonario. “Más de 100.000 clientes de diferentes sectores, entre ellos Adidas, la Bolsa de Nueva York, Pfizer, Ryanair y Toyota, utilizan los servicios de inteligencia artificial y aprendizaje automático de AWS para ofrecer nuevas experiencias a sus clientes”, escribió Kalyanaraman. “Además, muchos de los principales modelos de inteligencia artificial generativa se entrenan y ejecutan en AWS”.

AWS ha creado su propia arquitectura basada en Ethernet que se apoya en su interfaz de red Elastic Fabric Adapter (EFA) personalizada. Esta utiliza el protocolo de transporte de red Scalable Reliable Datagram (SRD) propio de AWS. “Nuestro protocolo de transporte de red Scalable Reliable Datagram (SRD) puede utilizar redes de centros de datos de múltiples instancias modernas (con una gran cantidad de rutas de red) y, al mismo tiempo, superar sus limitaciones (desequilibrio de carga y latencia inconsistente cuando colisionan flujos no relacionados). En lugar de preservar el orden de los paquetes, SRD envía paquetes a través de tantas rutas de red como sea posible, al tiempo que evita las sobrecargadas. Para minimizar la fluctuación y garantizar la respuesta más rápida a las fluctuaciones en la congestión de la red, SRD se implementa en el adaptador de red Nitro personalizado de AWS”, explica AWS. en una descripción publicada por el IEEE.

Índice
  1. Beneficios de construir sus propios componentes de infraestructura de red
  2. Tácticas de enfriamiento y diseño de chips enfocados en la eficiencia energética
  3. Se lanzan conexiones dedicadas de 400 Gbps

Beneficios de construir sus propios componentes de infraestructura de red

Según Kalyanaraman, la decisión de construir su propia arquitectura de red, incluidas sus propias tarjetas de interfaz de red y enrutadores, tiene una serie de ventajas para AWS. “Nuestro enfoque es único en el sentido de que hemos desarrollado nuestros propios dispositivos de red y sistemas operativos de red para cada capa de la pila, desde la tarjeta de interfaz de red (NIC) hasta el conmutador de la parte superior del rack, la red del centro de datos, el enrutador que da a Internet y nuestros enrutadores de red troncal. Con este enfoque, no solo podemos controlar mejor la mejora de la seguridad, la confiabilidad y el rendimiento para los clientes, sino también innovar más rápido que otros”, escribió Kalyanaraman.

Por ejemplo, AWS entregó recientemente una nueva red optimizada para cargas de trabajo de IA generativa, y en solo siete meses. “Nuestra red UltraCluster de primera generación, creada en 2020, admitía 4000 unidades de procesamiento gráfico, o GPU, con ocho microsegundos de latencia entre servidores. La última red UltraCluster 2.0 admite más de 20 000 GPU con una latencia un 25 % menor. Se creó en solo siete meses y lograr esta velocidad no habría sido posible sin una inversión a largo plazo en nuestro propio hardware y software de red personalizado”, dijo Kalyanaraman. UltraCluster 2.0, conocida internamente como la red “10p10u”, presentada en 2023, ofrece decenas de petabits por segundo de rendimiento, con un tiempo de ida y vuelta de menos de 10 microsegundos. “La nueva red puede reducir el tiempo necesario para entrenar un modelo en al menos un 15 %”, dijo Kalyanaraman.

Tácticas de enfriamiento y diseño de chips enfocados en la eficiencia energética

Otra prioridad de infraestructura para AWS es mejorar continuamente la eficiencia energética de sus centros de datos. El entrenamiento y la ejecución de modelos de IA pueden consumir una gran cantidad de energía. “Los chips de IA realizan cálculos matemáticos de alta velocidad, lo que los hace fundamentales para los modelos de ML. También generan mucho más calor que otros tipos de chips, por lo que los nuevos servidores de IA que requieren más de 1000 vatios de potencia por chip deberán estar refrigerados por líquido. Sin embargo, algunos servicios de AWS utilizan infraestructura de red y almacenamiento que no requiere refrigeración por líquido y, por lo tanto, refrigerar esta infraestructura con líquido sería ineficiente en términos de energía”, explicó Kalyanaraman. “El último diseño de centro de datos de AWS integra a la perfección soluciones de refrigeración por aire optimizadas con capacidades de refrigeración por líquido para los chips de IA más potentes, como los Grace Blackwell Superchips de Nvidia”. Este diseño de refrigeración multimodal flexible permite el máximo rendimiento y eficiencia, ya sea que estemos ejecutando cargas de trabajo tradicionales o modelos de IA/ML”.

Durante varios años, AWS ha estado diseñando sus propios chips, incluidos AWS Trainium y AWS Inferentia, para que el entrenamiento y la ejecución de modelos de IA generativos sean más eficientes energéticamente. “AWS Trainium acelera y reduce el costo de entrenamiento de modelos de ML hasta en un 50% en comparación con otras instancias comparables de Amazon EC2 optimizadas para el entrenamiento de modelos, y AWS Inferentia permite que los modelos generen inferencias más rápido y de manera más rentable, con un rendimiento de costos hasta un 40% mejor que otras instancias comparables de Amazon EC2 optimizadas para inferencias”, agregó Kalyanaraman. La tercera generación del chip de IA Trainium2 de AWS estará disponible a finales de este año. “En comparación con los chips Trainium de primera generación, el chip Trainium2 será hasta 4 veces más rápido de entrenar y se puede implementar en EC2 UltraClusters de hasta 100.000 chips. Esto significa que los modelos de lenguaje de referencia y grandes se pueden entrenar en una fracción del tiempo, al tiempo que se mejora la eficiencia energética hasta en 2 veces”, dijo Kalyanaraman. “Además, AWS está trabajando con socios como Nvidia, Intel, Qualcomm y AMD para ofrecer aceleradores de nube para aplicaciones de ML e IA generativa”, afirmó Kalyanaraman.

Se lanzan conexiones dedicadas de 400 Gbps

A principios de julio, AWS anunció que su servicio privado Direct Connect de alto ancho de banda ahora ofrece Conexiones dedicadas nativas de 400 Gbps entre AWS y los centros de datos y las instalaciones de coubicación. Las conexiones nativas de 400 Gbps proporcionan un mayor ancho de banda sin la sobrecarga operativa que supone gestionar varias conexiones de 100 Gbps en un grupo de agregación de enlaces. “La mayor capacidad que proporcionan las conexiones de 400 Gbps es especialmente beneficiosa para las aplicaciones que transfieren conjuntos de datos a gran escala, como el aprendizaje automático y el entrenamiento de modelos de lenguaje de gran tamaño o sistemas avanzados de asistencia al conductor para vehículos autónomos”, afirmó AWS.