Con motivo de su evento Google I/O, la firma de Mountain View anunció la apertura de su plataforma de computación remota en la nube basada en su superordenador A3. Accesible desde instancias de tipo VM, este entorno, que se basa en CPU Intel Xeon Gen4 y GPU Nvidia H100, está diseñado para el procesamiento intensivo de grandes modelos de IA. "Las máquinas virtuales con GPU A3 se crearon específicamente para ofrecer la solución de mayor rendimiento para las cargas de trabajo de aprendizaje automático actuales, con una CPU moderna, memoria de host mejorada, GPU Nvidia de próxima generación y actualizaciones de las principales redes", destacó la compañía en un comunicado de prensa.
Las instancias funcionan con ocho aceleradores H100, la GPU más nueva de Nvidia que comenzó a distribuirse a principios de este mes, así como procesadores Xeon de cuarta generación de Intel, con 2 TB de memoria de host y un ancho de banda bidireccional de 3,6 Tb/s entre las ocho GPU a través del NVSwitch de Nvidia. y NVLink 4.0. En total, Google Cloud afirma que estas instancias pueden proporcionar una potencia informática total de 26 exaFlops. Este es el rendimiento acumulativo de toda la supercomputadora, no de cada instancia individual. Aún así, supera el récord anterior de la supercomputadora más rápida, Frontier, que era de poco más de un exaFlop.
Servicio administrado o implementación en K8
Según Google, A3 es la primera implementación a nivel de producción de su interfaz de datos GPU a GPU, que el proveedor llama unidad de procesamiento de infraestructura (IPU). Permite compartir datos a 200 GB/s directamente entre GPU sin tener que pasar por la CPU. Este resultado es un aumento diez veces mayor en el ancho de banda de red disponible para las máquinas virtuales A3 en comparación con las máquinas virtuales A2 de la generación anterior. Las cargas de trabajo A3 se ejecutarán en la estructura de red especializada del centro de datos Júpiter de Google, que según la compañía "se escala a través de decenas de miles de GPU altamente interconectadas y permite enlaces ópticos reconfigurables de ancho de banda completo que pueden ajustar la topología según demanda.
Para comercializar su plataforma A3, Google ofrece dos opciones: los clientes pueden ejecutarla ellos mismos o como un servicio administrado donde el proveedor se encarga de la mayor parte del trabajo. Con la primera opción, las máquinas virtuales A3 se ejecutan en Google Kubernetes Engine (GKE) y Google Compute Engine (GCE). Con el servicio administrado, las máquinas virtuales se ejecutan en Vertex, la plataforma administrada de aprendizaje automático de la empresa. Las máquinas virtuales A3 están disponibles en acceso temprano, que requiere completar una solicitud para unirse al programa de prueba.
Otras noticias que te pueden interesar