Inversiones de Microsoft En chatgpt no solo se preocupa por OpenAi. La firma estadounidense también ha gastado mucho dinero en el equipo para sus centros de datos de Azure, prueba de que, por el momento, las soluciones de IA están reservadas para empresas muy grandes. La asociación entre Microsoft y OpenAI se remonta a 2019, cuando Microsoft ha invertido $ 1 mil millones. Recaudó las subastas en enero invirtiendo $ 10 mil millones adicionales. Pero ChatGPT también necesita recursos para operar en particular en Azure. La cantidad no ha sido revelada, pero Según un artículo de BloombergMicrosoft ya ha gastado "varios cientos de millones de dólares" para entrenar al famoso chatbot.
Gran ganadora de Nvidia de la asociación Operai y Microsoft
En dos mensajes publicados en un blog, Microsoft explicó en detalle lo que hizo para construir la infraestructura IA en la que ChatGPT opera como parte del servicio Bing. El proveedor ya ofreció máquinas virtuales virtuales ND A100 V4 para el tratamiento basado en AC ACT basado en GPU A100 de NVIDIA. Ahora ofrece la instancia ND H100 V5 basada en equipos más recientes cuyos tamaños de VM varían de ocho a miles de aceleradores de GPU H100. En su publicación de blog, Matt Vegas, gerente de producto Azur HPC+AI, escribe que, en comparación con las instancias ND A100 V4, el rendimiento de V5 será significativamente más rápido para los modelos de IA.
Las últimas máquinas virtuales son alimentadas por H100 Tensor Core (generación "Hopper") interconectada a través de la última generación de NVSwitch y NVLink 4.0 (con velocidades de 3.6 TBT/s entre 8 GPU locales en cada VM), la red infiniband cuantum -2 CX7 de Nvidia a 400 GB/s, chips escalables Intel Xeon de 4ta generación ("Sapphire Rapids") con interconexiones PCIe Gen5 y memoria DDR5 (con 16 canales de 4800 MHz). Matt Vegas no especificó la cantidad de hardware, pero indicó que Microsoft estaba a disposición de los clientes de Azure, varios exafultos de cálculo intensivo. Hasta donde sabemos, solo hay una supercomputadora de este nivel, de acuerdo con la última lista de las computadoras más rápidas del mundo, a saber, la frontera de los Oak Ridge National Labs. Pero el problema del TOP500 es que todos no informan a sus supercalculadores para que pueda haber otros sistemas tan poderosos como la frontera que no conocemos.
Una infraestructura refinada con el tiempo
En otra publicación de blogMicrosoft explica cómo la compañía comenzó a trabajar con OpenAI para crear las infraestructuras necesarias para el LLM que subyace en ChatGPT. Según Nidhi Chappell, un jefe de computación de alto rendimiento de Azure y cabezas de producto de IA de Microsoft, era necesario vincular miles de GPU de manera diferente, utilizando una solución que incluso Nvidia no había pensado. “No se trata de comprar un grupo de aceleradores de GPU, conectarlos y hacerlos trabajar juntos. Hay mucha optimización a nivel del sistema para obtener el mejor rendimiento, y se necesita la experiencia de varias generaciones de aceleradores de GPU para lograr esto ", dijo el gerente.
Para entrenar una LLM, la carga de trabajo se distribuye entre miles de aceleradores de GPU en un grupo y, en ciertas etapas del proceso, intercambian información sobre el trabajo que han realizado. Una red Infiniband transfiere datos de banda ancha, ya que la etapa de validación debe completarse antes de que las GPU puedan comenzar el siguiente paso de tratamiento. La infraestructura de Azure está optimizada para la capacitación de modelos de idiomas grandes, pero tardó años de mejoras progresivas en la plataforma AI para lograr esto. La combinación de aceleradores de GPU, hardware de red y software de virtualización necesaria para proporcionar Bing Ai es enorme y se distribuye en 60 regiones de Azure en todo el mundo. Las instancias ND H100 V5 están disponibles en la vista previa y se ofrecerán como estándar en la cartera de Azure, pero Microsoft no especificó cuándo.
Otras noticias que te pueden interesar