Hace veinte años, Nvidia tomó la decisión estratégica de ampliar su enfoque de las pantallas 2D/3D a la computación de alto rendimiento (HPC). Las matemáticas son una parte importante de la HPC y la GPU es, por diseño, un coprocesador matemático masivo con miles de núcleos funcionando en paralelo. La medida dio sus frutos: en su trimestre más reciente, Nvidia registró ingresos récord por centro de datos de 14.500 millones de dólares, un 41% más que en el trimestre anterior y un 279% más que en el trimestre del año anterior. Incluso más que en los juegos, las GPU de Nvidia son ahora el estándar para el procesamiento de IA. Por supuesto, hay muchas empresas que compiten por el trono de Nvidia, no solo competidores obvios como AMD e Intel. También incluyen empresas emergentes como Samba Nova, Cerebro, Núcleo gráfico, Crecery otros, todos ellos afirmando poder ofrecer mejores soluciones para manejar modelos de lenguaje grandes (LLM) y otras tareas de IA (aprendizaje automático e inferencia). Intel también está buscando una alternativa a la GPU con su procesador Gaudi3 (además de su gama de GPU Max para centros de datos). Todos estos proveedores buscan aprovechar una enorme oportunidad: Precedence Research ha estimado el mercado de hardware de IA en 43 mil millones de dólares en 2022, ¡y 240 mil millones de dólares en 2030!
Limitaciones de la tecnología GPU
“La CPU no es ideal para el procesamiento dedicado como la IA porque asume muchas tareas de propósito general que no necesariamente necesita hacer, como alimentar el sistema”, dijo Glenn O'Donnell, vicepresidente sénior y analista de Forrester Research. “La CPU consume energía y utiliza circuitos que realmente no son necesarios. Entonces, ¿por qué no tener un chip que esté optimizado para un propósito específico?”, preguntó. “El procesador TensorFlow de Google [lancé en 2015] “Probablemente, el ejemplo más obvio es el de la GPU. Está optimizado para este algoritmo de flujo tensorial y el procesamiento que entra en el análisis de flujo tensorial. No es un compromiso. Está diseñado para eso”, agregó O'Donnell. “La GPU tiene el mismo problema: fue diseñada en los años 90 para la aceleración de juegos en 3D y, al igual que la CPU, también podría ser más eficiente”, señaló Daniel Newman, analista principal de Futurum Research. “En la construcción general, la arquitectura todavía se basa en una especie de modelo de núcleo, lo que significa que haces una cosa a la vez y necesitas un chip host para orquestar todos los modelos, u otras partes de los modelos, que necesitan ser computados”. Por lo tanto, hay mucha intercomunicación entre los chips, que están desmontando el modelo en piezas para alimentar a cada una de las GPU, que lo están reensamblando para construir los modelos base”, explicó.
Elmer Morales, fundador, CEO y jefe de ingeniería de Ainstein.com, una plataforma que permite a las personas y las empresas construir sus propios asistentes autónomos, dijo que en los primeros días de la IA y la HPC, la industria dependía de las GPU porque estaban fácilmente disponibles y ofrecían "una solución plug-and-play". Ahora, las alternativas de GPU prometen una mejor opción. "Claramente, la GPU hace un buen trabajo de entrenamiento de modelos muy diferentes, y se puede aprender a implementarlos muy rápidamente", dijo Rodrigo Liang, cofundador y CEO de SambaNova Systems. "Pero cuando se llega a modelos de lenguaje grandes, se empiezan a ver las limitaciones. Cuando se llega al tamaño de GPT, hay que utilizar miles de chips, y se vuelve difícil ejecutarlos de manera eficiente", agregó. James Wang, director sénior de marketing de productos en Cerebras Systems, está de acuerdo y dice que el chip GPU es simplemente demasiado pequeño. El chip Wafer-Scale Engine-2 (WSE-2) creado por Cerebras Systems tiene el tamaño de la portada de un álbum. Mientras que la GPU Hopper tiene unos pocos miles de núcleos, la WSE-2 tiene 850.000, y la compañía afirma tener un ancho de banda de memoria 9.800 veces superior al de la GPU. “La cantidad de memoria determina la escala del modelo que se puede entrenar”, explicó Wang. “El tamaño de la GPU y la memoria que la acompaña establecen el límite. Si se quiere ir más allá, el problema se vuelve mucho más difícil. Y hay que compensar todas las debilidades de la GPU con programación”. Morales también dijo que la GPU es simplemente demasiado pequeña para modelos masivos, y que el modelo debe distribuirse entre miles de GPU para ser procesado. “Dejando de lado la latencia, es demasiado pequeña si el modelo no escala”. Ochenta gigabytes, la cantidad de memoria en una GPU Nvidia H100, “no es suficiente para un modelo grande”, dijo. Por otro lado, un chip físicamente más grande, con más núcleos y más memoria, permite procesar más de un modelo de lenguaje grande por chip, lo que significa que se necesitan menos chips para hacer el trabajo. Esto se traduce en un menor consumo de energía, y el consumo de energía es una preocupación importante para las cargas de trabajo de IA con uso intensivo de la CPU.
Hardware y software agrupados en torno a un ecosistema
Incluso con el foco puesto en sus aceleradores, las startups como Cerebras y SambaNova son más que simples diseñadores de chips; son desarrolladores de sistemas completos. Proporcionan el hardware del servidor y una pila de software para ejecutar aplicaciones. Pero lo mismo es cierto para Intel, AMD y Nvidia. Los tres son conocidos por su silicio, pero están haciendo grandes esfuerzos masivos en software y compiladores en torno a la IA. Los ecosistemas de software han servido para dos propósitos: primero, dar soporte al hardware, y segundo, encerrar a los clientes en sus respectivas plataformas. "Una GPU o incluso una CPU por sí sola es bastante inútil", dijo O'Donnell. "Una de las razones por las que Nvidia se ha convertido en el gigante en este espacio es por el foso que ha construido alrededor de su plataforma de desarrollo Cuda. Por lo tanto, reemplazar el hardware de GPU de Nvidia con hardware de Intel no es tan fácil debido al ecosistema de software". Wang dijo que la industria de la IA en su conjunto, desde Nvidia hasta Cerebras, ahora está adoptando el software de código abierto, lo que evita el bloqueo de proveedores o plataformas (como hizo Nvidia con Cuda) porque el software es multiplataforma. Eso significa que los clientes pueden elegir el hardware y no se ven obligados a elegir una plataforma en función del software que está disponible. "El paso al código abierto es un fenómeno muy reciente", dijo Wang. "Ha sido muy útil para la industria, porque en última instancia, una persona ha pagado por el software, pero todos los demás se benefician. Queremos que las empresas emergentes y nuestros clientes tengan opciones, que puedan usar múltiples proveedores, mezclar y combinar y reprogramar las cosas como mejor les parezca para evitar el bloqueo de la red", dijo Morales de Ainstein. Ainstein utiliza los sistemas Grok de xAI respaldados por Elon Musk, pero sus agentes de IA se ejecutan en todas las plataformas.
Un diseño que promueve la programabilidad
O'Donnell cree que el procesamiento de la IA del futuro dependerá de chips programables personalizados, "FPGAs con esteroides", dijo. "Se puede reprogramar un FPGA para hacer cosas diferentes. Y lo hará bastante bien. Veremos un verdadero avance en esa área, probablemente en la segunda mitad de esta década", agregó. Morales estuvo de acuerdo y dijo que los proveedores de hardware no pueden limitarse a un tipo de diseño. "Los fabricantes de hardware tendrán que idear chips programables similares que se puedan reutilizar para ejecutar diferentes diseños", dijo. "Las empresas tendrán la opción de usar un dispositivo para cualquier cosa, con cualquier diseño. Ahí es donde creo que irá la industria". O'Donnell no cree que la mayoría de estas nuevas empresas tengan muchas posibilidades de dominar el mercado, especialmente contra gigantes como Nvidia e Intel. Pero dice que "algunas encontrarán su nicho y les irá bien. Tal vez una explote. Pero algunas podrían ser adquiridas para recuperar parte de su propiedad intelectual", dijo.
A modo de recordatorio, dedicamos un dossier a este tema relacionado en julio de 2022: Los aceleradores están impulsando los centros de datos.
Otras noticias que te pueden interesar