Una ultima papel blanco de Google explica que el uso de interruptores de circuitos ópticos integrados en su último superordenador de entrenamiento de IA TPU v4 da como resultado un rendimiento mucho mejor y una mayor eficiencia energética que la competencia. Las unidades de procesamiento tensorial del proveedor, los componentes centrales de sus supercomputadoras de IA, son esencialmente ASIC, lo que significa que, a diferencia de las CPU y GPU de uso general utilizadas en muchos sistemas de aprendizaje de IA, su funcionalidad está integrada a nivel de hardware. En su documento, la firma de Mountain View explica cómo, interconectando más de 4.000 TPU mediante conmutación de circuitos ópticos, consiguió alcanzar velocidades 10 veces superiores a las de modelos anteriores consumiendo menos de la mitad de energía.
Hacia una IA más eficiente y barata
La clave, según el documento técnico, es la capacidad de la conmutación de circuitos ópticos (realizada aquí por conmutadores diseñados por Google) para cambiar dinámicamente la topología de interconexión del sistema. En comparación con un sistema como Infiniband, habitualmente utilizado en otros campos de la supercomputación, el editor afirma que su sistema es más barato, más rápido y considerablemente más eficiente desde el punto de vista energético. "Dos características arquitectónicas principales de TPU v4 tienen un bajo costo pero beneficios significativos", afirma el trabajo. “Los procesadores de flujo de datos SparseCore aceleran la integración de modelos de aprendizaje profundo entre 5 y 7 veces al proporcionar una arquitectura de flujo de datos de mar de núcleos que permite que las integraciones se coloquen en cualquier lugar de los 128 Tebibytes (TiB) - 128 x 240 bytes - de memoria física de la supercomputadora. TPU v4”, especifica el documento.
Según Peter Rutten, vicepresidente de investigación de IDC, las ganancias de eficiencia descritas en el artículo de Google son en gran medida el resultado de las características inherentes del hardware utilizado: los ASIC bien diseñados son casi por definición más adecuados para su tarea específica que los de propósito general. procesadores que intentan hacer lo mismo. "Los ASIC son muy eficientes y energéticamente eficientes", dijo. "Si los conectas a conmutadores de circuitos ópticos donde puedes configurar dinámicamente la topología de la red, obtienes un sistema muy rápido", añadió. Aunque, por ahora, el sistema descrito en el documento técnico está destinado únicamente al uso interno de Google, Rutten señala que las lecciones aprendidas de la tecnología en cuestión podrían aplicarse ampliamente al entrenamiento de la IA para el aprendizaje automático. "Hay implicaciones en el sentido de que Google tiene una especie de escenario de mejores prácticas", dijo Rutten. "Es una alternativa a las GPU, por lo que en ese sentido es un trabajo interesante".
La comparación con Nvidia, poco clara
Google también comparó el rendimiento de TPU v4 con sistemas basados en las GPU A100 de Nvidia, componentes comúnmente utilizados en sistemas HPC. Pero Rutten señala que desde entonces este último ha lanzado al mercado procesadores H100 mucho más rápidos, lo que podría reducir la diferencia de rendimiento entre los sistemas. "Google compara su TPU con una GPU de generación anterior", dijo. "Pero en última instancia, realmente no importa, porque este proceso es interno de Google para desarrollar modelos de IA y funciona para ellos".
Otras noticias que te pueden interesar