Para ayudarlo a crear y optimizar sus modelos de IA, IBM ha construido una supercomputadora llamada Vela. Diseñado por su división de investigación y operación de IA desde mayo de 2022, este último ya es utilizado en producción por docenas de investigadores de IBM para causar modelos IA con varias decenas de millones de parámetros. Más recientementeEl proveedor ha proporcionado detalles sobre su operación y ambiciones en el campo. Con él, Big Blue quiere facilitar el trabajo de sus equipos de investigación (Ingenieros, DataScient ...) para comprender mejor el rendimiento y el comportamiento de sus modelos fundamentales y cambiar la forma en que se puede utilizar AI y el aprendizaje automático. "Realmente pensamos que este concepto tecnológico en torno a los modelos básicos tiene un enorme potencial de diferenciación", explicado A nuestro colega de Venture venció a Talia Gershon, directora de investigación sobre infraestructura de nubes híbridas en IBM.
Los modelos de "base" llamados SO son modelos de IA que se han formado en un gran conjunto de datos sin estupar. Su naturaleza genérica significa que pueden usarse para una variedad de tareas diferentes con un mínimo de configuración, pero son voluminosas y requieren una potencia de cálculo significativa y costosa. "Nos preguntamos: ¿cómo podemos proporcionar un rendimiento de metal desnudo dentro de una máquina virtual?" Después de una cantidad significativa de investigación y descubrimientos, hemos diseñado un medio para exponer todas las capacidades de un nodo (GPU, CPU, red y almacenamiento) en una máquina virtual para que la sobrecarga de virtualización sea inferior al 5 %, que es la más baja El nivel alcanzado en la industria que conocemos ”, dijo IBM.
Un sistema de planificación de cargas de trabajo caseras
La supercomputadora IBM difiere de otros sistemas HPC más tradicionales. Comenzando con su famosa cumbre de primos diseñados para el Laboratorio Nacional de Oak Ridge en Tennessee. Cada nodo Vela tiene dos procesadores Intel Xeon Cascade Lake, 1.5 TB de DRAM y cuatro lectores NVME de 3.2 TB. Cada nodo de este centro de datos, compuesto por 60 bastidores, se basa en 8 aceleradores GPU Nvidia A100 cada uno abordando 80 GB de memoria de tira grande (HMB). Los nodos están conectados entre sí a través de la tecnología NVLINK GPU, así como NVSwitch para conectar varios enlaces NVLink.
La batería de software, que sustenta la formación del modelo Foundation, utiliza una tecnología de código abierto Kyrielle que incluye Kubernetes, Pytorch (ML Training) y Ray (evolución de las cargas de trabajo). IBM también ha desarrollado un sistema específico de planificación de carga de trabajo, MCAD (distribuidor de aplicaciones multicluster), para administrar el orden de tareas nativas de la nube para la capacitación de IA del modelo básico. Vela se beneficia de la integración nativa en el entorno VPC de IBM Cloud cuyas cargas de trabajo IA se basarán en una batería de 200 servicios asociados.
"Tener herramientas e infraestructura apropiadas es un ingrediente esencial para la productividad de I + D", dijo IBM Engineers. “Muchos equipos eligen seguir la ruta probada a la construcción de supercomputadoras tradicionales para AI [...] Hemos trabajado en una mejor solución que ofrece la doble ventaja del cálculo de alto rendimiento y la productividad de los usuarios de alto gas ”.
Otras noticias que te pueden interesar