Gracias a la inteligencia integrada en su equipo de red Ethernet Spectrum-X, Nvidia destaca una mejora de casi el 50 % del ancho de banda en el almacenamiento, Según una publicación publicada en el blog del proveedor. Spectrum-X es una combinación del conmutador Ethernet Spectrum-4 y la red Supernic Supernic Bluefield-3 de la Compañía, que admite el protocolo ROCE V2 (RDMA sobre Ethernet convergente) para un acceso directo y rápido al flash de memoria en Ethernet. El conmutador Spectrum-4 SN5000 tiene 64 puertos Ethernet a 800 Gbps para un ancho de banda total de hasta 51.2 tbps. Nvidia declara que ha agregado extensiones de ROCE para ofrecer un control de enrutamiento adaptativo y control de congestión, de modo que los paquetes de datos se envían a través de la red menos congestionada para reducir la congestión o evitar un desglose.
Los paquetes enrutados de manera adaptativa pueden llegar a un destino en un orden desordenado, y la unidad de procesamiento de datos (DPU) Bluefield-3, que conoce el orden correcto de los paquetes, los vuelve a montar correctamente. Si los paquetes llegan a su destino, "con Ethernet tradicional, se deben transmitir muchos paquetes", dijo el blog. Debido a que el enrutamiento adaptativo es capaz de reducir las colisiones de flujo y aumentar la eficiencia del ancho de banda, el rendimiento del sistema de almacenamiento es mucho más alto que el de ROCE V2 estándar, dice Nvidia. "Con Spectrum-X, la unidad de procesamiento de datos o Supernic (DPU) en el host de destino conoce el orden correcto de los paquetes, los coloca en orden en la memoria del host y hace que el enrutamiento sea adaptativo transparente para la aplicación.
Acelerar la red para aumentar el almacenamiento
El almacenamiento es un elemento a menudo descuidado en la IA, eclipsado por el acento de los procesadores y las GPU de los aceleradores. Los modelos de lenguaje grande (LLM) miden varios teraoctets y todo esto debe moverse para ser tratado. Por lo tanto, cuanto más pueda mover los datos rápidamente, mejor, para que las GPU no permanezcan inactivas mientras esperan que los datos se les proporcionen. Nvidia indica que ha probado la funcionalidad del espectro-4 con su supercomputadora IA Israel-1. El proceso de prueba ha medido el ancho de banda en la lectura y la escritura generada por los servidores NVIDIA HGX H100 que acceden al almacenamiento, primero con la red configurada como con el protocolo estándar V2 ROCE V2, luego con la congestión de espectro activado de enrutamiento y control adaptativo, dijo NVIDIA.
Las pruebas se llevaron a cabo utilizando una gama de servidores de GPU como clientes, con 40 a 800 GPU. En cada caso, la red Spectrum-X mejorada ha superado la versión estándar, con un ancho de banda de lectura mejorado del 20 % al 48 % y un ancho de banda de escritura mejorado del 9 % al 41 % en comparación con la red ROCE estándar, según Nvidia. Otro método para mejorar la eficiencia es el punto de control (punto de control), donde el estado del trabajo de tratamiento se registra periódicamente para que, si la ejecución de la capacitación falla por algún motivo, se puede reiniciar al comenzar desde un punto de control registrado en lugar de comenzar nuevamente desde el comienzo. Los proveedores de almacenamiento de DDN, los vastos datos y Weka se combinan con NVIDIA para integrar y optimizar sus soluciones Spectrum-X.
Otras noticias que te pueden interesar