En la carrera por el almacenamiento en servidores HPC, una solución destaca sobre las demás: los sistemas de archivos paralelos y distribuidos. En este mercado, pocos han logrado realmente abrirse paso: en el informe de la firma de investigación Coldago (High Performance File Storage)) Ocho proveedores se encuentran entre los líderes, a saber, DDN, Dell, Huawei, IBM, Pure Storage, Qumulo, VAST Data y Weka, por delante de los rivales Quantum, HPE, Panasas y ThinkParq. En este segmento, solo un punto marca la diferencia: el rendimiento. Y en este pequeño juego, Weka anotó un buen tanto con el lanzamiento de su plataforma WekaPod, diseñada a medida para los sistemas DGX de Nvidia. Integrado con el administrador Base Command de Nvidia para la observabilidad y la monitorización, cada dispositivo WekaPod consta de nodos de almacenamiento de 1U preconfigurados con WekaFS (Vea nuestro tema anterior sobre arquitectura.) para una implementación más rápida y simplificada. Una configuración de WekaPod de 1 PB comienza con ocho nodos de almacenamiento y puede escalar a varios cientos (en lotes de cuatro) con enlaces Nvidia InfiniBand ConnectX-7 (400 GBps). Weka especifica que cuando se combina con un servidor DGX, una matriz WekaPod es capaz de ingerir 90 GB de datos por segundo y registrar sus resultados a una velocidad de 23 GB/s. Una única configuración de WekaPod Data Platform Appliance puede entregar hasta 18,3 millones de IOPS a un sistema DGX SuperPOD (un clúster de 8 servidores DGX), con 20 Gbps de ancho de banda de lectura secuencial y 186 Gbps de ancho de banda de escritura desde ocho nodos. Esto representa 90 GB/s/nodo para lectura y 23,3 GB/s/nodo para escritura.

Los WekaPods están diseñados para ofrecer un gran rendimiento y han sido certificados para los servidores DGX de Nvidia. (Crédito: Weka)

Respaldar todas las cargas de trabajo sin necesidad de realizar ajustes y ofrecer el mejor rendimiento para metadatos con millones de archivos en varios clústeres es un buen resumen de la ambición de Weka. “Una de las cosas por las que somos realmente conocidos es que no nos importa qué tipo de E/S ingresa al sistema. No se trata solo de transmisión, sino de lecturas y escrituras completamente aleatorias... Logramos esto porque estamos altamente paralelizados en todo el clúster”, nos dijo Joel Kaufman, gerente sénior de marketing técnico de Weka, durante una gira de prensa de TI en California a principios de marzo.

Índice
  1. 3.040 patentes para proteger su solución
  2. Rendimiento por encima del resto

3.040 patentes para proteger su solución

“Una de las características clave es que no solo podemos realizar operaciones de E/S paralelas en los datos en sí, sino también en los metadatos. Creamos conjuntos de servidores virtuales, básicamente para administrar los metadatos de una parte del sistema de archivos. Y como todo se hace en paralelo, obtenemos operaciones de meditación extremadamente rápidas, tiempos de respuesta extremadamente rápidos y baja latencia en todo el sistema”, continuó Kaufman. Weka ha agregado 3.040 patentes adicionales para proteger “su ingrediente secreto”. El segundo punto que destaca Weka es que la infraestructura es un producto básico siempre que cumpla con la especificación: un conjunto de SSD NVMe conectados en una red, en las instalaciones o en la nube. Y como la solución es el almacenamiento definido por software, la adopción de nuevos equipos es muy rápida, lo que permitió a Weka certificar el hardware muy rápidamente después de la escasez que siguió a la pandemia.

Rendimiento por encima del resto

Una última palabra sobre el rendimiento: en la GTC de Nvidia (del 17 al 21 de marzo), Weka presentó una serie de pruebas comparativas de SPECStorage Solution 2020 que comparan la velocidad de los sistemas de archivos en proporción a las características del hardware en las que se ejecutan. “En SpecStorage 2020, hicimos dos series de pruebas”, nos dijo Kaufman. La primera fue una imagen de inteligencia artificial específica para cargas de trabajo de inteligencia artificial. “Usamos un entorno de Azure para demostrar la eficiencia absoluta que podemos obtener. Otro actor de la nube, Accumulo, ha obtenido resultados en esta área. Salimos primeros, y no solo en rendimiento bruto, donde somos un 175 % más rápidos. Pero resulta que solo tuvimos el 64 % de los costos de infraestructura que Accumulo tuvo que asumir”. Nuestra latencia fue mucho menor que cuando se toma la cantidad de tareas simultáneas por la latencia, resulta que podemos hacer el doble de tareas de las que necesitamos”. (ver a continuación).

Weka adoptó entonces un enfoque ligeramente diferente, intentando construir un sistema que fuera absolutamente eficiente. “En AWS, configuramos un entorno muy grande sin cambiar ninguna configuración con la imagen de IA combinada con EDA” (ver a continuación). El clúster de 40 máquinas virtuales con 24 núcleos mostró 1,75 veces el rendimiento del sistema de Qumulo en las mismas condiciones: “Weka entrega 6 veces más cargas (2400) que Qumulo a un costo por trabajo un 76 % menor. E incluso supera a una matriz NetApp AFF A900 NVMe con ocho nodos de controlador: “Con SPEC_eda_blended, Weka puede procesar 10 000 trabajos en el mismo tiempo que NetApp puede procesar 6300”. Los puntos de referencia están hechos para ser superados, pero Weka demuestra aquí su dominio incomparable del almacenamiento paralelo y distribuido para entornos HPC.