El superordenador Datarmor de Ifremer, creado en 2017 e instalado en el polo tecnológico de Brest-Iroise (en el puerto de Brest), se encuentra en pleno proceso de renovación desde 2022. Este proyecto de 7,5 millones de euros, que permite al instituto de investigación francés dedicado al conocimiento del mar mantener su capacidad informática interna, comenzó con una primera fase de renovación centrada en la IA.

"Queríamos poder extraer conocimientos sin tener que comprender necesariamente la totalidad de un fenómeno o responder a preguntas que no sabemos necesariamente cómo formular con precisión o acelerar el procesamiento combinando varios elementos físicos", explica Benoit Morin, responsable de las infraestructuras HPC del instituto, que llegó al establecimiento público precisamente para modernizar las infraestructuras desplegadas en 2016-2017.

La actualización de Datarmor para aplicaciones de IA, impulsada principalmente por el despliegue de GPU (las soluciones densas de Nvidia con 8 GPU por nodo), también permite lograr lo que el ingeniero ve como uno de los primeros beneficios de esta tecnología: el reconocimiento de imágenes para, por ejemplo, realizar una clasificación automática de especies marinas.

Datos: más fuentes, más profundidad

El cambio de Datarmor hacia aplicaciones basadas en IA también pone de relieve la importancia de la calidad de los datos y la profundidad de los resultados proporcionados por los algoritmos. "Cuanto más rico sea el historial de datos, más ricos serán los resultados", comenta Benoit Morin. "Por ejemplo, en el caso del tiempo, podemos remontarnos cien años atrás". Además, también hay más fuentes de datos y cada una de ellas tiende a generar volúmenes cada vez mayores. "Por ejemplo, con las nuevas generaciones de satélites, el paso de medición se ha reducido a la mitad. Y cada vez tendemos a bajar a resoluciones temporales cada vez más finas", ilustra el ingeniero de Ifremer. Con el resultado de que los volúmenes de datos aumentan constantemente.


La supercomputadora de Ifremer se actualizó en 2022 con nodos de GPU muy densos, con el fin de soportar aplicaciones de IA. (Foto: DR)

Pero más allá de este parámetro único, también están evolucionando los usos. "Cada vez más, los usuarios explotan la infraestructura a su disposición como plataforma de exploración de datos", señala Benoit Morin. Lo que él ve como un impacto de la nube en las mentalidades requiere varias reflexiones en la actualización de Datarmor. En primer lugar, sobre el almacenamiento. "El rendimiento de los discos es muy pobre en acceso aleatorio", señala el ingeniero. Más allá de un volumen total que se espera que aumente de 15 PB en 2020 a 70 PB pronto (acaba de implementarse un primer tramo de 12 PB), la arquitectura se ha dividido en tres niveles: almacenamiento flash, discos tradicionales y almacenamiento en frío en cinta.

El equilibrio adecuado entre rendimiento y precio.

Los grandes bloques de datos se dirigen a las infraestructuras de IBM, mientras que el almacenamiento de los bloques pequeños (para necesidades de aplicaciones, algunos datos de proyectos y cuentas de usuarios) lo proporciona el hardware de NetApp, ofreciendo un tiempo de latencia inferior a 2 ms. El dispositivo de almacenamiento se completa con un robot de backup en cinta Jaguar. Teniendo en cuenta las necesidades de replicación para cubrir posibles errores, Ifremer prevé utilizar más de 3.000 cintas de 50 TB cada una.


Benoit Morin, responsable de infraestructuras HPC de Ifremer: "A menudo compramos tecnologías de un catálogo, incluso antes de que estén disponibles, para ser los primeros en implementarlas". (Foto: DR)

La transformación de Datarmor en una infraestructura de minería de datos (sabiendo que los proyectos que requieren cálculos más intensivos pueden unirse a superordenadores más potentes como Genci (Grand Équipement National de Calcul Intensif) o Jean Zay) también empuja a Benoit Morin a pensar en la ecuación económica más adecuada para la evolución de los usos. "En Ifremer, todos los usuarios tienen acceso a los recursos informáticos en todo momento, y la potencia disponible se reparte entre los solicitantes. Y buscamos mantener esta flexibilidad, lo que supone un auténtico reto con los recursos de GPU, que están muy demandados". Una cuestión que resulta aún más importante porque estos equipos son caros. Por ello, el ingeniero está pensando en equipos más económicos, ofreciendo un 70% por una fracción del precio de los equipos Nvidia (entre el 15 y el 20%). "Necesitamos diferentes niveles de hardware para soportar el desarrollo de usos en torno al desarrollo y la minería de datos", resume Benoit Morin.

Invertir a 7 u 8 años, una apuesta arriesgada

A la hora de actualizar una infraestructura como Datarmor, la cuestión de optimizar y secuenciar las inversiones es central. "Los ciclos de renovación de las infraestructuras se extienden a lo largo de 7 u 8 años y cada vez nos piden más que distribuyamos las inversiones en el tiempo", explica el responsable de infraestructuras HPC de Ifremer. Esto plantea en primer lugar la cuestión de la capacidad de mantenimiento de las infraestructuras. Para Benoit Morin, estas limitaciones exigen aprovechar rápidamente las últimas generaciones de tecnología e integrarlas muy rápidamente para beneficiarse de ellas durante el mayor tiempo posible. "A menudo, compramos tecnologías sobre el papel, incluso antes de que estén disponibles, para ser los primeros en implementarlas", explica el ingeniero. Se trata de una forma de afrontar los ciclos de renovación habituales en el sector (es decir, 3 años de comercialización, a menudo acompañados de tres años de soporte extendido). Por ejemplo, en marzo de 2023, Ifremer fue el primer cliente del mundo de las cabinas de almacenamiento Flash AFF C800 de NetApp (una plataforma que también ofrece un periodo de soporte de 7 años).

Estas limitaciones también han llevado a Benoit Morin a empezar a modernizar Datarmor desde el borde (con nodos de servicio o la red), antes de abordar la actualización de las capacidades de computación reales. En la agenda, una vez que se hayan sentado estas bases, está el despliegue de nuevos nodos de computación (basados ​​en unidades de 128 núcleos, 768 GB de memoria y 4 TB de almacenamiento), así como sistemas GPU de potencia intermedia, menos densos que los ya implementados. Una renovación que se extenderá a lo largo de los próximos tres años y que debería llevar a Datarmor a una potencia de 850 Tflops, el doble del nivel actual. Todo ello manteniendo el mismo consumo energético global, o incluso reduciéndolo ligeramente.

“Para lograrlo, apostamos por un almacenamiento jerárquico con un tercio frío en cinta, por la densificación del número de núcleos por procesador y por el uso de GPU. Aunque las GPU suelen consumir más que los procesadores tradicionales, su rendimiento por vatio es mucho mayor”, observa Benoit Morin. Una preocupación medioambiental muy lógica en un instituto que entiende perfectamente los impactos del cambio climático.