El consorcio MlCommons, que conocimos en enero pasadoha publicado nuevas versiones de sus puntos de referencia MLPERF, ofreciendo una visión general más precisa del rendimiento de los centros de datos y los equipos bajo cargas de trabajo de IA cada vez más exigentes. La actualización de la versión 5.0 de la inferencia de MLPERF llega mientras los equipos La infraestructura enfrenta una creciente demanda Aplicaciones generativas de IA como chatbots y asistentes de código, que requieren un tratamiento rápido de consultas grandes y complejas. Las pruebas de rendimiento proporcionan medios estandarizados para comparar la velocidad y la capacidad de respuesta de las plataformas de hardware (servidores con CPU y aceleradores) que alimentan estas herramientas. Una de las nuevas pruebas gira en torno al modelo Meta Llama 3.1, que tiene 405 mil millones de parámetros y lo que permite evaluar la capacidad de un sistema para realizar tareas intensivas como cálculos matemáticos, la respuesta a las preguntas y la generación de código. Otra prueba se centra en la inferencia de baja latencia, simulando escenarios de interacción en tiempo real utilizando el modelo LLAMA 2 70B de Meta.
MlCommons A publicado los resultados de la evaluación comparativa de la inferencia MLPERF v5.0 Enviado por 23 proveedores, incluidos AMD, Broadcom, Cisco, CoreWeave, Dell, Fujitsu, Google, Hewlett-Packard Enterprise, Intel, Nvidia, Oracle y Supermicro. Nvidia ya había compartido sus resultados para los puntos de referencia Actualizado, subrayando que su GPU Blackwell fue un avance importante en comparación con la arquitectura de la tolva anterior.La última versión también expande su alcance más allá de los puntos de referencia de chatbot. Una nueva prueba de red neuronal gráfica (RNG) se dirige a datos para centros de datos y está diseñado para cargas de trabajo como detección de fraude, motores de recomendación y gráficos de conocimiento. Utiliza el modelo RGAT basado en un conjunto de datos gráficos que contiene más de 547 millones de nodos y 5.800 millones de aspectos.
Evaluar el rendimiento
Los analistas sugieren que estas pruebas de rendimiento facilitarán la juzgar el rendimiento de varios chips y grupos de equipos informáticos sobre la base de modelos documentados. "Si bien cada proveedor de chips busca demostrar que su equipo es lo suficientemente eficiente como para apoyar la IA, ahora tenemos una prueba de rendimiento estándar que muestra la calidad de la gestión de preguntas, matemáticas y habilidades de codificación asociadas con el equipo", dijo Hyoun Park, CEO y analista jefe de Amalgam Insights. Los proveedores de huir ahora pueden competir no solo por velocidades y flujos tradicionales, sino también por habilidades matemáticas y la precisión de la información. Este punto de referencia ofrece una rara oportunidad de agregar nuevos estándares de rendimiento en el equipo de diferentes proveedores, agregó el Sr. Park.
"Latencia, es decir, la velocidad a la que se entregan los tokens y el tiempo necesario para que el usuario vea la respuesta, es el factor decisivo", dijo Neil Shah, asociado y cofundador de la investigación de contrapunto. "Aquí es donde actores como Nvidia, AMD e Intel deben desarrollar un software adecuado para ayudar a los desarrolladores a optimizar los modelos y obtener el mejor rendimiento de cálculo.» »
Decisiones de evaluación comparativa y compra
Los puntos de referencia independientes, como los de MLCommons, juegan un papel clave al ayudar a los compradores a evaluar el rendimiento de los sistemas, pero solo confiar en que puede no proporcionar una imagen completa. "Estos puntos de referencia aún no hacen posible evaluar en detalle en el mundo real", dijo Park. "Por ejemplo, el punto de referencia de las respuestas a las preguntas puede ayudar a evaluar un aspecto específico del servicio al cliente, pero no reemplaza un análisis de rendimiento del servicio al cliente".
Esto significa que si los nuevos puntos de referencia son un avance significativo, probablemente sean solo uno de los muchos factores que guían las decisiones de compra de equipos comerciales. "Cuando se trata de decisiones de comprar hardware comercial, están influenciados por una multitud de factores, incluido el poder informático", dijo Abhishek Sengpta, director de práctica de Everest Group. "Los fabricantes de equipos de TI que no son los mejores en ciertos criterios de rendimiento pueden ofrecer mejores condiciones comerciales para compensar esto, ofreciendo una mejor relación calidad -precio.» » El rendimiento de un caso de uso de IA depende de una serie de factores vinculados a todas las tecnologías, así como a la contribución humana. Los criterios de referencia estrechos dirigidos a los componentes aislados pueden no permitir el impacto general en los resultados concretos, agregó el Sr. Sengupta.
Otras noticias que te pueden interesar