A medida que los agentes de IA se han establecido en todo, desde la atención al cliente hasta la resolución de problemas de codificación, se ha vuelto cada vez más importante determinar cuáles son los mejores para una aplicación determinada, pero también los criterios (no solo funcionales) a tener en cuenta. Aquí es donde entra en juego el benchmarking. En los últimos meses, los benchmarks LLM se han multiplicado, como el verano pasado, con La start-up Arthur, que lanzó Bench para evaluar modelos de IA de código abiertomás recientemente Salesforce evaluará los LLM orientados a CRMy también antrópico puntos de referencia financieros para medir eficazmente las capacidades avanzadas de los modelos de IA.

Un trabajo reciente realizado por investigadores de la Universidad de Princeton (Agentes de IA que importan), centrado específicamente en los agentes de IA (que cada vez dependen más de los LLM), destaca que los procesos actuales para evaluar y comparar los agentes tienen una serie de deficiencias que dificultan su utilidad en aplicaciones del mundo real. Los autores del informe señalan que estas deficiencias fomentan el desarrollo de agentes que funcionan bien en las pruebas comparativas pero no en la práctica, y proponen formas de abordarlas. "La estrella del norte de este campo es construir asistentes como Siri o Alexa y hacer que realmente funcionen, manejando tareas complejas, interpretando con precisión las solicitudes de los usuarios y logrando un rendimiento confiable", dice una entrada de blog "Pero esto está lejos de la realidad y la dirección de la investigación en sí es relativamente nueva", afirma el artículo, que dificulta distinguir los avances reales de las exageraciones. Además, los agentes son lo suficientemente diferentes de los modelos lingüísticos como para que sea necesario repensar las prácticas de evaluación comparativa.

Índice
  1. El comportamiento de un agente de IA cada vez más complejo
  2. Cómo salir del dilema entre costo y precisión
  3. Reducir la dependencia de LLM monolíticos

El comportamiento de un agente de IA cada vez más complejo

Un agente de IA percibe y actúa sobre su entorno, pero en la era de los grandes modelos de lenguaje (LLM), su comportamiento se vuelve cada vez más complejo. Según los investigadores, tres categorías de propiedades caracterizan a un sistema de IA orientado a agentes. En primer lugar, sus entornos y objetivos (en una situación más compleja, más sistemas de IA están orientados a agentes y muchos de ellos persiguen objetivos complejos sin instrucciones). Luego, en términos de interfaz de usuario y supervisión (los sistemas de IA que actúan de forma autónoma o aceptan entradas de lenguaje natural están más orientados a agentes, especialmente aquellos que requieren menos del usuario). Finalmente, en términos de diseño, algunos sistemas que utilizan herramientas como la búsqueda web, la planificación (como dividir los objetivos en subobjetivos) o cuyo control de flujo está impulsado por un LLM, también están más orientados a agentes.

El estudio llegó a cinco conclusiones principales, todas ellas respaldadas por estudios de casos. En primer lugar, los parámetros de referencia de los agentes de IA deben controlarse en función de los costos: dado que las llamadas repetidas a los modelos subyacentes (que cuestan más cada vez) pueden aumentar la precisión, los investigadores se ven tentados a diseñar agentes extremadamente costosos para obtener los mejores resultados. Pero el artículo describe tres agentes de referencia simples que los autores desarrollaron y que superan a muchas arquitecturas complejas a un costo mucho menor. En segundo lugar, la optimización conjunta de la precisión y el costo puede conducir a un mejor diseño del agente: dos factores determinan el costo total de ejecutar un agente: los costos únicos de optimizar el agente para una tarea y los costos variables en los que se incurre cada vez que se ejecuta. Los autores muestran que al gastar más dinero en la optimización inicial, es posible reducir los costos variables manteniendo la precisión.

Cómo salir del dilema entre costo y precisión

El analista Bill Wong, investigador de IA en Info-Tech Research Group, coincide: “El enfoque en la precisión es una característica natural a la que hay que prestar atención cuando se comparan los modelos de referencia”, afirmó. “Es razonable sugerir que incluir la optimización de costos proporciona una imagen más completa del rendimiento de un modelo, de la misma manera que los puntos de referencia de bases de datos basados ​​en TPC han intentado proporcionar una medida de rendimiento ponderada con los recursos o los costos involucrados en proporcionar una medida de rendimiento determinada”. Los investigadores y desarrolladores de modelos tienen diferentes necesidades de evaluación comparativa y, por lo general, no consideran el costo al realizar sus evaluaciones, mientras que para otros desarrolladores posteriores, el costo es un factor clave. “Existen varios obstáculos para evaluar el costo”, señala el documento. "Los distintos proveedores pueden cobrar cantidades distintas por el mismo modelo, el coste de una llamada a la API puede cambiar de la noche a la mañana y variar en función de las decisiones del desarrollador del modelo, como por ejemplo si las llamadas a la API en masa tienen un precio diferente. Los autores sugieren personalizar los resultados de las pruebas comparativas mediante el uso de mecanismos para ajustar el coste de ejecución de los modelos. Por ejemplo, ofreciendo a los usuarios la opción de determinar el coste de los tokens de entrada y salida para el proveedor elegido y ayudándolos a reevaluar el equilibrio entre coste y precisión. Para las evaluaciones posteriores del agente de IA, también vale la pena considerar prestar atención a la cantidad de tokens de entrada y salida y recalcular los costes a lo largo del tiempo para decidir si el agente de IA sigue siendo una buena opción.

Los criterios de evaluación de agentes pueden ahorrar tiempo, pero sólo son útiles si reflejan la precisión del mundo real, señala el informe. Si se ajusta un modelo tan estrictamente a sus datos de entrenamiento que no puede hacer predicciones o inferencias precisas a partir de otros datos que no sean los de entrenamiento, se obtienen puntos de referencia cuya precisión no se traslada al mundo real. “Este es un problema mucho más grave que la contaminación de los datos de entrenamiento de LLM, porque el conocimiento de las muestras de prueba se puede programar directamente en el agente en lugar de simplemente exponerse a esas muestras durante el entrenamiento”, afirma el informe. Las evaluaciones de agentes carecen de estandarización y reproducibilidad, y sin evaluaciones de agentes reproducibles, es difícil saber si ha habido mejoras reales. Esto puede ser engañoso para los desarrolladores posteriores a la hora de seleccionar agentes para sus aplicaciones.

Reducir la dependencia de LLM monolíticos

Sin embargo, como señalaron Sayash Kapoor y Arvind Narayanan en su blog, son cautamente optimistas respecto de que la reproducibilidad de la investigación en IA mejorará a medida que el código y los datos utilizados para desarrollar artículos publicados se compartan cada vez más. “Otra razón es que las investigaciones demasiado optimistas se enfrentan rápidamente a pruebas de realidad cuando los productos basados ​​en evaluaciones engañosas finalmente fracasan”, agregaron los investigadores.

A pesar de la falta de estándares, Bill Wong de Info-Tech dijo que las empresas aún buscan utilizar agentes en sus aplicaciones. “Reconozco que no existen estándares para medir el rendimiento de las aplicaciones de IA basadas en agentes”, señaló. “A pesar de esto, las empresas dicen que hay beneficios en la búsqueda de arquitecturas basadas en agentes para lograr una mayor precisión y reducir los costos y la dependencia de LLM monolíticos. Es probable que la falta de estándares y el enfoque en las evaluaciones basadas en costos continúen, dijo, ya que muchas empresas ven el valor que pueden aportar las soluciones GenAI. Sin embargo, el costo es solo uno de los muchos factores a considerar. Las empresas con las que ha trabajado ven factores como las habilidades requeridas, la facilidad de implementación y mantenimiento y la escalabilidad como más importantes que el costo al evaluar soluciones. Agregó: “Estamos comenzando a ver cada vez más empresas en una variedad de industrias donde la sostenibilidad se ha convertido en un factor crítico para los casos de uso de IA que están persiguiendo”. La tecnología de agentes de IA es, por lo tanto, el camino del futuro, ya que utiliza modelos más pequeños, lo que reduce el consumo de energía al tiempo que preserva o incluso mejora el rendimiento del modelo”.