Cada vez más empresas trabajan en aplicaciones basadas en IA basadas en diferentes modelos. Para evitar alucinaciones y obtener respuestas más relevantes, suelen utilizar a RAG (Recuperación Generación Aumentada), una técnica que se basa en fuentes externas de conocimientoA menudo compite con el ajuste fino y la ingeniería rápida para mitigar las alucinaciones. Pero RAG "se ha convertido en un enfoque fundamental para reducir las alucinaciones en los LLM y generar resultados comerciales a partir de la IA generativa", señala Charlie Dai, analista principal de Forrester. Aun así, las empresas están buscando herramientas para evaluar su iniciativa RAG, de ahí el interés en el reciente anuncio de AWS.

Índice
  1. Un método automatizado de evaluación RAG
  2. Un enfoque prometedor
  3. Optimización de recursos y costes

Un método automatizado de evaluación RAG

El artículo, titulado “Evaluación automatizada de modelos de lenguaje aumentados por recuperación con generación de exámenes específicos de tareas”, se presentará en la conferencia ICML 2024 en julio. Propone un proceso de generación de exámenes automatizado, mejorado por la teoría de respuesta a ítems (IRT), para evaluar la precisión fáctica de los modelos RAG en tareas específicas. Esta teoría, también conocida como teoría de respuesta latente, se utiliza comúnmente en psicometría para determinar la relación entre características observables y no observables, como resultados o respuestas, utilizando una familia de modelos matemáticos. RAG se evalúa mediante la puntuación en un examen sintético autogenerado que consta de preguntas de opción múltiple basadas en el corpus de documentos asociados con una tarea en particular, según los investigadores de AWS.

"Nos basamos en la teoría de respuesta a preguntas para estimar la calidad de una prueba y su valor informativo sobre la precisión de una tarea específica. La IRT también proporciona una forma natural de mejorar iterativamente la prueba al eliminar preguntas de la prueba que no brindan suficiente información sobre la capacidad de un modelo", dijeron los investigadores. "El proceso de evaluación de RAG se probó en cuatro tareas de respuesta a preguntas abiertas basadas en resúmenes de Arxiv, preguntas de StackExchange, guías de resolución de problemas y más". AWS “DevOps y documentos de la Comisión de Bolsa y Valores (SEC)”, explicaron, y agregaron que los experimentos revelaron conocimientos más generales sobre los factores que afectan el rendimiento de RAG, como el tamaño, el mecanismo de búsqueda, las indicaciones y el ajuste fino.

Un enfoque prometedor

Según Joe Regensburger, experto en inteligencia artificial de la firma de seguridad de datos Immuta, el enfoque descrito en el documento de AWS tiene varios puntos prometedores, incluido el potencial de abordar el desafío de los pipelines especializados que requieren pruebas especializadas. “Este es un punto clave, porque la mayoría de los pipelines se basarán en LLM comerciales o de código abierto que están listos para usar. Estos modelos no habrán sido entrenados en conocimientos específicos del dominio, por lo que los conjuntos de pruebas convencionales no ayudarán”, explicó. Sin embargo, advierte que, si bien el enfoque es prometedor, aún deberá evolucionar en el área de generación de pruebas, porque el mayor desafío no es generar una pregunta o la respuesta correcta, sino generar preguntas que distraigan lo suficientemente desafiantes. “Los procesos automatizados generalmente tienen dificultades para competir con las preguntas generadas por humanos, especialmente cuando se trata de preguntas que distraen”. Como tal, es el proceso de generar distractores el que podría beneficiarse de una discusión más detallada”, dijo Regensburger, comparando las preguntas generadas automáticamente con las creadas por humanos en los exámenes de Colocación Avanzada (AP).

Las preguntas de los exámenes AP son formuladas por expertos en la materia que continúan consultando, revisando e iterando mientras se preparan para el examen, dijo el experto. Es importante señalar que ya existen pruebas basadas en exámenes para los LLM. "Parte de la documentación de ChatGPT mide el rendimiento del modelo frente a una batería de pruebas estandarizadas", recordó Regensburger, y agregó que el documento de AWS extiende la premisa de OpenAI al sugerir que se podría generar un examen frente a bases de conocimiento especializadas, a menudo propietarias. "En teoría, esto nos permitiría ver cómo una canalización de RAG podría generalizarse a un conocimiento nuevo y especializado". Mientras tanto, Bradley Shimmin, analista jefe de Omdia, señaló que varios proveedores, incluidos AWS, Microsoft, IBM y Salesforce, ya ofrecen herramientas o marcos centrados en optimizar y mejorar las implementaciones de RAG, que van desde herramientas de automatización básicas como LlamaIndex hasta herramientas avanzadas como GraphRAG, lanzado recientemente por Microsoft.

Optimización de recursos y costes

La elección de los algoritmos de búsqueda adecuados suele generar mayores ganancias de rendimiento que el simple uso de un LLM más grande, que puede resultar costoso, señalan los investigadores de AWS en el artículo. “Si bien los avances recientes en el 'almacenamiento en caché de contexto', como Gemini Flash de Google, evitan que las empresas tengan que desarrollar procesos complejos y delicados de tokenización, fragmentación y recuperación como parte del proceso RAG, este enfoque puede suponer un alto costo en recursos informáticos de inferencia para evitar la latencia”, advirtió el consultor de Omdia.

“Técnicas como la Teoría de Respuesta a Ítems de AWS prometen ayudar a resolver uno de los aspectos más complicados de RAG, que es medir la efectividad de la información recuperada antes de enviarla al modelo”, continuó el analista, y agregó que con tales optimizaciones a mano, las empresas pueden optimizar mejor su sobrecarga de inferencia al enviar la mejor información a un modelo en lugar de enviarla toda a la vez.