El algoritmo de búsqueda híbrido BM42 basado en vectores lanzado el 2 de julio por el proveedor de bases de datos vectoriales de código abierto Qdrant proporciona una búsqueda más precisa y eficiente para aplicaciones de Generación Aumentada de Recuperación (RAG). Según Qdrant, BM42 combina lo mejor de la búsqueda de texto tradicional y la búsqueda vectorial para reducir los costos de las aplicaciones RAG y de IA. “Los motores de búsqueda de palabras clave tradicionales, que utilizan algoritmos como BM25, existen desde hace más de 50 años y no están optimizados para la búsqueda precisa que se necesita en las aplicaciones modernas”, explicó Qdrant. Como resultado, tienen dificultades para satisfacer las demandas específicas de las RAG, especialmente para segmentos cortos que requieren un contexto adicional para permitir una búsqueda y recuperación exitosas.

“Pasar de la búsqueda por palabras clave a una búsqueda completamente vectorizada ofrece un nuevo estándar en la industria”, agregó Qdrant. “Para textos cortos, más comunes en escenarios RAG, BM42 ofrece la eficiencia de los enfoques de búsqueda de texto tradicionales, además del contexto de vectores, que es más flexible, más preciso y más eficiente”, dijo Andrey Vasnetsov, director de tecnología y cofundador de Qdrant. “Esto ayuda a que la búsqueda vectorial sea más universalmente aplicable”, agregó.

A diferencia de la búsqueda tradicional de palabras clave, que está diseñada para contenido extenso, el algoritmo BM42 incorpora vectores dispersos y densos para localizar información relevante en un documento. Según la empresa, un vector disperso se encarga de la coincidencia exacta de términos, mientras que los vectores densos se encargan de la relevancia semántica y el significado profundo.