A pesar de la vistosidad y el carisma de la IA generativa, tal vez las mayores transformaciones de esta nueva era se encuentren en lo más profundo de la pila de software. Fuera de la vista, los algoritmos de IA están cambiando el mundo, base de datos por base de datos. Están revolucionando los sistemas diseñados para rastrear los datos del mundo en infinitas tablas regulares, reemplazándolos con capacidades de IA más nuevas, más complejas, adaptables y aparentemente intuitivas. Se están produciendo actualizaciones en todos los niveles de la pila de almacenamiento de datos. Se están modificando las estructuras de las bases de datos. Los proveedores de sistemas están transformando la forma en que almacenamos información para trabajar mejor con los modelos de IA. El papel del administrador de bases de datos está evolucionando de estático y mecánico a más expansivo. Atrás quedaron los recepcionistas que solo sabían leer, y llegaron los magos que leen la mente.

A continuación se presentan 10 formas en las que las bases de datos están cambiando, adaptándose y mejorando a medida que la IA se vuelve más omnipresente.

Índice
  1. Vectores e integraciones
  2. Plantillas de consulta
  3. Recomendaciones
  4. Paradigmas de indexación
  5. Clasificación de datos
  6. Mejor actuacion
  7. Datos mejor limpios
  8. Detección de fraude
  9. Seguridad mejorada
  10. Fusión de bases de datos e IA generativa

Vectores e integraciones

A los desarrolladores de IA les gusta almacenar información como vectores largos de números. En el pasado, las bases de datos almacenaban estos valores como filas, con cada número en una columna separada. Hoy, algunas bases de datos admiten vectores puros, por lo que no es necesario dividir la información en filas y columnas. En cambio, las bases de datos los almacenan juntos. Algunos vectores que se utilizan para el almacenamiento tienen cientos o incluso miles de dígitos. Estos vectores suelen combinarse con "incrustaciones", un esquema para convertir datos complejos en una simple lista de números. El diseño de incrustaciones sigue siendo un arte y, a menudo, se basa en el conocimiento del dominio subyacente. Cuando las incrustaciones están bien diseñadas, las bases de datos pueden proporcionar un acceso rápido y consultas complejas. Empresas como Pinecone, Vespa, Milvus, Margo y Weaviate están creando nuevas bases de datos que se especializan en almacenar vectores. Otras, como PostgreSQL, están agregando vectores a sus herramientas actuales.

Plantillas de consulta

Añadir vectores a las bases de datos no es sólo una cuestión práctica. Las últimas funciones de consulta no sólo buscan coincidencias exactas, sino que también pueden localizar los valores “más cercanos”, lo que facilita la implementación de sistemas como los motores de recomendación o la detección de anomalías. La incorporación de datos en el espacio vectorial simplifica los complicados problemas de asociación y correspondencia al reducirlos a una simple distancia geométrica. Las bases de datos vectoriales como Pinecone, Vespa, Milvus, Margo y Weaviate ofrecen consultas vectoriales. Algunas herramientas inesperadas como Lucene o Solr también ofrecen coincidencias por similitud que pueden dar resultados similares con grandes bloques de texto no estructurado.

Recomendaciones

Los últimos sistemas de consulta vectorial parecen más “mágicos y misteriosos” que los del pasado. Las consultas antiguas buscaban coincidencias; estas nuevas bases de datos impulsadas por IA a veces parecen leer la mente del usuario. En realidad, utilizan búsquedas de similitud para encontrar datos “cercanos”, que a menudo coinciden con lo que buscan los usuarios. La matemática subyacente puede ser tan simple como encontrar la distancia en un espacio n-dimensional, pero de alguna manera es suficiente para producir resultados inesperados. Estos algoritmos han funcionado durante mucho tiempo por separado como aplicaciones completas, pero lentamente se están integrando en las propias bases de datos, donde pueden manejar consultas mejores y más complejas. Oracle es solo un ejemplo de una base de datos dirigida a este mercado. El proveedor ha ofrecido durante mucho tiempo varias funciones de búsqueda de similitud y coincidencias difusas, y ahora incluso ofrece herramientas directamente para industrias como el comercio minorista en línea.

Paradigmas de indexación

En el pasado, las bases de datos creaban índices simples para acelerar la búsqueda por columnas específicas. Los administradores de bases de datos eran expertos en diseñar consultas elaboradas con uniones y cláusulas de filtro que se ejecutaban más rápido con los índices adecuados. Hoy en día, las bases de datos vectoriales están diseñadas para crear índices que cubran de manera eficiente todos los valores de un vector. Recién estamos comenzando a descubrir todas las aplicaciones para encontrar vectores que están "cerca" entre sí. Pero eso es solo el comienzo. Cuando la IA se entrena en la base de datos, absorbe de manera efectiva toda la información que contiene. Ahora podemos consultar a la IA en lenguaje sencillo y la IA realizará búsquedas complejas y adaptativas.

Clasificación de datos

La IA no se limita a añadir una nueva estructura a la base de datos. A veces se trata de añadir una nueva estructura a los propios datos. Algunos de ellos llegan como un montón de fragmentos desordenados. Pueden ser imágenes sin anotaciones o grandes bloques de texto que alguien escribió hace mucho tiempo. Los algoritmos de IA están empezando a limpiar, filtrar el ruido y poner orden en los conjuntos de datos desordenados. Completan tablas automáticamente. Pueden clasificar el tono emocional de un bloque de texto o adivinar la actitud de un rostro en una fotografía. También se pueden extraer pequeños detalles de las imágenes y los algoritmos también pueden aprender a detectar patrones. Clasifican los datos, extraen los detalles importantes y crean una vista ordenada y tabular de la información. Amazon Web Services ofrece una variedad de servicios de clasificación de datos que conectan herramientas de IA como SageMaker con bases de datos como Aurora.

Mejor actuacion

Las buenas bases de datos se encargan de muchos de los detalles del almacenamiento de datos. En el pasado, los programadores todavía tenían que dedicar tiempo a lidiar con las distintas configuraciones y esquemas que utilizaba la base de datos para que funcionara de manera eficiente. El rol del administrador de la base de datos se creó para manejar estas tareas. Muchas de estas metatareas de alto nivel ahora están automatizadas, a menudo utilizando algoritmos de aprendizaje automático para comprender los patrones de consulta y las estructuras de datos. Pueden observar el tráfico en un servidor y desarrollar un plan para adaptarse a las demandas. Pueden adaptarse en tiempo real y aprender a predecir lo que necesitarán los usuarios. Oracle es uno de los mejores ejemplos de esto. En el pasado, las empresas pagaban grandes salarios a los administradores de bases de datos para que se encargaran de sus bases de datos. Hoy, el proveedor llama a sus bases de datos autónomas porque tienen sofisticados algoritmos de inteligencia artificial que ajustan el rendimiento sobre la marcha.

Datos mejor limpios

Para que una base de datos funcione correctamente no solo es necesario que el software funcione, sino también que los datos estén lo más limpios y libres de errores posible. Las IA simplifican esta carga de trabajo al buscar anomalías, señalándolas y quizás incluso sugiriendo correcciones. Pueden encontrar lugares donde el nombre de un cliente está mal escrito y luego encontrar la ortografía correcta buscando en el resto de los datos. También pueden aprender formatos de datos entrantes e ingerir los datos para producir un corpus único y unificado, donde todos los nombres, fechas y otros detalles se representan de la manera más consistente posible. SQL Server de Microsoft es un ejemplo de una base de datos que está estrechamente integrada con servicios de calidad de datos para limpiar datos con problemas como campos faltantes o fechas duplicadas.

Detección de fraude

La creación de un almacenamiento de datos más seguro es una aplicación particular del aprendizaje automático. Algunos utilizan algoritmos de aprendizaje automático para buscar anomalías en su flujo de datos, ya que pueden ser un buen indicador de fraude. ¿Es esta la primera vez que una persona va a un cajero automático a altas horas de la noche? ¿Ha utilizado alguna vez una tarjeta de crédito en este continente? Los algoritmos de IA pueden detectar las líneas peligrosas y convertir una base de datos en un sistema de detección de fraude. Google Web Services, por ejemplo, ofrece varias opciones para integrar la detección de fraude en su sistema de almacenamiento de datos.

Seguridad mejorada

Algunas empresas aplican estos algoritmos internamente. Las IA no solo intentan optimizar la base de datos en función de los patrones de uso, sino que también buscan casos inusuales que puedan indicar que alguien está accediendo a la base de datos. No todos los días un usuario remoto solicita copias completas de tablas enteras. Una buena IA puede detectar algo sospechoso. Guardium Security de IBM es un ejemplo de una herramienta que se integra en las capas de almacenamiento de datos para controlar el acceso y monitorear anomalías.

Fusión de bases de datos e IA generativa

En el pasado, las IA eran independientes de las bases de datos. Al entrenar el modelo, los datos se extraían de la base de datos, se reformateaban y luego se introducían en la IA. Los nuevos sistemas entrenan el modelo directamente a partir de los datos existentes. Esto ahorra tiempo y esfuerzo para los trabajos más importantes, en los que simplemente mover datos puede llevar días o semanas. También facilita la vida a los equipos de desarrollo al hacer que entrenar un modelo de IA sea tan fácil como emitir un comando. Incluso se habla de reemplazar la base de datos por completo. En lugar de enviar la consulta a una base de datos relacional, la enviarán directamente a una IA que responderá mágicamente las consultas en cualquier formato. Google ofrece Bard y Microsoft destaca ChatGPT. Ambos son candidatos serios para reemplazar al motor de búsqueda. No hay ninguna razón por la que no deban reemplazar también a la base de datos tradicional.

Sin embargo, este enfoque tiene sus inconvenientes. En algunos casos, las IA alucinan y dan respuestas totalmente erróneas. En otros casos, pueden cambiar el formato de sus resultados a su antojo. Pero cuando el dominio es lo suficientemente limitado y el conjunto de entrenamiento es profundo y completo, la IA puede ofrecer resultados satisfactorios. Y lo hace sin tener que definir estructuras tabulares ni obligar al usuario a escribir consultas para encontrar datos dentro de esas estructuras. El almacenamiento y la búsqueda de datos con IA generativa puede ser más flexible para los usuarios y los creadores.