En vivo desde Las Vegas. Participantes de la Cumbre 2023 Copo de nieve están allí para escuchar y discutir los anuncios del especialista en almacenamiento de datos en la nube. Este último había levantado ayer el velo sobre un tema, la IA generativa, firmando acuerdos de asociación con Microsoft y Nvidia. Discusiones que no impiden que el proveedor trabaje en su propio LLM, como se muestra en el primer anuncio del evento. Llamado Document AI, este gran modelo de lenguaje se construye a partir deSolicituduna plataforma de inteligencia artificial para la comprensión de documentos, con sede en Polonia, que la empresa adquirió en agosto de 2022. Al crear su propio LLM, la empresa ofrece más herramientas a los usuarios para que puedan comprender mejor los documentos y darle un buen uso a sus datos no estructurados. Las empresas pueden extraer contenidos como importes de facturas o términos de contratos de documentos y refinar los resultados utilizando una interfaz visual y un lenguaje natural.

Christian Kleinerman, vicepresidente senior responsable de productos de Snowflake, señala durante una demostración, basándose en varios documentos, los diferentes puntos de bloqueo que pueden encontrar los usuarios al analizar los datos. “Así que estos documentos contienen una combinación de campos y texto libre y su análisis será propenso a errores y consumirá mucho tiempo o requerirá experiencia en aprendizaje automático que yo no tengo. Pero con Document AI, puedo hacerlo sin necesidad de tener experiencia en ML”. De forma predeterminada, Document AI utiliza un modelo de “disparo cero”, lo que significa que cualquier usuario puede lograr buenos resultados sin tener que ajustar o entrenar el modelo. Si es necesario, esto siempre es posible modificando la configuración para mejorar los resultados.

Snowflake presenta un modelo de lenguaje grande destinado a extraer información más profunda de los documentos, mientras continúa avanzando la plataforma desde una perspectiva de velocidad y rendimiento. (Crédito: Copo de nieve)

Entonces, Document AI analiza cualquier documento en tiempo real usando LLM. Christian Kleinerman especifica que mediante una simple consulta SQL, es posible ejecutar este modelo en todos los documentos seleccionados a la vez. Otra gran ventaja: el modelo está totalmente integrado en la plataforma Snowflake. Por lo tanto, es posible crear una canalización utilizando flujos y tareas para procesar los documentos a medida que llegan. Incluso se puede configurar una alerta para enviar un correo electrónico cada vez que llegue un documento. Snowflake está comenzando con Document AI, disponible en versión preliminar privada, y planea extender estas capacidades a otros tipos de datos no estructurados en el futuro, aunque no especificó cuáles.

Con el LLM, el usuario extrae información de los documentos, luego puede refinar el modelo si es necesario y, finalmente, publicarlo y construir el canal. (Crédito: CS)

Iceberg Tables, un estándar para la gestión de datos de Snowflake

Al mismo tiempo, la firma anunció actualizaciones de las tablas Iceberg para proporcionar un mejor rendimiento y más gobernanza tanto para los datos del catálogo Snowflake como para los gestionados por otro catálogo. Para que conste, estos fueron revelados por primera vez en el paisaje de Snowflake durante el Cumbre 2022. Christian Kleinerman las presentó a continuación como mesas de “primera clase”, “que ofrecen las mismas funciones de gestión, DML y CRUD que las tablas internas, con un rendimiento similar”. Hoy en día, mientras Apache Iceberg continúa ganando popularidad "como estándar de la industria para formatos Open Table", el responsable promete que "Snowflake hace que sea más fácil extender el valor de Data Cloud a los datos de Iceberg". En pocas palabras, esto simplifica la gestión de datos al eliminar la necesidad de que las empresas muevan o copien datos entre diferentes sistemas, lo que genera costos reducidos y una mayor flexibilidad. La firma afirma que hasta la fecha, clientes como Booking.com operan Iceberg Tables. Tenga en cuenta que esta actualización pronto estará disponible en versión preliminar privada.

Al actualizar las Iceberg Tables, que aparecieron hace sólo un año, Snowflake quiere acelerar la interoperabilidad. (Crédito: CS)

Con esta mejora, Snowflake pretende dar respuesta a un problema importante que no parece que vaya a desaparecer, sino todo lo contrario; se trata de romper silos. De hecho, según un estudio publicado por IDC sobre este tema, en los próximos cinco años más del 90% de los datos del mundo estarán desestructurados, en forma de documentos, imágenes, vídeos, sonidos, etc. Las empresas almacenan datos de forma rutinaria, pero obtener información útil a partir de estos datos históricamente ha requerido procesos manuales propensos a errores y habilidades expertas limitadas. Y Snowflake tiene la intención de abordar este punto conflictivo: “Estamos abriendo una nueva era de datos para los clientes, aprovechando la IA y eliminando los silos previamente vinculados al formato, la ubicación y más, para revolucionar el procesamiento de datos. cómo las organizaciones ponen sus datos a trabajar y generan conocimientos con Data Cloud”, concluye Christian Kleinerman.