La competencia es feroz en el campo de los catálogos de datos, un tema clave en la era de la IA intensiva en datos. Y en esta batalla, dos actores se destacan Bloques de datos y Snowflake. Este último, hace unos días, presentó su oferta de código abierto PolarisDatabricks acaba de responder anunciando también la apertura de su catálogo Unity. Disponible desde junio de 2022 y actualizado con las capacidades de Okera, hasta ahora era accesible en modo cerrado al incluir control de acceso centralizado, auditoría, linaje y capacidades de descubrimiento de datos en todos los espacios de trabajo de Databricks.

Una pequeña diferencia entre los dos enemigos jurados es que Snowflake ofrecerá su catálogo en código abierto recién dentro de 3 meses, mientras que el código abierto de Unity ya está disponible. "Al abrir el código de Unity antes que Polaris, Databricks quiere posicionarse como el primer proveedor en abrir su catálogo de datos", observa Hyoun Park, analista jefe de Amalgam Insights.

Índice
  1. Una abertura para evitar el bloqueo
  2. Un movimiento de entrenamiento

Una abertura para evitar el bloqueo

El catálogo de Unity ahora es de código abierto bajo la licencia Apache 2.0, junto con todas sus API. Introducida por la Apache Software Foundation en 2004, esta licencia permite a los usuarios modificar y distribuir código de forma gratuita. Una vez abierto, el catálogo proporcionará a los usuarios una interfaz universal que admite datos en cualquier formato y entorno informático. “En particular, será posible leer tablas con clientes Delta Lake, Apache Iceberg y Apache Hudi a través de Delta Lake UniForm”, dijo Databricks. “La versión de código abierto también admite el catálogo Iceberg REST y los estándares de interfaz Hive Metastore (HMS)”, agregó el proveedor. Además, el catálogo de Unity seguirá proporcionando una gobernanza unificada para los activos de IA, como los modelos de aprendizaje automático (ML) y las herramientas de IA generativa.

Según Stewart Bond, vicepresidente de investigación de IDC, la apertura de las API proporciona acceso abierto a la información sobre los datos almacenados en el entorno de Databricks. “Es una forma de respaldar significativamente la unificación de datos para que los consumidores de datos, los ingenieros y los ejecutivos no necesiten utilizar múltiples herramientas para descubrir, administrar y gobernar todos los datos de una empresa”, explicó el consultor. “Este enfoque unificado evita la dependencia de un proveedor y permite a las empresas elegir las mejores herramientas y plataformas para sus necesidades, al tiempo que garantiza una gobernanza y seguridad consistentes en todo su patrimonio de datos”, dijo Steven Dickens, líder de prácticas de nube híbrida en The Futurum Group.

Un movimiento de entrenamiento

La apertura del catálogo de Unity, que sigue a la decisión de Snowflake de enviar su catálogo Polaris en tres meses, es vista por los analistas como una carrera para abrirse y captar usuarios. Dickens de Futurum dijo que la apertura representa un desafío significativo para competidores como Snowflake, Teradata y Dremio. "El enfoque de Databricks en la interoperabilidad y el compromiso con el código abierto le permite abordar una gama más amplia de necesidades de los clientes, reduciendo la fricción de la compatibilidad de formatos de datos", dijo. "Teradata y Dremio, aunque fuertes en sus respectivos nichos, no han demostrado el mismo nivel de integración y herramientas integrales para la gobernanza de datos e IA", agregó el analista.

Sin embargo, Stewart Bond, de IDC, señala que el éxito del catálogo Unity, ahora abierto, dependerá de la cantidad de metadatos sobre los datos almacenados en plataformas competidoras que se pongan a disposición de los procesos externos. "Unity sigue siendo un catálogo muy técnico. Hacerlo de código abierto puede acelerar la innovación en la experiencia del usuario a nivel empresarial y hacer que Unity sea más competitivo", afirmó el consultor.