Bloques de datos adquirió Tabular, un proveedor de una plataforma de almacenamiento creada por los creadores de Apache Iceberg para facilitar la interoperabilidad de datos entre los lakehouses. Los fundadores de la startup, Ryan Blue y Daniel Weeks, comenzaron a desarrollar Iceberg en Netflix en 2017 y lo donaron a la Apache Software Foundation en 2018, casi al mismo tiempo que Databricks estaba desarrollando su Delta Lake inicialmente con formatos de tabla para datos que se pueden usar para transacciones ACID o procesamiento OLTP. En junio de 2022, el proveedor Abrió todas las API de Delta Lake como parte de su lanzamiento 2.0 y declaró que aportaría todas las mejoras de Delta Lake a la Linux Foundation. Antes del código abierto de Delta Lake, competidores como Cloudera, Dremio, Google (Big Lake), Microsoft, Oracle, SAP, AWS Snowflake, HPE (Ezmeral) y Vertica habían criticado a la empresa, poniendo en duda si Delta Lake era de código abierto o propietario, quitándole así algunos de sus clientes potenciales.

Con la adquisición de Tabular, Databricks afirmó que admitirá los dos principales formatos de tablas de código abierto para bases de datos de lagos y también ampliará el soporte para sus tablas UniForm. “Databricks tiene la intención de trabajar en estrecha colaboración con las comunidades Delta Lake e Iceberg para garantizar la compatibilidad de formatos para lagos de datos; a corto plazo, dentro de Delta Lake UniForm y a largo plazo, evolucionando hacia un estándar de interoperabilidad único, abierto y común”. anotado La empresa en un comunicado. UniForm (Universal Format) es un formato de tabla de última generación publicado en junio de 2023 que proporciona interoperabilidad entre Delta Lake, Iceberg y Hudi, y admite la interfaz de catálogo de Iceberg.

Índice
  1. Una pelea de cuchillos
  2. Databricks y Snowflake en un torbellino de adquisiciones

Una pelea de cuchillos

Los analistas también ven la adquisición de Tabular como una forma de que Databricks apoye una interoperabilidad más robusta. “Hemos visto en el pasado que las empresas a menudo adquieren el talento detrás de grandes proyectos de código abierto para tener una voz fuerte dentro de la comunidad de desarrolladores del proyecto”, dijo Bradley Shimmin, analista principal de Omdia. “Que los fundadores de Tabular se unan a Databricks proporcionará una mejor compatibilidad entre Delta Lake e Iceberg (que se ha convertido en un estándar de facto), lo que le dará a Databricks una ventaja sobre Snowflake a la hora de dar soporte a los clientes que dependen en gran medida de los datos fuera de la plataforma Snowflake”, dijo Shimmin. Sin embargo, el analista principal señaló que la adquisición no debería obstaculizar el uso de Iceberg por parte de Snowflake, dado que Ryan Blue y Daniel Weekss han abierto el código del proyecto durante mucho tiempo y lo han donado a la Apache Software Foundation.

El analista principal de Constellation Research, Doug Henschen, también cree que Apache Iceberg ya ha eclipsado a todos los demás estándares y que la incursión de Databricks en la creación de interoperabilidad para el formato de tabla lo impulsará aún más hacia convertirse en el estándar de tabla dominante. Además, los analistas señalaron que la rivalidad no se limita a los dos formatos de tabla abiertos, sino que abarca a Snowflake y Databricks. "El momento de este acuerdo tiene claramente la intención de llamar la atención de Snowflake e intentar superar a su competidor en el mensaje de apertura, lo que sugiere que tendrá una influencia significativa en el futuro del estándar Iceberg y Delta Lake", señaló Henschen. Snowflake también presentó esta semana Su catálogo de datos Polaris y dijo que lo abriría en los próximos 90 días. Polaris Catalog es una oferta de gobernanza de datos que proporciona control de acceso, auditoría, catalogación y capacidades de búsqueda de datos al agregar soporte para tablas Iceberg. Compite directamente con el servicio Unity de Databricks.

Hyoun Park, analista principal de Amalgam Insights, también respaldó a su colega analista Doug Henschen, diciendo que ambos proveedores de lakehouse están tratando de demostrar que son más adecuados para respaldar el entorno de datos empresariales en una variedad de formatos y tipos de datos. "Databricks se beneficia de esta adquisición porque demuestra que puede respaldar a Iceberg, que es posiblemente el formato de tabla más utilizado", explicó el consultor, y agregó que si bien el proveedor ha sido tradicionalmente un buen colaborador de código abierto para sus propios proyectos, la comunidad de colaboradores de Iceberg ahora es mucho más grande que la de Tabular con compromisos de muchos proveedores importantes. Sin embargo, Henschen enfatizó que hay demasiadas partes interesadas para que una sola empresa domine a Iceberg, aunque la adquisición de Tabular podría darle a Databricks una ventaja en el frente de Iceberg.

Databricks y Snowflake en un torbellino de adquisiciones

Esta no es la primera adquisición de Databricks, A principios de marzo, compró Lilaccon sede en Boston, para ayudar a las empresas a explorar y utilizar sus datos no estructurados para crear aplicaciones impulsadas por IA generativa. Anteriormente, Databricks había adquirido MosaicMLun proveedor de software de capacitación de modelos y LLM, por $1.3 mil millones para expandir sus ofertas GenAI a partir de junio pasado. Antes de la adquisición de Lilac AI y MosaicML, la compañía había adquirido el proveedor de Plataforma de gobernanza de datos impulsada por IA de Okera por un monto no revelado en mayo del año pasado. Se esperaba que la adquisición fortaleciera las capacidades de gobernanza de datos de Databricks al entrenar y administrar modelos de lenguaje grandes (LLM), como Su LLM Dolly 2.0 publicado en código abierto.

Snowflake también ha estado adquiriendo empresas que no solo refuerzan sus ofertas de GenAI, sino también sus capacidades de gestión de datos. Su última adquisición se produjo en forma de una compra de activos de la empresa TruEraproveedor de una plataforma de observabilidad, una empresa joven que también se posiciona en la provisión de capacidades de gestión del ciclo de vida para el aprendizaje automático y los LLM. En mayo de 2023, el especialista en almacenamiento de datos en la nube también Me apoderé de Neevauna startup con sede en Mountain View, California, por un monto no revelado para agregar búsqueda generativa impulsada por IA a su plataforma Data Cloud. En febrero de 2023, Es un año bisiesto que se ha propuesto reforzar sus capacidades de limpieza de datos. La adquisición se produce apenas un mes después de que Snowflake acordara comprar Myst AI, el proveedor de plataformas de pronóstico de series temporales basadas en inteligencia artificialelevando el total de adquisiciones de la compañía a siete empresas en tres años.