No se puede negar la locura de Apache Iceberg. Varios proveedores de soluciones analíticas incorporan este formato de tabla abierta para almacenar conjuntos de datos. Este es el caso de Dremio, que acaba de anunciar características adicionales en este marco. Por ejemplo, para copiar datos en tablas de iceberg, las empresas y los desarrolladores deben usar el comando "Copiar en SQL".

Índice
  1. Copia y reversión de las mesas de iceberg
  2. Optimización de archivos y conectores pequeños

Copia y reversión de las mesas de iceberg

"Con un solo pedido, los clientes ahora pueden copiar datos de archivos en formato CSV y JSON almacenado en S3 de Amazon, Azure Data Lake Storage (ADLS), HDFS y otras fuentes de datos compatibles con las tablas Apache Iceberg utilizando el formato de archivo Parquet en columnas para columnas para Más rendimiento ", dice la nueva empresa californiana.

La compañía también introdujo una función de retorno (reversión) de las tablas para empresas. Una función similar a una copia de seguridad de restauración del sistema Windows o la de la máquina de tiempo en Mac. Las tablas se pueden guardar en un momento específico o en instantánea. Para acceder a esta función, los desarrolladores tendrán que usar el comando "Rollback". La compañía también especifica que "facilita una tabla a un estado anterior con un solo pedido".

Optimización de archivos y conectores pequeños

Otro comando interesante: optimizar, consolidar y optimizar los tamaños de archivos pequeños. Estos se crean durante diferentes procesos, como inserción, actualización o eliminación de datos. "A menudo, los clientes tienen muchos archivos pequeños como resultado de las operaciones de DML (lenguaje de manejo de datos)), que pueden tener un impacto en la lectura y la escritura del rendimiento en esta tabla y el uso de un exceso de almacenamiento", observe a Dremio. Agrega que el comando Optimizar se puede activar dentro de SONAR (motor SQL) a intervalos regulares para mantener el rendimiento.

Doug Henschen, analista principal de Constellation Research, señala que las funciones recientes presentadas por Dremio, "deberían mejorar la producción de ingenieros de datos y administradores del sistema". La start-up que apostó muy temprano en las mesas de iceberg compite con Ahana y Starburst, quienes anunciaron este apoyo en 2021. Otros proveedores como Snowflake y Cloudera siguieron en 2022. Además de funciones específicas en Apache Iceberg, Dremio lanza conectores para PowerBi desde PowerBi de Microsoft, Snowflake e IBM DB2. En el primero, los clientes de las dos soluciones, "ahora pueden usar la autenticación única (SSO) para acceder a los motores Dremio Cloud and Software desde PowerBi, simplificando así el control de acceso y la gestión de los usuarios a través de su arquitectura de datos». Para los otros dos conectores, las empresas lo harán Poder agregar datos de datos de copo de nieve y bases de datos DB2 IBM como fuentes de datos.