A medida que las empresas se dan cuenta del valor de sus datos, el poder de toma de decisiones y los beneficios financieros que representa su análisis, su volumen y casos de uso se multiplican. Por eso hoy vivimos una auténtica explosión de datos, que evolucionan a un ritmo vertiginoso y se vuelven más complejos. La elección de una infraestructura híbrida, que combine almacenamiento on-premise y en la nube, parece fundamental para poder disponer del espacio necesario, controlar los costes y gestionarlos de forma sencilla y desde cualquier lugar. Es por esto que, según Índice de nube empresarial Nutanix 2022Casi el 90% de las empresas en Francia favorecen la multinube híbrida y el 64% planea implementarla para 2024.

Para garantizar la necesidad exponencial de almacenamiento de datos de forma económica, fluida y centralizada, el lago de datos parece ser una solución lista para usar. Este espacio puede reunir grandes cantidades de datos sin procesar de múltiples fuentes, que se integran rápidamente con el tiempo y que luego se pueden analizar para obtener información valiosa. Además de la flexibilidad y escalabilidad que ofrece esta arquitectura, el lago de datos satisface la necesidad de federación de datos al proporcionar una vista unificada. Esto ayuda a evitar silos de datos y restablece la autonomía de las profesiones, al tiempo que armoniza la organización y la colaboración interna.

Índice
  1. Promesas con geometría variable
  2. Recuperar datos dispersos
  3. La federación de datos, un aliado clave del data lake

Promesas con geometría variable

Así, muchas empresas han optado por los lagos de datos en los últimos años, pero esta arquitectura no siempre cumple sus promesas e incluso puede impedirles obtener valor de sus datos. Un lago de datos ciertamente reúne todos los datos de manera centralizada, pero esto conlleva su propio conjunto de dificultades relacionadas con la falta de priorización. Además, la avalancha actual de datos y la necesidad de tomar decisiones sobre ellos (necesidades analíticas, aprendizaje automático, inteligencia artificial, etc.) crean necesidades crecientes en términos de flexibilidad, agilidad, escalabilidad y resiliencia, asociadas al deseo de un bajo almacenamiento. costo.

Sin embargo, el lago de datos no está muerto y su inversión aún puede ser rentable con los ajustes adecuados. Los distintos editores y proveedores lo han entendido bien y estamos viendo surgir nuevos formatos y herramientas para mejorar sus funcionalidades y facilitar la transición a lakehouses. Este modelo también puede ser más flexible, con la capacidad de implementar lagos de datos híbridos, locales o basados ​​en la nube según las necesidades de la organización. La respuesta a los desafíos actuales reside, por tanto, más en la modificación, mejora y/o modernización del lago de datos.

Recuperar datos dispersos

Sin embargo, para tener un acceso completo a todos sus datos, las empresas deben poder recuperar los datos que quedan fuera de sus almacenes centralizados, ya sea un lago de datos o un almacén. Estos datos se encuentran en silos porque existen diferentes formatos (nosql y streaming por ejemplo) con los que es imposible consolidar la llegada de nuevos datos. Este problema es recurrente para las empresas, porque constantemente llegan nuevos flujos, fruto de nuevas aplicaciones, de la integración de nuevos sistemas y áreas geográficas o de adquisiciones de empresas.

Además de estos datos inactivos y difíciles de usar, también vemos que las arquitecturas de datos siguen siendo muy complejas. El desafío radica en centralizar los datos en un único almacén de datos o lago de datos y moverlos, mantenerlos y gestionar canales de datos cada vez más grandes. Aquí es donde entran en juego las herramientas de la federación. Para eliminar estos silos, están surgiendo arquitecturas tipo “data mesh” que ofrecen descentralización de los datos para garantizar una mayor agilidad en el acceso y gestión de los datos.

La federación de datos, un aliado clave del data lake

Por último, las migraciones a la nube también son una fuente de complejidad y requieren mucho tiempo, ya que los datos se almacenan tanto en las instalaciones como en una o más nubes. Del mismo modo, no todos los datos estarán necesariamente algún día en la nube, por motivos relacionados con la seguridad, la confidencialidad, la sensibilidad de los datos, la soberanía o las limitaciones regulatorias. Por tanto, las arquitecturas híbridas son una elección natural. La flexibilidad de la federación de datos, combinada con lagos locales o en la nube, también es esencial para evolucionar y garantizar a las empresas un acceso rápido, simple y gobernado a los datos. Este modelo permite a las empresas obtener una visión holística de sus datos.

Por lo tanto, un lago de datos moderno (o data lakehouse) combinado con un sistema de federación de datos es la solución a implementar para las empresas que se dan cuenta de que siempre tendrán más datos. Esta combinación contribuye a la simplificación de la arquitectura de datos, que debe ser sólida, potente, escalable, flexible y ágil, para garantizar el mejor nivel de evolución posible. Para mí, esta es sin duda la mejor manera de gestionar tus datos y afrontar el futuro con confianza. Y aquí es donde, además del lago de datos, también es necesario incorporar soluciones de federación de datos para conciliar, cruzar y analizar los datos que se encuentran tanto en el lago (o la casa del lago) como alrededor de él, en todas estas fuentes externas. o silos.