Con sede en Burdeos, Floa es a la vez un banco en línea y una fintech que ofrece servicios de pago fáciles (split, pago aplazado, minicréditos, etc.). La compañía cuenta con más de 4 millones de clientes, particulares y profesionales, con una importante presencia en el sector del comercio electrónico. Durante el desayuno matutino Datos para el desayuno, organizado por Snowflake, el 12 de abril en la Estación F, Sébastien Robert, director de datos de Floa, compartió varias lecciones que él y su equipo aprendieron cuando decidieron adoptar la plataforma de datos en la nube del editor.

En Floa, filial del grupo BNP Paribas desde 2022, no faltan casos de uso en torno a los datos, con una amplia diversidad de aplicaciones. Estos van desde la ciencia de datos hasta la visualización, incluido el intercambio de datos. Los datos también se utilizan en todos los niveles de la empresa, con casos de uso bastante clásicos, como la gestión de actividades, la modelización financiera, el marketing o incluso la prevención de riesgos de impago y fraude. Otros casos de uso se dirigen más bien a clientes y socios, como el SEO y la optimización de rutas, el cálculo de reembolsos o incluso el intercambio y la monetización de datos con el ecosistema B2B de Floa. Otros más descienden al nivel operativo, como la gestión de recursos en los call center o la automatización de procesos manuales. "Nuestro objetivo era poder utilizar los datos de forma distribuida para todos nuestros usuarios y nuestros departamentos, independientemente de su nivel de interés por los interesados", explica Sébastien Robert.

Estructurar las opciones tecnológicas

Aparte de este deseo de democratizar los datos, los equipos técnicos también encontraron importantes desafíos a la hora de ampliarlos. Para satisfacer estas necesidades, Floa optó en 2019 por utilizar Copo de nieve en la nube de Microsoft Azure para centralizar sus datos. Como entrada, la plataforma se basará en diferentes fuentes de datos internas y externas, incluidos datos transformados a través de Talend ETL. Como resultado, impulsa varios tipos de aplicaciones, en particular en Dataiku para la parte de ciencia de datos y Tableau para la visualización. Además de la plataforma, la fintech también utiliza el catálogo de datos DataGalaxy.

Según Sébastien Robert, el traslado de esta base de datos a la nube permitió el despegue de los usos, proporcionando la escalabilidad e interoperabilidad esperadas. Pero la transición no ha sido fácil. De hecho, a lo largo del camino, los equipos de datos tuvieron que superar varios desafíos. “Elegir las tecnologías adecuadas es un primer paso esencial, pero no suficiente. Hay muchos temas que abordar previamente y en paralelo, lo que permitirá utilizar los datos de forma eficiente y sostenible”, destaca Sébastien Robert. En efecto, para él “el desafío no es simplemente hacer, sino poder rehacer”.

Preparar y documentar datos.

Una segunda etapa clave tiene lugar durante la construcción de la base de datos. Una vez recuperados los datos, es necesario limpiarlos, documentarlos, conciliar los datos de diferentes bases de datos y realizar muchas otras tareas esenciales para que los datos clasificados y preparados estén disponibles de manera robusta e industrializada. El banco utiliza DataGalaxy en particular para documentar datos, usos o puntuaciones. "La escalabilidad requiere un trabajo profundo, que no necesariamente percibimos al principio y que lleva tiempo", observa el CDO. Pero, por tedioso que sea, este trabajo sobre los fundamentos ofrece muchos beneficios. Uno de ellos, y no el menos importante, es facilitar el intercambio de conocimientos dentro de los equipos, así como la incorporación de nuevos empleados. Hoy, Floa también confía en Snowflake para compartir solicitudes recurrentes entre equipos, a través de un directorio común, integrado en la plataforma.

La organización representa un tercer tema importante para la implementación de la estrategia de datos. "En nuestro caso, necesitábamos un verdadero reparto de tareas entre los equipos funcionales y técnicos", confiesa Sébastien Robert. Floa decidió crear un departamento de datos autónomo en torno a tres centros principales: una fábrica de datos, un centro de aplicaciones analíticas y de BI y un centro de ciencia de datos, con un equipo multifuncional para garantizar la coordinación. “Hemos creado comunidades en torno a las herramientas, con personas de referencia en cada una de ellas”, afirma el CDO. "También trabajamos mucho con el departamento de TI, en particular en la producción de modelos de aprendizaje automático y en la cadena API", continúa Sébastien Robert.

Plan para el desarrollo de habilidades

También hay que anticipar la democratización del uso de los datos. "Nuestro objetivo es hacer que los datos sean utilizables por todos los empleados de la empresa, democratizando realmente su acceso y evitando al mismo tiempo el caos en los datos", explica Sébastien Robert. Este objetivo requiere tener las habilidades adecuadas. Para comenzar más rápidamente, Floa se centró en su ecosistema local y contó con el apoyo de Business & Decision para el desarrollo de habilidades. Y la empresa ahora está midiendo los beneficios: los portátiles en Tableau aumentaron en 4,2 entre finales de 2019 y principios de 2023, y los implementados fuera del departamento de datos en 23.

Finalmente, para determinados usos, como la predicción de riesgos de fraude, los equipos querían ir más allá y obtener puntuaciones en tiempo real. El trabajo conjunto de los equipos de datos y aprendizaje automático con el departamento de TI ha permitido satisfacer esta necesidad: hoy se encuentran en producción unos cuarenta modelos en tiempo real. “Pero la evolución de estos modelos a lo largo del tiempo sigue siendo un tema real”, señala el CDO. De hecho, debemos evitar que el rendimiento descienda con el tiempo, garantizando al mismo tiempo que el mantenimiento de los modelos siga siendo manejable para los equipos, “para que no perdamos todo nuestro tiempo allí”, explica Sébastien Robert. Para ello, Floa ha implementado sistemas de seguimiento y análisis de modelos en producción. También se trata de definir los umbrales de alerta adecuados en estos sistemas, sobre todo porque las desviaciones observadas pueden tener numerosas causas, a veces independientes del modelo, como la calidad de los datos o la estacionalidad de determinadas actividades. Finalmente, el último paso consiste en encapsular y automatizar escenarios, para facilitar el reentrenamiento de un modelo cuando sea necesario.