¿Quiénes son los clientes VIP de un grupo de medios? A partir de esta pregunta aparentemente simple, Violette Chomier, directora de datos (CDO) del grupo Les Echos / Le Parisien, y su equipo abordaron la estandarización de los datos dentro de un grupo que incluye 35 marcas de eventos, servicios B2B y medios, entidades que trabajan en modelos económicos a menudo muy diferentes. “Responder a esta pregunta, planteada en diciembre de 2022 por la dirección general, nos dio mucho trabajo”, afirma el CDO, que habló recientemente en la feria Big Data & AI de París. Aunque envía casi 2.000 millones de correos electrónicos al año y alberga una base de datos de unos 20 TB, el grupo Les Echos/Le Parisien sigue siendo una ETI de menos de 1.600 personas. "Los datos, algunos canales y la veintena de empleados que trabajan en estos temas constituyen el vínculo entre el tamaño bastante modesto de nuestros equipos responsables de transmitir nuestros mensajes y nuestras audiencias muy numerosas", resume Violette Chomier.

Para emprender este proyecto, destinado a crear un perfil de cliente armonizado que conduzca a la segmentación de la base, el grupo puede confiar en su migración a la nube, realizada en 2020: la mayor parte de los datos de 21 marcas se agrupan en GCP (Google Cloud Platform) y las de 12 adquisiciones recientes (como Historia o Boursier.com) realizadas por el grupo. En esta arquitectura unificada, los datos ingeridos, en lotes o en streaming, pasan a través de un orquestador y se vierten en un lago de datos y luego en un almacén de datos para almacenarlos en diferentes tablas (perfil, segmentación, consentimiento, etc.). Un CDP permite utilizar estos datos en diferentes herramientas de activación (correos electrónicos, SMS, display en particular). "Estamos incorporando cada vez más datos en flujos para acercarnos al tiempo real", afirma Violette Chomier. Y buscamos transformar los datos lo más tarde posible en nuestra cadena, para poder agregar casos de uso que no se nos habrían ocurrido de inmediato. »

Índice
  1. De 6.000 profesiones a 15 categorías gracias a ChatGPT
  2. Tolerancia a los errores ortográficos y tipográficos.

De 6.000 profesiones a 15 categorías gracias a ChatGPT

Queda la cuestión de la estandarización y deduplicación de datos para crear un perfil único por cliente en todas las marcas. Al recurrir a un proveedor de servicios (DQE), Les Echos / Le Parisien intentó en primer lugar mejorar la calidad de su base de datos de direcciones postales, cuya calidad seguía siendo incierta (con una relevancia de sólo entre el 20 y el 70%, según las fuentes). “Al rectificar el 12% de las direcciones, redujimos nuestra tasa de deserción en un 15%”, observa el CDO. Otra cuestión clave en esta consolidación de datos: la deduplicación, “el punto más peligroso”, opina también Violette Chomier. Hasta entonces, el grupo mediático dependía únicamente del correo electrónico para evitar estos duplicados. Insuficiente para garantizar realmente la creación de una identificación única en las 35 marcas de la organización. “Por lo tanto, aplicamos una deduplicación adicional con el par de nombre y apellido. Pero esta elección plantea una serie de complejidades, porque tenemos, por ejemplo, muchos clientes individuales suscritos a través de su empresa. Por lo tanto, caso por caso, tuvimos que modificar las reglas comerciales para saber qué regla priorizar sobre cuál otra. »

Violette Chomier, CDO del grupo Les Echos / Le Parisien: “a través de su API, ChatGPT se integra en nuestro canal de datos, entre la ingesta y el almacenamiento de la base de datos”

Para crear su base de datos única de clientes, el CDO también puede basarse en un consenso sobre datos clave negociados con las diferentes empresas del grupo: una quincena de datos esenciales en total para cada perfil. “Principalmente datos personales, de contacto y de aceptación”, especifica Violette Chomier. En este ámbito, la responsabilidad del centro de datos consiste, en particular, en armonizar el stock, partiendo de una historia muy heterogénea (con colecciones a veces antiguas y nunca actualizadas). "Una enorme cantidad de trabajo", afirma el CDO. Aquí es donde utilizamos IA generativa. Por ejemplo, para las profesiones, teníamos entidades que habían recopilado esta información en campo abierto. De ahí la presencia de 6.000 datos diferentes. Utilizamos ChatGPT para clasificarlos en 15 categorías predefinidas, lo que hizo que estos datos fueran monetizables”, ilustra el CDO, que elogia la simplicidad de uso de la herramienta OpenAI en este ámbito y la ausencia de una fase de aprendizaje. para este caso de uso. Al tiempo que se destacan algunas prácticas que promueven la eficacia de la herramienta, como el uso de palabras clave específicas, el suministro de ejemplos o la especificación de datos de salida.

Tolerancia a los errores ortográficos y tipográficos.

Después de las pruebas iniciales de la herramienta, el equipo de datos del grupo de medios ajustó sus indicaciones y evaluó los resultados, paso a paso. “A través de su API, ChatGPT ahora está integrado en nuestra canalización de datos, entre la ingesta y el almacenamiento de la base de datos. Y esto, en diferentes ámbitos. De este modo, una gran parte de los datos clasificados en la categoría “otros” pudieron reprocesarse y convertirse en monetizables”, señala Violette Chomier. Según este último, estas operaciones de normalización de datos de IA resultan tolerantes a los errores ortográficos y tipográficos, con una precisión global del 81% y una tasa de recuperación del 74%. "Consideramos que estas puntuaciones son suficientes para implementar la herramienta en nuestra cadena de procesamiento", indica el CDO.

Todo el proceso de conciliación de datos de diferentes marcas, deduplicación y estandarización permitió al equipo de datos pasar de 21 millones de líneas durante la ingesta a, gradualmente, 13 millones de perfiles enriquecidos. "También aplicamos Machine Learning para asociar perfiles con apetito por un tema concreto, analizando sus datos de navegación", explica Violette Chomier. Iniciado hace 9 meses, el proyecto permitió ampliar los segmentos de audiencia asociados a datos CRM (segmentos asociados a un CPM más elevado) y definir clusters iniciales de personas con perfiles similares, a través de su consumo en múltiples marcas del grupo. Para el equipo de datos, este trabajo en profundidad también conduce a la producción de análisis más fiables. “Cuando trabajamos para reducir el desgaste o la propensión a suscribirse, los datos del CRM son clave”, asegura Violette Chomier, quien añade que la consolidación y limpieza de la base de datos también sirve para limitar las compras de datos externos cuando sean estrictamente necesarias.