En los últimos años, las grandes empresas han estado utilizando bases de datos gráficas para detectar fraudes. El grupo La Poste también está trabajando en este tema, como lo demuestra un caso de uso presentado por Bertrand Provost, su responsable de producto de datos e IA, durante el Neo4j Graph Summit Paris, el 8 de junio en París. Con un enfoque original, basado en el análisis y comparación de los viajes de los clientes previamente transformados en vectores.
Presente en toda Francia, el grupo La Poste cuenta con 240.000 empleados, que desempeñan cuatro misiones de servicio público: servicio postal universal, planificación regional, transporte y distribución de prensa, así como accesibilidad. bancario. Hace unos años, el grupo quiso evaluar el uso de gráficos para monitorear una aplicación web sensible, además de las soluciones de detección de fraude existentes, basadas en enfoques deterministas. "Queríamos realizar este experimento de forma independiente, para evitar prejuicios, con el objetivo de ver si esto permitía detectar elementos que de otro modo no se habrían visto", explica Bertrand Provost.
Millones de nudos y relaciones
Para este proyecto, optó por analizar la información técnica relativa al recorrido del usuario, apoyándose en la tecnología Neo4J. La dirección IP, el dispositivo utilizado y cierta información funcional forman un perfil de usuario. Entre los datos disponibles se incluyen también elementos que permiten la identificación de los proveedores de servicios de Internet. “Podemos conocer el proveedor de acceso y localizar una IP”, especifica el directivo. Luego, estos perfiles se asocian con eventos recuperados a través de la plataforma de observabilidad Splunk.
Bertrand Provost se encontró rápidamente con un primer desafío: la gran cantidad de datos que debían procesarse. De hecho, en tan solo 24 horas de eventos recopilados, la base de datos creció a más de 100 millones de nodos y más de 300 millones de relaciones. "Por lo tanto, en una hora teníamos que poder integrar 5 millones de nodos y crear 15 millones de relaciones", señala Bertrand Provost. Para gestionar tal volumen, contó con el apoyo de los servicios profesionales de la editorial y luego se le unieron dos personas internamente.
Detectar discrepancias
Una vez resuelto el tema volumétrico, se pudo continuar con la construcción del modelo. "Estamos reconstruyendo una cadena de eventos de Splunk en Neo4J", dice Bertrand Provost. Basado en la probabilidad de una secuencia de eventos y en diferentes algoritmos (pagerank, Dijkstra), el modelo logra, para un determinado proveedor de acceso, resaltar comportamientos inusuales, incluso sospechosos. Se pueden agregar otros indicadores macroscópicos para monitorear el uso de la aplicación, por ejemplo, basados en la entropía de la relación, cuyo nivel no se espera que cambie con el tiempo.
AnuncioPara facilitar las operaciones de comparación y análisis estadístico, los caminos se transforman en vectores que no contienen información técnica sobre los entornos. “Los vectores son más maleables, el formato permite proyecciones, comparaciones y reducciones. Además, puede ser consumido por algoritmos de IA”, subraya Bertrand Provost. El uso de vectores facilita la detección de valores que divergen de otros. “Al comparar los viajes y su evolución para un usuario, una ubicación o un proveedor de acceso, podemos activar una alerta si la variación es significativa”, explica el directivo. De esta manera, el modelo logró, por ejemplo, detectar 275 dispositivos conectados detrás de una única IP, en un proveedor de acceso que se sabe que utilizan los estafadores. “Sólo establecemos umbrales para probabilidades significativas. Si, por ejemplo, solo una persona conecta desde Uzbekistán, su viaje no se tendrá en cuenta”, especifica el directivo. También se implementó un procedimiento de control determinista para limitar los falsos positivos y posibles errores.
Un enfoque que se puede aplicar a otros casos de uso.
Actualmente, el modelo logra proporcionar indicadores adicionales relevantes para la detección de fraudes a gran escala. "Los enfoques deterministas se basan en patrones establecidos, mientras que el enfoque probabilístico permite detectar patrones de fraude que nunca antes se habían observado", subraya Bertrand Provost. Ahora el equipo está trabajando para perfeccionar el modelo y hacerlo más preciso, de modo que también pueda detectar patrones de fraude más pequeños. El grupo también está probando un enfoque similar en torno a las conexiones a Office 365, analizando las rutas para evitar el riesgo de usurpación o robo de cuentas. “Podríamos utilizar el mismo enfoque para analizar otros aspectos, como el uso de licencias”, proyecta el directivo.
Otras noticias que te pueden interesar