Si la carrera por los LLM se libra entre empresas emergentes como OpenAI y grandes grupos de TI como Google (con PaLM2) o Meta (LLaMA), otros están explorando estos modelos lingüísticos en áreas más secretas. Un grupo de investigadores surcoreanos acaba de desarrollar DarkBERTun LLM específico para la Dark Web. Este sistema está basado en la arquitectura RoBERTa de Meta, basada en BERT (Representaciones de codificador bidireccional de Transformers) desarrollado por Google en 2018.

Para DarkBERT, los investigadores entrenaron previamente el modelo con un corpus de parámetros de la Dark Web mediante el análisis de la red Tor. Filtraron los datos sin procesar (aplicando técnicas como deduplicación, equilibrio de categorías y preprocesamiento de datos) para generar una base de datos de la Dark Web. Este modelo debería ser utilizado por los expertos en ciberseguridad para facilitar investigaciones en este territorio, como la publicación de datos robados por grupos de ransomware.

Resultados alentadores

El mismo grupo de investigadores trabajó en “Arrojando nueva luz sobre el lenguaje de la Dark Web”, donde presentaron CoDA, un corpus de textos de la dark web recopilados de varios servicios de cebolla divididos en categorías temáticas. Otro estudio notable es “El lenguaje de las actividades legales e ilegales en la Darknet”, realizado por investigadores israelíes, donde identificaron varios factores distintivos entre textos legales e ilegales, adoptando una variedad de enfoques. Esto incluye predicción (clasificación de texto) y aplicación (Wikificación de entidad nombrada), así como un enfoque basado en estadísticas sin procesar. Todos estos trabajos de investigación y más investigadores inspiraron a desarrollar DarkBERT.

Los primeros resultados del desempeño del LLM son alentadores y los investigadores aceptan el hecho de haber trabajado en inglés. El 90% del texto de la Dark Web está en inglés según un estudio de 2022. En los próximos meses, los investigadores dijeron que planean mejorar el rendimiento de los modelos de lenguaje previamente entrenados específicos para el dominio de la Dark Web mediante el uso de arquitecturas más recientes y la exploración de datos adicionales para permitir la construcción de modelos de lenguaje multilingüe.