Con el apoyo de la Dila (Dirección de Información Jurídica y Administrativa) y de la Dinum (DSI del Estado), la DGFiP publica en código abierto una adaptación de Llama, un modelo LLM del Meta, especializado en la síntesis de modificaciones legislativas. Llamado LlaMandement, el modelo está disponible en la plataforma HuggingFaceAl igual que el conjunto de datos de entrenamiento (en el GitLab de Adullact). Un esfuerzo de transparencia que hay que destacar en un momento en el que la Administración a veces parece reticente a cumplir con una obligación que sin embargo está incluida en La ley (como Esto lo demuestra el ejemplo de Parcoursup.).

"Al abordar los desafíos administrativos que plantea el procesamiento manual de un volumen cada vez mayor de enmiendas legislativas, LLaMandement representa un avance significativo en la tecnología al servicio del sector legal, ofreciendo una solución que supera las capacidades de procesamiento humano al tiempo que iguala la solidez de un redactor legal especializado", comentan los autores de un Artículo de investigación detallando el trabajo realizado sobre el modelo.

Tres pasos de procesamiento

El LLM, creado en otoño en el seno de la DGFiP con motivo de la Ley de Finanzas de 2024, forma parte de la cadena de tratamiento de las enmiendas presentadas por diputados y senadores, enmiendas que a menudo se cuentan por miles para un solo proyecto de ley. De ahí la voluntad de automatizar la cadena de tratamiento de estas propuestas. Esta se divide en tres etapas: la asignación de una enmienda a la administración más adecuada para su análisis, la búsqueda de textos o enmiendas similares y, por último, la síntesis. Estas tareas se utilizan para redactar las notas presentadas al gobierno, con el fin de preparar su respuesta a los diputados o senadores cuando las enmiendas se examinen en sesión.

Los dos primeros pasos pueden automatizarse con sistemas tradicionales (sistemas expertos o algoritmos de emparejamiento difuso). Los autores del artículo informan de una tasa de éxito del 94% en la asignación de las 5.400 enmiendas a la Ley de Finanzas en el ministerio del mismo nombre. "Sin embargo, reproducir este proceso basado en el PLN en los diferentes ministerios es difícil debido a la diversidad de sus prácticas y métodos operativos", advierten los autores de la DGFiP, Dila y Dinum. En este mismo conjunto de 5.400 enmiendas, la búsqueda de similitudes permitió aislar un texto redundante de los seis propuestos.

Elegir un modelo más pequeño y previamente entrenado

El siguiente paso es sintetizar las decenas de miles de enmiendas examinadas cada año, cada una de las cuales comprende una media de dos páginas. Aquí es donde la DGFiP ha llamado la atención sobre Llama. Aunque los autores no detallan realmente las razones para elegir el modelo Meta en lugar de alternativas como Mistral o Bloom, sí explican sus opciones de implementación. Si bien las pruebas resultaron concluyentes con el modelo Llama con 70 mil millones de parámetros (o 70B), provisto de ejemplos, los equipos de desarrollo centraron sus esfuerzos en modelos más pequeños (con 7 y 13 mil millones de parámetros), beneficiándose de una etapa de ajuste fino. "Esta elección estuvo dictada por la necesidad de encontrar un equilibrio entre potencia de cálculo, eficiencia y uso sostenible de los recursos", escriben la DGFiP, Dila y Dinum.

Para entrenar estos modelos, el equipo de desarrollo construyó un corpus de más de 15.000 enmiendas junto con su resumen, un corpus que fue refinado para excluir los elementos considerados de mala calidad, con el fin de entrenar al LLM. Luego, los resultados de una prueba sobre 30 enmiendas a la Ley de Finanzas se presentaron a un panel de especialistas en impuestos. Si bien otorgaron una puntuación promedio de 16,5 sobre 20 a los resúmenes que ellos mismos escribieron, los LLM obtuvieron casi tan buenos resultados. 15,5 para el modelo Llama más grande suministrado con ejemplos, y apenas menos (15,1) para el modelo preentrenado de 13 mil millones de parámetros, pero solicitado con un simple mensaje. El modelo Llama con 7 mil millones de parámetros, también preentrenado, obtuvo un rendimiento un poco menor (14,1), lo que empujó al DGFiP a favorecer la opción intermedia. A modo de comparación, los modelos Foundation de generaciones anteriores (como el T5 o mT5 de Google) no superan una puntuación de 5 sobre 20.

“Un avance significativo en el campo de la PNL”

“La combinación de una habilidad cercana a la humana, velocidad y escalabilidad, a pesar de un modelo más pequeño que LLaMA 70B, posiciona a LLaMandement como una herramienta altamente efectiva para el análisis de textos legislativos. Esto subraya la utilidad del modelo y su potencial impacto en el panorama de aplicaciones legislativas, marcando un avance significativo en el campo del PLN”, señalan los autores, quienes también indican que verificaron que la fase de ajuste fino no agregó ningún sesgo étnico, político o de género a los resultados, en comparación con el modelo original de Llama.