El Instituto Británico de Seguridad de la Inteligencia Artificial (AISI) ha descubierto que las protecciones integradas en cinco modelos lingüísticos principales (LLM), publicados por instituciones o empresas de renombre y ya disponibles, son todas ineficaces. Los modelos, anonimizados por el AISI, se evaluaron midiendo la conformidad, la precisión y la integridad de las respuestas que proporcionan. Estas pruebas se llevaron a cabo utilizando el marco de evaluación de modelos del instituto, denominado Inspeccionar y lanzado como código abierto a principios de este mes.

"Todos los LLM probados siguen siendo altamente vulnerables a fugas de seguridad básicas, y algunos proporcionarán resultados potencialmente dañinos incluso en ausencia de intentos específicos de eludir sus protecciones", explica el instituto. Su informeRecordemos que los jailbreaks tienen como objetivo burlar las medidas de protección implementadas por los diseñadores de LLM a través de avisos adaptados.

Ciberataques: LLM a nivel de secundaria

Fundado a raíz de la primera Cumbre de Seguridad de IA, celebrada en Bletchley Park (donde los equipos de Alan Turing descifraron los códigos alemanes durante la Segunda Guerra Mundial) en noviembre pasado, el Instituto de Seguridad de IA está probando los LLM en varias direcciones: posible uso para facilitar ciberataques, capacidad para proporcionar conocimientos de nivel experto en biología y química (que podrían usarse con fines maliciosos), realización de secuencias de acciones que son difíciles de controlar para un humano (operando como agentes) y, finalmente, vulnerabilidad a los jailbreaks.

En concreto, los resultados que publica el instituto son bastante preocupantes o apuntan a los límites operativos de los modelos. Por ejemplo, en materia de ciberseguridad, "los modelos de acceso público son capaces de resolver retos sencillos, como Capture The Flag (CTF), a nivel de los destinados a los estudiantes de secundaria, pero tienen dificultades para resolver problemas más complejos, a nivel universitario", escribe el instituto. Las mismas limitaciones se aplican al comportamiento autónomo, como el comportamiento de agente (que consiste en encadenar tareas sin intervención humana). En este ámbito, dos de los modelos probados son capaces de realizar secuencias sencillas, sobre todo en ingeniería de software. Pero los problemas más complejos (como la I+D de software) quedan fuera del alcance de todos los LLM examinados.

Jailbreak: todos los LLM ceden fácilmente

Lo que es más preocupante es que ninguno de los modelos probados es realmente resistente a los jailbreaks. Los LLM ni siquiera son 100% seguros cuando el mensaje solicita directamente información potencialmente peligrosa, ¡sin siquiera intentar eludir las salvaguardas establecidas por los diseñadores! Uno de los LLM probados responde positivamente a estos mensajes en el 28% de los casos. Y todos los modelos ceden a los ataques de jailbreak diseñados para eludir sus escasas defensas, especialmente cuando estos se repiten. "Los ataques son relativamente básicos en el sentido de que insertan directamente la pregunta en una plantilla de mensaje o siguen un procedimiento de unos pocos pasos para generar mensajes específicos", escribe el AISI.

Los LLM siguen planteando un problema de seguridad pública debido a su especialización en biología y química. Evaluados por AISI sobre “600 preguntas redactadas por expertos y que cubren conocimientos y habilidades particularmente relevantes en un contexto de seguridad”, varios LLM muestran un nivel experto en química y biología, similar al de un profesional con un doctorado en estas especialidades.