La seguridad de los LLM es una preocupación para todas las empresas que los utilizan. Una última cosa Estudio publicado por Anthropic El origen del modelo de lenguaje de Claude, muestra que están expuestos a grandes riesgos de seguridad. En su informe, los investigadores afirman que estudiaron una familia de ataques simples de contexto largo en modelos de lenguaje de gran tamaño basados ​​en cientos de demostraciones de comportamiento no deseado. Este trabajo fue posible gracias a las ventanas de contexto más grandes implementadas recientemente por Anthropic, OpenAI y Google DeepMind: en determinadas circunstancias realistas, la eficacia del vector de ataque desarrollado, denominado Many-shot Jailbreaking (MSJ), sería muy eficaz en los modelos más utilizados. "Nuestros resultados sugieren que los contextos muy largos presentan una gran superficie de ataque para los LLM", se lee en la investigación.

Los investigadores afirman que han logrado desbloquear muchos modelos de lenguaje importantes, entre ellos Claude 2.0 de Anthropic, GPT-3.5 y GPT-4 de OpenAI, Llama 2 (70B) de Meta y Mistral (7B) de MistralAI. Al explotar ventanas emergentes largas, se llevaron a cabo una amplia variedad de comportamientos no deseados, como insultar a los usuarios y proporcionar instrucciones para construir armas en Claude 2.0. La robustez de este ataque a los cambios de formato, estilo y tema dificultaría la mitigación de esta amenaza, según el informe. "También demostramos que MSJ se puede combinar con éxito con otros jailbreaks, lo que reduce la longitud del contexto necesario para que el ataque tenga éxito", advierten los investigadores.

Jailbreaking de múltiples disparos

Eficacia empírica del vector de ataque Many-shot Jailbreaking (izquierda), en múltiples modelos (centro), y leyes de potencia subyacentes al aprendizaje de contexto. (crédito: Anthropic)

Índice
  1. Comportamiento dañino en todos los contextos
  2. Un vector de ataque eficaz

Comportamiento dañino en todos los contextos

El estudio también analizó cómo la eficacia de MSJ escala en los procesos de alineación LLM estándar utilizando el ajuste fino supervisado (SL) y el aprendizaje de refuerzo (RL). “Nuestro análisis de escalamiento muestra que estas técnicas tienden a aumentar la longitud del contexto necesaria para ejecutar con éxito un ataque MSJ, pero no previenen el comportamiento dañino en todas las longitudes de contexto”, afirma la investigación. “El entrenamiento explícito de los modelos para que respondan de manera benigna a las instancias de nuestro ataque tampoco previene el comportamiento dañino para longitudes de contexto suficientemente largas, lo que resalta la dificultad de abordar MSJ con longitudes de contexto arbitrarias”.

El vector de ataque MSJ se probó en tres contextos: casos de uso malintencionados (consultas relacionadas con la seguridad y los impactos sociales, por ejemplo, armas y desinformación), evaluaciones de personalidad maliciosas (preguntas de sí/no que evalúan rasgos de personalidad maliciosos, como la psicopatía) y oportunidades de insultos (preguntas benignas a las que se espera que el modelo responda con insultos). "Descubrimos que el ataque es eficaz en todas estas evaluaciones, y su eficacia aumenta con el número de disparos. En el conjunto de datos de casos de uso malintencionados, escalamos a ataques de aproximadamente 70.000 tokens de longitud sin observar ninguna meseta en la tasa de respuesta dañina. También logramos una adopción casi completa de comportamientos no deseados en las evaluaciones de personalidad maliciosas y el conjunto de datos de respuesta a insultos".

Un vector de ataque eficaz

En cuanto a la evaluación de la tendencia de los modelos a dar respuestas no deseadas en los datos de evaluación relacionados con la personalidad malintencionados, Claude 2.0, GPT-3.5-turbo-16k-0613, GPT-44-1106-preview, Llama 2 (70B) y Mistral 7B, la investigación observa que sólo se necesitan unos 128 disparos para que todos estos modelos adopten un comportamiento dañino. Además, la versión estándar de MSJ utiliza pasos de diálogo ficticios entre el usuario y el asistente cuya repetición podría utilizarse para controlar (y negarse a responder), lo que podría dar lugar a variantes con diferentes estilos de formato de indicaciones. "Si un adversario se ve obligado a utilizar un estilo de indicación diferente (por ejemplo, para evadir técnicas de vigilancia), aún podrá burlar al modelo si se le da la oportunidad de utilizar indicaciones lo suficientemente largas. De hecho, estas modificaciones parecen aumentar la eficacia de MSJ, tal vez porque las indicaciones modificadas no se distribuyen en relación con el conjunto de datos de ajuste fino de la alineación", se lee en el informe.

A través de sus hallazgos, los investigadores de Anthropic esperan que las empresas respondan al potencial jailbreaking de sus LLM. “Descubrimos que el jailbreaking multinivel no es fácil de manejar; esperamos que generar conciencia sobre este problema entre otros investigadores de IA acelere el progreso hacia una estrategia de mitigación”.