Los LLM pueden ser muy buenos en el procesamiento del lenguaje natural, pero están lejos de ser buenos en detectar indicaciones de comandos maliciosas ocultas en el arte ASCII (imágenes creadas con letras y caracteres especiales específicos del código ASCII). Esto se demuestra mediante un trabajo de investigación El estudio, realizado por investigadores de la Universidad de Washington y la Universidad de Chicago, explica: "Se han desarrollado muchas técnicas, como el filtrado de datos y el ajuste fino supervisado, para mejorar la seguridad de los LLM. Sin embargo, las técnicas conocidas hasta el momento suponen que los corpus utilizados para la alineación de seguridad de los LLM se interpretan únicamente mediante la semántica. Sin embargo, esta suposición no se cumple en las aplicaciones del mundo real, lo que conduce a graves vulnerabilidades en los LLM, como el arte ASCII".

Como parte de su estudio, los investigadores desarrollaron una técnica de ataque, un jailbreak basado en el arte ASCII, y midieron la capacidad de varios modelos de lenguaje líderes en el mercado para detectar el engaño a través de un punto de referencia patentado Vision-in-Text Challenge (ViTC). Esto se construyó utilizando dos conjuntos de datos únicos. El primero es VITC-S, que se centra en caracteres individuales representados en el arte ASCII, que abarca un conjunto diverso de 36 clases con 8424 muestras. Las muestras abarcan una amplia gama de representaciones ASCII utilizando varias fuentes destinadas a desafiar las capacidades de reconocimiento de los MFR. El segundo es VITC-L, que se centra en aumentar la complejidad mediante la presentación de secuencias de caracteres, que abarcan 800 clases en 10 fuentes distintas.

Índice
  1. Sólo se reconocen la mitad de los números o caracteres asociados.
  2. ¿ArtPrompt sigue siendo eficaz para abordar los estudios de máster?

Sólo se reconocen la mitad de los números o caracteres asociados.

Desde GPT-3.5 hasta GPT-4, Gemini, Claude o Llama2, todos compiten en los huecos para detectar correctamente los mensajes de comando maliciosos. El PoC de ataque de los académicos, llamado ArtPrompt, requiere acceso de caja negra a los LLM objetivo para funcionar, lo que lo convierte en "un ataque práctico" según ellos: "ArtPrompt puede inducir de manera efectiva y eficiente comportamientos no deseados de los cinco LLM". ArtPrompt consta de dos pasos. En el primero, este vector de ataque enmascara palabras de seguridad (por ejemplo, "bomba") en un mensaje que podría hacer que el LLM víctima lo rechace. En el segundo paso, ArtPrompt reemplaza la palabra enmascarada en el paso I con arte ASCII. Luego, el mensaje enmascarado se combina con la representación ASCII y se envía a un LLM objetivo.

"El rendimiento más alto (mostrado por GPT-4) en el conjunto de datos VITC-S solo lo obtiene Acc [qui attribue un résultat binaire à chaque échantillon individuel x, ndlr] = 25,19%, lo que es significativamente menor en comparación con las evaluaciones en otras tareas como la finalización de código, el resumen y el reconocimiento de otras tareas como la finalización de código, el resumen y el razonamiento matemático", se lee en el estudio. "Cuando se evalúa en el conjunto de datos VITC-L, el rendimiento de todos los modelos se deteriora significativamente. Por ejemplo, el modelo GPT-4 solo logra un Acc = 3,26%. En comparación con los resultados de la evaluación en el conjunto de datos VITC-S, la disminución significativa en Acc se explica por el hecho de que la tarea de reconocimiento se vuelve más difícil a medida que las muestras contienen secuencias de dígitos o caracteres. Además, el AMR [capture l'accomplissement partiel de la tâche de reconnaissance, ndlr] El valor más alto entre todos los modelos es 54,39%, obtenido por GPT-3.5. Esto indica que, en promedio, el modelo puede reconocer solo alrededor de la mitad de los dígitos o caracteres asociados con una muestra de datos.

¿ArtPrompt sigue siendo eficaz para abordar los estudios de máster?

En resumen, todos los modelos LLM evaluados muestran un rendimiento deficiente en los conjuntos de datos VITC-S y VITCL cuando se evalúan con métricas Acc y AMR, dicen los investigadores. Esto se debe a que estos modelos se entrenan con conjuntos de datos que dependen únicamente de la semántica para la interpretación. “El rendimiento de ArtPrompt en modelos de lenguaje multimodal necesita más estudios”, dice el informe. “Nuestra hipótesis es que ArtPrompt seguirá siendo eficaz para atacar los modelos de lenguaje multimodal. Esto se debe a que, aunque los modelos de lenguaje multimodal pueden interpretar imágenes de la misma manera que el arte ASCII, las indicaciones ocultas generadas por ArtPrompt siempre están en forma de texto. Este formato de entrada confunde al modelo, lo que permite que ArtPrompt induzca errores y comportamientos que son peligrosos para los modelos de lenguaje multimodal”.