Dedicado a la creación de herramientas de código abierto, el proyecto Purple Llama presentado por Meta permite a los desarrolladores evaluar y fortalecer la confiabilidad y seguridad de los modelos de IA generativa antes de su uso público. Meta cree que los desafíos de la IA no se pueden abordar de forma aislada y que la colaboración es necesaria para garantizar la seguridad de la IA. Según un comunicado de la compañía, Purple Llama tiene como objetivo establecer una base común para el desarrollo de una genAI más segura a medida que aumentan las preocupaciones sobre los grandes modelos de lenguaje y otras tecnologías de IA. "Las personas que construyen sistemas de IA no pueden abordar los desafíos de la IA de forma aislada, por lo que queremos nivelar el campo de juego y crear una base de confianza y seguridad abiertas", escribió Meta. en una publicación de blog.

Gareth Lindahl-Wise, director de seguridad de la información de la empresa de ciberseguridad Ontinue, calificó a Purple Llama como un paso “positivo y proactivo” hacia una IA más segura. "La idea de reunir el desarrollo en una plataforma sin duda tendrá partidarios y detractores, pero ofrecer al consumidor una protección lista para usar será beneficioso", añadió. "Las entidades que tienen estrictas obligaciones internas, de clientes o regulatorias, por supuesto, siempre tendrán que seguir evaluaciones sólidas, seguramente mucho más allá de la oferta de Meta, pero cualquier cosa que pueda ayudar a poner orden en este potencial del Salvaje Oeste es bueno para el ecosistema", añadió Gareth. Lindahl-Wise. El proyecto planea asociaciones con desarrolladores de inteligencia artificial, servicios en la nube como AWS y Google Cloud, empresas de semiconductores como Intel, AMD y Nvidia, y proveedores de software como Microsoft. La colaboración debería fomentar la producción de herramientas para investigación y uso comercial capaces de probar las capacidades de los modelos de IA e identificar riesgos de seguridad.

Llama Guard para identificar lenguaje dañino u ofensivo

El primer conjunto de herramientas lanzado por Purple Llama incluye CyberSecEval, que evalúa los riesgos de ciberseguridad en el software generado por IA. El modelo de lenguaje de CyberSecEval identifica texto inapropiado o dañino, incluidas discusiones sobre violencia o actividades ilegales. Los desarrolladores pueden utilizar Evaluación de seguridad cibernética para comprobar si es probable que sus modelos de IA creen código inseguro o contribuyan a ataques cibernéticos. La investigación de Meta ha demostrado que los modelos de lenguaje grandes a menudo sugieren código vulnerable, lo que hace que las pruebas y mejoras continuas sean importantes para la seguridad de la IA. Llama Guard, otra herramienta de esta suite, es un modelo de lenguaje grande entrenado para identificar lenguaje potencialmente dañino u ofensivo. Los desarrolladores pueden utilizar Llama Guard para comprobar si sus modelos producen o aceptan contenido peligroso, filtrando mensajes que podrían conducir a resultados inapropiados.