El chatbot de IA más amable y amigable 'Claude 2' presentado por Anthropic

hace 2 años

Los detalles de un nuevo chatbot de IA anunciado el martes como “útil, inofensivo y honesto” por su desarrollador, Anthropic.

El chatbot Claude 2 cuenta con un repertorio familiar. Puede crear resúmenes, escribir código, traducir texto y realizar tareas que se han vuelto de rigor para el género de software.

Se puede acceder a esta última versión de la oferta de IA generativa a través de API y a través de una nueva interfaz web que el público puede acceder en los Estados Unidos y el Reino Unido. Anteriormente, solo estaba disponible para empresas mediante solicitud o a través de Slack como aplicación.

"Piense en Claude como un colega o asistente personal amigable y entusiasta al que se le puede instruir en lenguaje natural para ayudarlo con muchas tareas", dijo Anthropic en un comunicado.

"Anthropic está tratando de inclinarse hacia el espacio de los asistentes personales", observó Will Duffield, analista de políticas del Cato Institute, un grupo de expertos de Washington, DC.

"Si bien Microsoft tiene una ventaja al incorporar Bing a su suite de productividad, Claude quiere ser un asistente personal más útil que el resto", dijo a TechNewsWorld.

Puntuaciones de razonamiento mejoradas

Claude 2 ha mejorado con respecto a los modelos anteriores en las áreas de codificación, matemáticas y razonamiento, según Anthropic.

En la sección de opción múltiple de un examen de la abogacía, por ejemplo, Claude 2 obtuvo una puntuación del 76,5%. Los modelos anteriores obtuvieron una puntuación del 73,0%.

En los exámenes GRE de lectura y escritura para estudiantes universitarios que solicitan ingresar a la escuela de posgrado, Claude 2 obtuvo una puntuación superior al percentil 90. En razonamiento cuantitativo, obtuvo tan buenos resultados como los solicitantes medianos.

En el área de codificación, Claude 2 obtuvo una puntuación del 71,2% en la prueba Codex HumanEval, una prueba de codificación Python. Esa es una mejora significativa con respecto a los modelos anteriores, que lograron una puntuación del 56,0%.

Sin embargo, lo hizo sólo ligeramente mejor que su predecesor en el GSM8K, que abarca un gran conjunto de problemas matemáticos de la escuela primaria, acumulando una puntuación del 88,0%, en comparación con el 85,2% de Claude 1.3.

Claude 2 ha mejorado con respecto a nuestros modelos anteriores en evaluaciones que incluyen Codex HumanEval, GSM8K y MMLU. Puede ver el conjunto completo de evaluaciones en nuestra tarjeta modelo: https://t.co/fJ210d9utd pic.twitter.com/LLOuUNfOFV

- Antrópico (@AnthropicAI) 11 de julio de 2023

Retraso del conocimiento

Anthropic mejoró a Claude en otra área: la entrada.

La ventana de contexto de Claude 2 puede manejar hasta 75.000 palabras. Eso significa que Claude puede digerir cientos de páginas de documentación técnica o incluso un libro. En comparación, la entrada máxima de ChatGPT es de 3000 palabras.

Anthropic añadió que ahora Claude también puede escribir documentos más largos, desde memorandos hasta cartas e historias de hasta unos pocos miles de palabras.

Al igual que ChatGPT, Claude no está conectado a Internet. Está entrenado con datos que finalizan abruptamente en diciembre de 2022. Eso le da una ligera ventaja sobre ChatGPT, cuyos datos se interrumpen actualmente en septiembre de 2021, pero va por detrás de Bing y Bard.

"Con Bing, obtienes resultados de búsqueda actualizados, que también obtienes con Bard", explicó Greg Sterling, cofundador de Near Media, un sitio web de noticias, comentarios y análisis.

Sin embargo, eso puede tener un impacto limitado en Claude 2. "La mayoría de las personas no verán diferencias importantes a menos que utilicen todas estas aplicaciones una al lado de la otra", dijo Sterling a TechNewsWorld. "Las diferencias que la gente puede percibir estarán principalmente en las interfaces de usuario".

Anthropic también promocionó las mejoras de seguridad realizadas en Claude 2. Explicó que tiene un "equipo rojo" interno que califica sus modelos basándose en un gran conjunto de indicaciones dañinas. Las pruebas están automatizadas, pero los resultados se comprueban periódicamente de forma manual. En su última evaluación, Anthropic señaló que Claude 2 era dos veces mejor a la hora de dar respuestas inofensivas que Claude 1.3.

Además, tiene un conjunto de principios llamado constitución integrado en el sistema que puede moderar sus respuestas sin la necesidad de utilizar un moderador humano.

Reducir el daño

Anthropic no es el único que intenta frenar el daño potencial causado por su software de inteligencia artificial generativa. "Todo el mundo está trabajando en IA útiles que se supone que no causan daño, y el objetivo es casi universal", observó Rob Enderle, presidente y analista principal de Enderle Group, una firma de servicios de asesoría en Bend, Oregon.

"Es la ejecución la que probablemente variará entre proveedores", dijo a TechNewsWorld.

Señaló que los proveedores industriales como Microsoft, Nvidia e IBM se han tomado en serio la seguridad de la IA desde el momento en que ingresaron al dominio. "Algunas otras empresas emergentes parecen más centradas en lanzar algo que en algo seguro y digno de confianza", dijo.

"Siempre estoy en desacuerdo con el uso de lenguaje como inofensivo porque las herramientas útiles generalmente pueden usarse indebidamente de alguna manera para causar daño", agregó Duffield.

Los intentos de minimizar el daño en un programa de IA generativa podrían afectar su valor. Sin embargo, ese no parece ser el caso de Claude 2. "No parece castrado hasta el punto de ser inútil", dijo Duffield.

Venciendo la barrera del ruido

Tener una IA "honesta" es clave para confiar en ella, sostuvo Enderle. "Tener una IA dañina y deshonesta no nos sirve de mucho", afirmó. "Pero si no confiamos en la tecnología, no deberíamos usarla".

"Las IA funcionan a la velocidad de las máquinas, y nosotros no", continuó, "por lo que podrían causar mucho más daño en un período corto del que podríamos afrontar".

"La IA puede inventar cosas que son inexactas pero que suenan plausibles", añadió Sterling. "Esto es muy problemático si la gente confía en información incorrecta".

"La IA también puede arrojar información sesgada o tóxica en algunos casos", afirmó.

Incluso si Claude 2 puede cumplir su promesa de ser un chatbot de IA “útil, inofensivo y honesto”, tendrá que luchar para hacerse notar en lo que se está convirtiendo en un mercado muy ruidoso.

"Estamos siendo abrumados por la cantidad de cosas anunciadas, lo que hace que sea más difícil superar el ruido", señaló Enderle.