ChatGPT, ¿una herramienta ideal para acelerar la producción de código? Incluso. Un estudio realizado por varios investigadores de la Universidad Purdue (ubicada en Indiana, Estados Unidos), aún en prepublicación, muestra que el chatbot OpenAI da respuestas incorrectas a preguntas de programación de software una de cada dos veces. Y estas "alucinaciones", como se denomina a las respuestas incorrectas del LLM, son lo suficientemente convincentes como para engañar a un tercio de los participantes del estudio.
Para llevar a cabo su estudio, los investigadores de Purdue analizaron las respuestas de ChatGPT a 517 preguntas del sitio de programación Stack Overflow. Luego, los académicos evaluaron la precisión, coherencia, integridad y concisión de las sugerencias producidas por la herramienta OpenAI. Estas mismas respuestas también se enviaron a una docena de voluntarios para que dieran su opinión, en comparación con las respuestas ofrecidas por la comunidad Stack Overflow a estas mismas preguntas.
Sensibilizar al equipo sobre los riesgos de los LLM.
"Nuestro análisis muestra que el 52% de las respuestas de ChatGPT son incorrectas y el 77% son detalladas", concluyen los autores. Excepto que muchas de estas respuestas son lo suficientemente creíbles y bien articuladas como para engañar al panel de usuarios reunido por los investigadores (7 licenciados en ciencias, tecnología, ingeniería y matemáticas, 4 estudiantes que aún no se han graduado y un ingeniero informático que ya está trabajando). En casi el 40% de los casos, prefieren las respuestas de ChatGPT a las de Stack Overflow. Mientras que, en el 77% de los casos, ¡estas sugerencias eran simplemente incorrectas! "Nuestro estudio destaca la necesidad de una revisión y rectificación cuidadosas de los errores de ChatGPT, así como de educar a sus usuarios sobre los riesgos asociados con las respuestas aparentemente correctas proporcionadas por el chatbot", escriben los investigadores de Purdue.
En este último caso, los usuarios sólo logran identificar errores generativos de IA cuando son obvios. "Cuando el error no es fácilmente verificable o requiere un entorno de programación o documentación externa, los usuarios a menudo no logran identificarlo o subestiman el grado de error de la respuesta", señalan los autores. Para estos últimos, que se basan en las entrevistas que realizaron a los participantes después de enviarles las respuestas de AI y Stack Overflow, ChatGPT tiende a tranquilizar a sus usuarios con su lenguaje cortés y sus respuestas bien articuladas. y exhaustiva. En resumen, la confianza que muestra ChatGPT y la aparente relevancia de sus respuestas (incluso cuando son incorrectas) ayudan a ganarse la confianza de los usuarios.
ChatGPT tranquiliza a sus usuarios
Lo cual también lo confirma el estudio lingüístico y el análisis de sentimientos realizado por el equipo de investigadores de Purdue, sobre 2000 preguntas de Stack Overflow. Las respuestas de ChatGPT son más formales y analíticas y transmiten menos sentimientos negativos que los comentarios publicados en Stack Overflow. “En muchas ocasiones observamos que ChatGPT insertaba palabras y frases como "claro, puedo ayudarte", "esto definitivamente solucionará el problema", etc. », escriben los autores.
El estudio en preimpresióntitulado "¿Quién responde mejor? Un análisis en profundidad de ChatGPT y respuestas de desbordamiento de pila a preguntas de ingeniería de software", fue escrito por los investigadores Samia Kabir, David Udo-Imeh, Bonan Kou y el profesor asistente Tianyi Zhang. Tiene el mérito de señalar la magnitud del problema que probablemente generará el uso de ChatGPT en la programación. Aunque estos resultados merecen ser confirmados, en particular debido al pequeño tamaño de la muestra de participantes en el estudio y a sus perfiles muy homogéneos. Los académicos de Purdue también están invitando a otros equipos de investigación a reproducir y ampliar su estudio, y están poniendo a disposición sus conjuntos de datos para hacerlo.
Otras noticias que te pueden interesar