¿IA generativa para facilitar el acceso al conocimiento? Este es el camino recorrido por la Cité de la musique - Philharmonie de Paris, el establecimiento que reúne los dos lugares dedicados a la música, para poner en valor su biblioteca digital, que incluye conciertos, pero también grabaciones de conferencias, foros o entrevistas. “Este patrimonio se creó desde los inicios de la Cité de la Musique, en 1995. Hasta ahora, los bibliotecarios describen los documentos antes de ponerlos en línea, con metadatos avanzados”, explica Rodolphe Bailly, asistente de dirección de la Cité de la Musique. centro de recursos del establecimiento cultural. Sólo que el tamaño del catálogo (2.500 conciertos, alrededor de 1.000 vídeos y mil horas de audioconferencias) y su constante enriquecimiento exigen un trabajo de indexación muy pesado. “Por falta de tiempo, los bibliotecarios no tienen tiempo para indexar minuciosamente las grabaciones de voz, como las conferencias”, observa Rodolphe Bailly.
De ahí la idea de acelerar el proceso mediante el uso de herramientas de IA generativa. Primero, transcribir las conferencias en formato de texto (a través de la API OpenAI dedicada) y luego, a partir de esta transcripción, aislar los temas tratados y las entidades nombradas (como obras, músicos o lugares). "La tecnología debe ayudarnos a construir un tesauro para mejorar la investigación en este fondo documental, ofreciendo a los internautas un acceso directo a los pasajes relevantes, incluso si la palabra buscada no se pronuncia directamente", continúa el director. Este último también tiene previsto probar la creación de resúmenes de conferencias. Sin olvidar integrar 250 documentos que no se han podido indexar en estos momentos por falta de tiempo.
ChatGPT para corregir errores en nombres propios
La iniciativa, dotada con una financiación del Ministerio de Cultura de 65.000 euros, se centra actualmente en la transcripción de archivos hablados. "Los primeros resultados son bastante impresionantes", se alegra el subdirector del centro de recursos. Hay algunos errores en los nombres propios, pero son bastante sencillos de corregir: simplemente envíe el texto de regreso a ChatGPT especificando el contexto musical en el mensaje. » La herramienta también resulta muy eficaz: las 1.000 horas de audio del fondo deberían tragarse en 50 horas de cálculo. “Esta fase del proyecto también debe utilizarse para construir la cadena de procesamiento de las nuevas conferencias que añadiremos al fondo, con el fin de industrializar el enriquecimiento del catálogo”, añade Rodolphe Bailly. Lanzado en septiembre pasado, por un período de un año, el proyecto deberá abordar luego el mapeo de los temas tratados, la clasificación temática de las grabaciones y la creación de índices relativos a personas, lugares y obras.
Rodolphe Bailly, subdirector del centro de recursos de la Cité de la musique - Philharmonie de Paris. (Foto: RF)
“Esta tecnología no ha provocado ninguna reacción negativa por parte de los bibliotecarios, acostumbrados a trabajar en un entorno técnico innovador. Al contrario, sienten mucha curiosidad y entusiasmo ante la idea de mejorar el servicio al público”, asegura el subdirector del centro de recursos, un servicio que reúne a más de veinte personas y que incluye en particular las bibliotecas físicas. y digital del establecimiento. Estos profesionales permanecerán, en cualquier caso, informados, especialmente en la fase de corrección de nombres propios y validación de resúmenes.
También queda la cuestión de la interfaz que se ofrecerá al público, "un ámbito donde la norma aún está por escribir", subraya Rodolphe Bailly, para quien la promoción de los archivos de la Cité de la musique - Philharmonie de Paris pide "una revisión completa de su acceso en línea, en particular de las herramientas de búsqueda y lectura de estos archivos, utilizando los últimos avances de la IA". El tema aún está bajo consideración y depende en gran medida de la calidad de los resultados que surjan de la encuesta. Pero Rodolphe Bailly tiene presente la ambición de ofrecer una navegación temática en toda la colección, permitiendo al internauta pasar de una conferencia a otra.
Otras noticias que te pueden interesar