Para crear un motor de búsqueda que permita a los internautas acceder a 84.000 conjuntos de datos en su poder, la NASA ha optado por confiar... en la tecnología francesa, la de Sinequa. ¿El objetivo de la Dirección de Misiones Científicas de la Agencia Espacial Estadounidense? Ofrecer un acceso simplificado, a través de una única interfaz, a sus vastos almacenes de información científica, es decir, más de 715.000 documentos (incluidos códigos fuente, tutoriales, documentación sobre algoritmos, información sobre misiones), distribuidos en 128 fuentes de información diferentes (sitios de Internet, documentales bases de datos o repositorios de datos). Disponible en versión beta, Science Discovery Engine (SDE), basado en las capacidades de búsqueda neuronal y procesamiento del lenguaje natural (NLP) de Sinequa, es actualmente capaz de reconocer 8.900 términos científicos en los campos de la astrofísica, las ciencias biológicas y físicas, las ciencias de la tierra y la heliofísica ( estudio del sistema solar) y ciencias planetarias.

Kaylin Bugbee, científica de la NASA y miembro del equipo a cargo de la iniciativa de ciencia abierta: “El Science Discovery Engine tiene como objetivo facilitar el descubrimiento y el acceso a datos científicos. » (Foto: NASA)

Anteriormente, las búsquedas en las fuentes del Organismo se realizaban principalmente mediante sistemas adaptados a cada tema científico. “Los datos científicos de la NASA se archivan en más de 30 almacenes de datos, lo que requería que el usuario identificara primero la fuente del contenido relevante para encontrar los datos específicos deseados. Asimismo, los documentos y el código fuente están disponibles en varios sitios web y aplicaciones dispersos”, señala Kaylin Bugbee, científica de la agencia que dirige las operaciones del equipo SDE, un proyecto de seis años. meses, entre los primeros desarrollos y la puesta en producción del versión beta actualmente en línea.

Índice
  1. “La parte más visible y sencilla”
  2. Agregar funciones de IA generativa

“La parte más visible y sencilla”

Para facilitar el descubrimiento y el acceso a datos científicos, la NASA buscó una herramienta capaz de proporcionar contenido relevante, enriquecido con elementos contextuales, a partir de diversos tipos de contenidos y datos. Porque, como señala Kaylin Bugbee, “cada disciplina utiliza sus propios estándares y vocabularios de metadatos, lo que plantea un desafío para crear metadatos completos y precisos en el SDE. Además, gran parte del contenido relevante para comprender y utilizar los datos estaba disperso en varios sitios web y repositorios de códigos, lo que dificultaba la tarea de identificar y seleccionar estas fuentes de información. » Según el investigador, esta es una de las razones que explican la elección de Sinequa: “una de las características que marcó la diferencia radica en la riqueza de conectores listos para usar que permiten explorar e indexar contenidos de múltiples fuentes y multitud de aplicaciones profesionales. Estos conectores permitieron al equipo de SDE integrar rápidamente contenido de la Dirección de Misiones Científicas y hacerlo apto para búsquedas. »

Para Luc Manigot, vicepresidente de Sinequa a cargo del centro de excelencia editorial, el lanzamiento de SDE es sólo un nuevo capítulo en la historia que la NASA está escribiendo con Sinequa. "Desde el punto de vista técnico, esta es la parte más visible de nuestra colaboración y probablemente también la más sencilla", explica. La PYME francesa, nacida de una investigación realizada en los años 1980 sobre la comprensión del lenguaje humano, trabaja desde hace varios años con el centro Marshall, un lugar histórico de la NASA que reúne a unas 7.000 personas. “Fuimos seleccionados para desarrollar un motor de búsqueda basándose en décadas de herencia informativa. Los equipos necesitaban una herramienta para acceder a este patrimonio, incluidos datos de ingeniería integrados en herramientas PLM o incluso documentos escaneados. Hemos llevado a cabo un trabajo de desnormalización del contenido de este patrimonio, integrando al mismo tiempo el modelo de seguridad asociado a esta información”, describe Luc Manigot.

Agregar funciones de IA generativa

Realizado entre 2019 y 2021, este proyecto, para el que se seleccionó a Sinequa por su capacidad de escanear fuentes de muy difícil acceso, permitió a la editorial ser reconocida dentro de la NASA y el ecosistema que la sustenta. rodeado. "Nos identificaron como el componente de investigación para este tipo de necesidad", afirma Luc Manigot. Este es especialmente el caso en el marco del programa Artemis, cuyo objetivo es regresar a la superficie lunar y, en última instancia, mantener allí una presencia humana más o menos continua. Sinequa también fue seleccionada por un socio clave de la Agencia, Northrop Grumman, fabricante estadounidense de defensa y espacio, presente en particular en la empresa conjunta Deep Space Transport, junto con Boeing. Esta empresa conjunta se encarga específicamente de la producción de los lanzadores utilizados durante las misiones Artemis.

Una prueba del tanque de hidrógeno líquido del sistema de lanzamiento espacial de las misiones Artemis, en un banco de pruebas en el Centro Espacial Marshall. (Foto: NASA)

El motor SDE pronto se enriquecerá con otros datos y contenidos. También están previstas mejoras en la interfaz de usuario y el desarrollo de API del motor. “El equipo también planea agregar una serie de funciones centradas en la ciencia, incluidos paneles de conocimiento y vistas de 360° integradas en el contenido. Por último, estamos creando prototipos de técnicas de investigación emergentes habilitadas por grandes modelos de lenguaje e IA generativa”, enfatiza Kaylin Bugbee. Luc Manigot precisa que la NASA y Sinequa están llevando a cabo un proyecto piloto sobre un enfoque RAG (Retrieval Augmented Generation). “Esta solución permitiría, por ejemplo, ofrecer a los usuarios de Internet un pequeño asistente que resumiría los primeros documentos recuperados por el motor. »