≫ Imagen, codificación, búsqueda multimodal: Microsoft Copilot mejora

“Hoy, además de celebrar el primer año de microsoft Copilot, hemos anunciado varias funciones de Copilot que están comenzando a implementarse”, indicó Microsoft el 5 de diciembre. Así que aquí presentamos un vistazo más de cerca a algunas de estas funciones.

En primer lugar, está el GPT-4 Turbo. "Pronto, Copilot podrá generar respuestas utilizando el último modelo de OpenAI, GPT-4 Turbo, lo que le permitirá abordar tareas más complejas y que requieren más tiempo, como escribir código y más", dice la empresa en su blog. Recordemos que esta versión Turbo fue presentada el pasado mes de noviembre durante la Conferencia del día del desarrollador de OpenAI. Este LLM se caracteriza por tres elementos: la extensión del contexto, los conocimientos más actualizados y el precio. Por el momento, este modelo está siendo probado por determinados usuarios de Copilot y se integrará permanentemente en la herramienta en las próximas semanas. También es nuevo el modelo DALL-E 3. "Ahora puede utilizar Copilot para crear imágenes de calidad y precisión aún mayores con el modelo DALL-E 3 actualizado". Los usuarios pueden acceder a él ahora a través de la página. bing.com/create o pidiéndole a Copilot que cree una imagen. El modelo aporta claramente su especificidad con detalles más realistas.

Aquí, un estegosaurio fotorrealista cuyas placas óseas son mantenidas en un salón de manicura. (Crédito: Microsoft)

Procesamiento multimodal e intérprete de código llegan a Copilot

El procesamiento multimodal también está haciendo su aparición en Copilot con la herramienta Search Grounding. Este último combina “el poder de GPT-4 con la búsqueda de imágenes de Bing y los datos de búsqueda web”, afirma la firma de Redmond. Objetivo: proporcionar una mejor comprensión de la imagen para consultas. En palabras de la firma, "un sistema multimodal tradicional sería capaz de describir la imagen de forma genérica, pero mediante la investigación podemos identificar la versión exacta y el día de su lanzamiento". Por lo tanto, Microsoft ha brindado el beneficio de esta actualización a Prometheus, su modelo de IA patentado que combina los recientes y completos resultados de índice, clasificación y respuesta de Bing con las capacidades de razonamiento creativo de los modelos GPT más avanzados. de OpenAI. Tenga en cuenta que esta función aún no está disponible.

Un intérprete de código también forma parte de la actualización. Esta característica ayuda al usuario a realizar tareas complejas como cálculos más precisos, codificación, análisis de datos, visualización, matemáticas, etc. “Copilot escribirá código para responder a sus solicitudes complejas de lenguaje natural, ejecutará ese código en un entorno sandbox y utilizará el resultados para brindarle respuestas de mayor calidad”. También es posible cargar archivos desde y hacia Copilot, para que pueda trabajar con sus propios datos y código, así como con los resultados de búsqueda de Bing. Code Interpreter realiza tareas de ciencia de datos escribiendo y luego ejecutando código Python en Azure Container Apps, agrega la firma. Por el momento, la herramienta se encuentra en fase de prueba entre un pequeño grupo de usuarios seleccionados y pronto debería ofrecerse a todos.

Finalmente, la actualización trae una herramienta de comprensión por video con un sistema de preguntas y respuestas en Edge. “Ahora puedes resumir o hacer preguntas sobre un video que estás viendo en Edge. Por ejemplo, si ve el vídeo de YouTube de la última conferencia Ignite de Satya Nadella, puede pedirle a Copilot que lo resuma”, dice Microsoft.

Esta herramienta ayuda en particular a buscar un pasaje específico de un vídeo. (Crédito: Microsoft)

Si quieres conocer otros artículos parecidos a Imagen, codificación, búsqueda multimodal: Microsoft Copilot mejora puedes visitar la categoría Otros.