Hasta entonces, disponible en Azure Ai Foundry, el pequeño modelo de lenguaje Phi-4 Microsoft (14 mil millones de parámetros) ahora se ofrece en código abierto en Huggingface por Microsoft. Según la licencia MIT, PHI-4 reclama el rendimiento por encima de Google Gemini Pro 1.5 y OpenAI GPT-4O. Según el editor, este SLM (modelo de lenguaje pequeño), Anunciado en diciembre pasadoalcanza las notables capacidades de razonamiento matemático mientras consume menos recursos de TI que los competidores. “Nos sorprendió completamente la recepción reservada para el lanzamiento de PHI-4. Mucha gente nos pidió que lo dejaramos de pesas. Algunos incluso descargaron versiones pirateadas PHI-4 en Huggingface. Bueno, no esperes más. ¡Hoy estamos publicando el modelo PHI-4 oficial en Huggingface! Con la licencia del MIT! " alegrarse Shital Shah, Investigador de máquinas Aprendizaje y LLM en Microsoft.
El proveedor define PHI-4 como un modelo de tiempo abierto creado a partir de una mezcla de conjuntos de datos sintéticos de sitios web web en el dominio público filtrado, literatura universitaria y preguntas de preguntas y respuestas. “El objetivo de este enfoque era garantizar que los modelos pequeños se formen con datos de alta calidad y razonamiento avanzado. PHI-4 ha sido objeto de un riguroso proceso de mejora y alineación, incorporando un ajuste fino supervisado y una optimización directa de las preferencias para garantizar la adhesión precisa a las instrucciones y las medidas de seguridad sólidas ”, explicar Microsoft.
Robustez y seguridad no olvidadas
Según la firma Redmond, PHI-4 está diseñado para acelerar la investigación sobre modelos de idiomas, con el fin de usar como un elemento básico para las funciones alimentadas por el Genai. Permite en particular usar los sistemas y aplicaciones de IA para uso general (principalmente en inglés) que requieren entornos con memoria y limitaciones de cálculo, escenarios de latencia limitados, así como razonamiento y lógica. Además, este SLM ha adoptado un enfoque robusto y seguro posterior a la capacitación.
“Este enfoque se basa en una variedad de conjuntos de datos sintéticos de origen abierto y generados internos. La técnica global utilizada para alinear la seguridad es una combinación de SFT (ajuste fino supervisado) y DPO iterativo (optimización de preferencias directas), incluidos los conjuntos de datos accesibles para el público ", dice la compañía.
Otras noticias que te pueden interesar