Recientemente anunciado, actualizando la familia de los modelos Genai Gemma 3 basados en Gemini 2.0, presentado por Google integra multimodalidad. Esto significa que pueden generar algo más que texto. En este caso, pueden analizar imágenes, para responder preguntas sobre ellas, para identificar objetos y otras tareas que involucran las imágenes. Según el proveedor, Gemma 3 admite las entradas y salidas de texto en las imágenes, administra las ventanas contextuales hasta 128k tokens e incluye más de 140 idiomas. También se han realizado mejoras a las matemáticas, el razonamiento y las capacidades de los gatos, en particular con respecto a las salidas estructuradas y el llamado a las funciones.
Gemma 3 está disponible en cuatro tamaños para desarrolladores: 1B, 4B, 12B y 27B, así como en versiones previamente capacitadas y adaptadas a instrucciones generales. "En la ventana contextual de 128k Tokens, Gemma 3 puede procesar e incluir grandes cantidades de información e abordar fácilmente tareas complejas", dijo el comunicado de prensa de Google.
Varias opciones de implementación
Los desarrolladores tienen varias opciones de implementación, incluidas Cloud Run y Google Genai API. Como una biblioteca LLM llamada "Ligero", Gemma 3 tiene una base de código revisada, con optimizaciones para la inferencia y el ajuste fino. Los pesos de los modelos Gemma 3 se pueden descargar de Kaggle y abrazando la cara. NVIDIA admite los modelos GEMMA 3 directamente para maximizar el rendimiento en GPU de todos los tamaños, desde Jetson Nano Chips hasta los aceleradores de Blackwell más recientes. Gemma 3 también está optimizado para Google Cloud TPUS y se integra con las GPU AMD. Para ejecutar Gemma 3 en GPU, los usuarios pueden usar gemma.cpp.
Google también ha anunciado ShieldGemma 2, un modelo de parámetros 4B basado en Gemma 3 que verifica la seguridad de las imágenes sintéticas y naturales en comparación con las categorías clave para construir conjuntos de datos y modelos robustos. ShieldGemma 2 se recomienda como un filtro de entrada para modelos de lenguaje de visión o como un filtro de salida para sistemas de generación de imágenes. "Con ShieldGemma 2, los desarrolladores pueden minimizar el riesgo de contenido dañino, incluido contenido sexualmente explícito, peligroso o violento", dijo Google.
Otras noticias que te pueden interesar