Recientemente anunciado, actualizando la familia de los modelos Genai Gemma 3 basados ​​en Gemini 2.0, presentado por Google integra multimodalidad. Esto significa que pueden generar algo más que texto. En este caso, pueden analizar imágenes, para responder preguntas sobre ellas, para identificar objetos y otras tareas que involucran las imágenes. Según el proveedor, Gemma 3 admite las entradas y salidas de texto en las imágenes, administra las ventanas contextuales hasta 128k tokens e incluye más de 140 idiomas. También se han realizado mejoras a las matemáticas, el razonamiento y las capacidades de los gatos, en particular con respecto a las salidas estructuradas y el llamado a las funciones.

Gemma 3 está disponible en cuatro tamaños para desarrolladores: 1B, 4B, 12B y 27B, así como en versiones previamente capacitadas y adaptadas a instrucciones generales. "En la ventana contextual de 128k Tokens, Gemma 3 puede procesar e incluir grandes cantidades de información e abordar fácilmente tareas complejas", dijo el comunicado de prensa de Google.

Varias opciones de implementación

Los desarrolladores tienen varias opciones de implementación, incluidas Cloud Run y ​​Google Genai API. Como una biblioteca LLM llamada "Ligero", Gemma 3 tiene una base de código revisada, con optimizaciones para la inferencia y el ajuste fino. Los pesos de los modelos Gemma 3 se pueden descargar de Kaggle y abrazando la cara. NVIDIA admite los modelos GEMMA 3 directamente para maximizar el rendimiento en GPU de todos los tamaños, desde Jetson Nano Chips hasta los aceleradores de Blackwell más recientes. Gemma 3 también está optimizado para Google Cloud TPUS y se integra con las GPU AMD. Para ejecutar Gemma 3 en GPU, los usuarios pueden usar gemma.cpp.

Google también ha anunciado ShieldGemma 2, un modelo de parámetros 4B basado en Gemma 3 que verifica la seguridad de las imágenes sintéticas y naturales en comparación con las categorías clave para construir conjuntos de datos y modelos robustos. ShieldGemma 2 se recomienda como un filtro de entrada para modelos de lenguaje de visión o como un filtro de salida para sistemas de generación de imágenes. "Con ShieldGemma 2, los desarrolladores pueden minimizar el riesgo de contenido dañino, incluido contenido sexualmente explícito, peligroso o violento", dijo Google.