GCP ha actualizado su servicio de computación administrada Cloud Run con una función que permitirá a las empresas ejecutar sus aplicaciones de inferencia de IA en tiempo real utilizando modelos de lenguaje grandes (LLM) en GPU Nvidia L4. Esta función es importante para los desarrolladores, ya que la compatibilidad con las GPU Nvidia mejorará las capacidades de Cloud Run al acelerar el tiempo de computación necesario para la inferencia y ayudar a reducir los gastos. Cloud Run, que se presentó por primera vez en abril de 2019, ofrece a las empresas la capacidad de ejecutar contenedores sin estado que se invocan a través de solicitudes HTTP. El servicio de computación administrado o sin servidor también está disponible en Google Kubernetes Engine (GKE), lo que permite a los desarrolladores ejecutar cargas de trabajo HTTP en contenedores en un clúster de Kubernetes administrado. Se podría decir que el servicio es popular entre los desarrolladores porque ejecuta computación o cargas de trabajo a pedido, un marcado contraste con una instancia de nube típica que se ejecuta durante una duración específica y siempre está disponible.

Sin embargo, la creciente demanda de la capacidad de ejecutar cargas de trabajo de IA, además a través de un servicio de computación sin servidor, ha obligado a Google a agregar compatibilidad con GPU a Cloud Run. Según los analistas, la combinación de compatibilidad con GPU y la naturaleza sin servidor del servicio debería beneficiar a las empresas que intentan ejecutar cargas de trabajo de IA, ya que con Cloud Run no necesitan comprar y movilizar recursos de computación de hardware locales y no gastan relativamente más en ejecutar una instancia de nube típica. “Cuando tu aplicación no está en uso, el servicio se reduce automáticamente a cero, por lo que no se te cobra”, escribió Google en una publicación de blog.El hiperescalador dice que la función abre nuevos casos de uso para los desarrolladores, incluida la inferencia en tiempo real con modelos abiertos livianos como Gemma (2B/7B) de Google o Llama 3 (8B) de Meta para crear chatbots personalizados o resumir documentos sobre la marcha, mientras se escala para manejar el tráfico irregular de usuarios. Otro caso de uso es brindar modelos de IA genéricos personalizados, como generar imágenes que se adapten a la marca de su empresa y reducir la escala para optimizar los costos cuando nadie las usa. Además, Google dijo que el servicio se puede usar para acelerar los servicios Cloud Run de uso intensivo de cómputo, como el reconocimiento de imágenes a pedido, la transcodificación y transmisión de video y la renderización 3D.

¿Cuales son los límites?

Para empezar, las empresas pueden estar preocupadas por el arranque en frío, algo que ocurre con frecuencia en los servicios sin servidor. El arranque en frío se refiere al tiempo que tarda el servicio en cargarse antes de ejecutarse activamente. Esto es importante para las empresas porque tiene una relación y un efecto directos en la latencia. Por ejemplo, el tiempo que tarda el LLM en responder a una solicitud de usuario a través de una aplicación empresarial. Sin embargo, Google parece haber tomado cartas en el asunto. “Las instancias de Cloud Run con una GPU L4 con un controlador preinstalado se iniciarán en unos 5 segundos, después de lo cual los procesos que se ejecutan en su contenedor pueden comenzar a usar la GPU. Después de eso, necesitará unos segundos más para que el marco y el modelo se carguen e inicialicen”, explica la empresa en su publicación de blog.

Además, para reforzar aún más la confianza de las empresas en esta función de Cloud Run, el hiperescalador ha proporcionado tiempos de arranque en frío para varios modelos livianos. Los tiempos de arranque en frío para Gemma 2b, Gemma2 9b, Llama2 7b/13b y Llama3.1 8b con el marco Ollama varían de 11 a 35 segundos, escribe el proveedor, y agrega que la duración proporcionada mide el tiempo que lleva iniciar una instancia desde cero, cargar el modelo en la GPU y que LLM devuelva su primera palabra. Otros marcos compatibles con el servicio incluyen vLLM y PyTorch. Cloud Run también se puede implementar a través de Nvidia NIM.