La startup china Veterano Hizo un gran ruido a fines de enero al revelar una versión de código abierto de su modelo de razonamiento, Deepseek-R1, reclamando el rendimiento superior a los de la transformación Pré-Rentity (ya sea la transformación previa al entrenamiento o GPT) O1 de OpenAi.
Esta noticia ha liderado a NVIDIA, el principal fabricante de las GPU solía alimentar a la IA en los centros de datos, para perder casi $ 600 MD de capitalización de mercado en un día, porque las innovaciones de Deepseek, según Gartner, parecen usar mucho para usar mucho Recursos menos avanzados, que ofrecen un rendimiento comparable al de otros LLM principales para una fracción del costo de estos.
"Los avances de profundidad profunda podrían conducir a soluciones de IA más accesibles y asequibles, pero también requieren un examen meticuloso de factores estratégicos, competitivos, de calidad y seguridad", dijo Ritu Jyoti, vicepresidente y director gerente de la investigación de IA, automatización, datos y analíticos dentro de la investigación y asesoramiento sobre el mercado de software IDC.
El enfoque dominante se empujó
Chirag Dekate, analista y vicepresidente de la firma de Gartner, especializada en tecnologías cuánticas, IA, I + D digital y tecnologías emergentes, cree que el mercado reacciona excesivamente a los detalles técnicos de lo que ha sido necesario para capacitar a Deepseek y a la fuente de innovación sí mismo.
"Esto alimenta la percepción de una oposición entre nosotros [Chirag Dekate exprimant un point de vue américain, NDLR] Y terceros aún desconocidos, así como un sentimiento de chovinismo o nacionalismo ”, explica. “Estas historias son esenciales porque capturan la imaginación más rápido que cualquier doble clic en la relación técnica. Los detalles hay menos glamorosos de lo que han dicho los titulares. »»
No se trata de descuidar las innovaciones de Deepseek. En una nota de investigación, Gartner indica que el editor chino pone en cuestión las estructuras de costos y las metodologías dominantes en términos de IA, destacando la ineficacia de los modelos de precios de los principales proveedores actuales que pueden conducir a comentarios negativos negativos, incluso para casos de uso con valor de uso y desplegado a gran escala.
"El modelo R1 de Deepseek representa, por lo tanto, un cambio decisivo, lo que sugiere que el futuro de la IA generativa se encuentra en enfoques innovadores y rentables en lugar del paradigma tradicional de la escala por la fuerza de cálculo puro", escribió los investigadores de Gartner, incluidos Haritha Khandabattu, Jeremy D'Oinne, Rita Sallam, Leinar Ramos y Arun Chandrasekaran, en una nota de investigación publicada la semana pasada.
Un juego más abierto
Peter Rutten, Vicepresidente de Investigación de High Performance IT dentro de IDC, explica que los resultados de Deepseek muestran que el enfoque actual de entrenamiento de IA, que se basa en la teoría de que la IA sí puede mejorar eso con arquitecturas más grandes, más numerosas y más rápidas, no está justificado. “Los nuevos enfoques en términos de algoritmo, marcos y software para el desarrollo de IA dan resultados comparables, si no mejores, que, por ejemplo, la última versión de ChatGPT. Alcanzan el mismo nivel de precisión para una fracción del costo en términos de infraestructura, explica. Esto significa que la capacitación de IA no necesita ser la prerrogativa de las grandes empresas que pueden permitirse invertir miles de millones de dólares en la construcción de una gran infraestructura. »»
El enfoque desarrollado por Deepseek muestra que el desarrollo de una IA generativa a gran escala está al alcance de una gran cantidad de empresas desde el punto de vista del costo y la impronta ambiental. "Las iniciativas de IA promedio o pequeñas también se vuelven mucho más asequibles, incluida la personalización o la configuración fina de un modelo, así como la inferencia en un modelo", agrega. Creo que la IA se volverá asequible, tal vez, con el tiempo, tan asequible como cualquier aplicación, gracias al tipo de tecnologías desarrolladas por Deepseek. »»
Un profundo interés en los CIO
Chirag Dekate cree que la noticia sobre Deepseek recuerda una vez más la aceleración de la innovación de IA. Por lo tanto, los CIO deben explorar el Genai sin demora, si aún no se ha hecho, no se ha hecho, lo que su estrategia puede volverse obsoleta. "Los CIO tienen la opción entre dar el paso, comenzar a experimentar, crear estrategias generativas de IA, implementación e implementación hoy, o retrasar tanto que ya no será posible ponerse al día", dijo.
Incluso si el mercado reacciona excesivamente a los anuncios de Deepseek, el analista de Gartner cree que es una señal clara que muestra a los CIO que ya no pueden esperar esperar. "Deepseek muestra que los vectores de costos de Gebnai están en proceso de optimización", dice.
Ritu Jyoti D'Idc señala que Kai-Fu Lee, presidente y director ejecutivo de Sinovation Ventures, quien fue director fundador de Microsoft Research Asia y ex presidente de Google China, predijo el año pasado que las nuevas empresas especializadas en el allí se centrarían en creando ganancias de eficiencia. "Al buscar en sus métodos, es obvio que todo gira en torno al fortalecimiento y cómo lo usan", dice el analista. La mayoría de los modelos de idiomas utilizan una combinación de pre-entrenamiento, supervisaron el ajuste fino, luego fortalecen el aprendizaje para refinar los resultados. El enfoque de Deepseek muestra que los LLM son capaces de razonar con el único aprendizaje fortaleciéndose. »»
Optimización, no un cambio de paradigma
Deepseek-R1 es un nuevo LLM cuyos parámetros y pesos están abiertos ('peso abierto'). Se basa en el modelo Deepseek-V3. Deepseek-r1-cero es un modelo provisional impulsado solo por el fortalecimiento (RL o el aprendizaje de refuerzo). Según Gartner, demuestra que los proveedores de modelos pueden usar la única técnica RL para aumentar las capacidades de una IA en ciertas áreas, como las matemáticas y la codificación, donde las respuestas son difíciles de generar, pero fáciles de verificar.
Pero, para los analistas de Gartner, el modelo Deepseek no es un cambio de paradigma. Más bien, se basa en la arquitectura de capacitación LLM existente, agregando optimizaciones técnicas y arquitectónicas para que esta capacitación y la inferencia sean más efectivas. Deepseek tampoco establece un nuevo estado de arte en términos de rendimiento modelo. Los investigadores de Gartner señalan que este último a menudo equivale a los modelos de corte existentes, pero sin excederlos. Y enfatizar que Deepseek no es una prueba de que modelar modelos a través de la potencia informática y los datos adicionales no importa. Por el contrario, demuestra que es rentable escalar un modelo más efectivo.
"El lanzamiento de la versión Deepseek R1 y su precio de inferencia significativamente más bajo que el del modelo de previsión O1 de OpenAi van de la mano con la trivialización de la capa basada en los modelos LLM, escriben. Esto significa que la eficiencia ya no es un cuestión de costo por token. a la cantidad de cálculo que puede ensamblar para construirlo.
Hacia una reducción en los costos de LLM
De acuerdo con su colega Chirag Dekate, los investigadores de Gartner señalan que a raíz del anuncio de Deepseek, otros modelos de modelos como Meta han regresado a la mesa de trabajo y reaccionarán. Por lo tanto, los CIO deben esperar una reducción rápida, a corto y mediano plazo en el costo de LLM, pero solo en cierta medida. "Estas innovaciones de software y algorítmico también permiten a los vendedores de modelos hacer más con equipos más potentes, escribir analistas. Los nuevos modelos más avanzados siempre tendrán altos costos de I + D y cálculo que se transmitirán a los primeros usuarios.» »
Los analistas de Forrester Carlos Casanova, Michele Pelino y Michele Goetz también señalan que DSI debería esperar que Deepseek tenga un impacto en las tecnologías de IT, AIOP y operaciones de TI. En particular, Deepseek tiene la capacidad de explicar sus respuestas predeterminadas, ofreciendo transparencia crucial para establecer la confianza y la comprensión de las decisiones tomadas por la IA en las soluciones AIOPS.
"Con los dispositivos de computación de LLM en el borde, AIOPS y la observabilidad pueden alcanzar nuevos niveles de análisis y automatización en tiempo real, escriben. La integración de LLM más pequeña capaz de operar en la periferia, como Deepseek R1, con funciones AIOPS también puede conducir a Mantenimiento más proactivo y predictivo de dispositivos e infraestructura, o a la llegada de acciones atenuación de riesgos sin intervención humana.
Otras noticias que te pueden interesar