En abril, Meta ha publicado Un artículo sobre un nuevo enfoque de entrenamiento para LLM mejores y más rápidos utilizando predicción de múltiples tokens. Este último enfoque rompe con el método tradicional de entrenamiento de LLM para predecir solo la siguiente palabra en una secuencia. En cambio, el enfoque de la empresa matriz de Facebook pide a los modelos que predigan múltiples palabras futuras simultáneamente, lo que promete un mayor rendimiento y tiempos de entrenamiento significativamente reducidos. Al predecir múltiples palabras a la vez, estos modelos pueden desarrollar una comprensión más matizada de la estructura y el contexto del lenguaje. Esto podría conducir a mejoras en tareas que van desde la generación de código hasta la redacción de contenido, lo que podría cerrar la brecha entre la IA y la comprensión del lenguaje a nivel humano.

“Los modelos de lenguaje grandes, como GPT y Llama, se entrenan con una pérdida de predicción del siguiente token”, explica Meta. “Entrenar modelos de lenguaje para predecir múltiples tokens futuros simultáneamente logra una mayor eficiencia de muestreo. Específicamente, en cada posición en el corpus de entrenamiento, le pedimos al modelo que prediga los siguientes n tokens utilizando n secuencias de salida independientes, operando sobre un tronco de modelo compartido. Al tratar la predicción de múltiples tokens como una tarea de entrenamiento auxiliar, medimos la mejora en las capacidades posteriores sin sobrecarga de tiempo de entrenamiento tanto para el código como para los modelos de lenguaje natural”.

Resolución de problemas significativamente mejorada

Según el proveedor, las ganancias son particularmente pronunciadas en los puntos de referencia generativos, como la codificación, donde sus modelos superan consistentemente a los modelos de referencia de mejor rendimiento por varios puntos. Se informa que los modelos de 13B parámetros de Meta resuelven un 12 % más de problemas en HumanEval y un 17 % más en MBPP que los modelos comparables de siguiente token. “Los experimentos en pequeñas tareas algorítmicas demuestran que la predicción de múltiples tokens funciona mejor”, afirma también Meta. “Además, los modelos entrenados con predicción de 4 rasgos son hasta 3 veces más rápidos para la inferencia, incluso con tamaños de lote grandes”.

Para permitir que los investigadores continúen su exploración, el grupo publicado en HuggingFace Modelos entrenados previamente para completar código utilizando este enfoque. Estos 7 mil millones de modelos de parámetros son: modelo base (n=1) entrenado en 200B tokens de código (7B_200B_1/), modelo de predicción de múltiples tokens (n=4) entrenado en 200B tokens de código (7B_200B_4/), modelo base (n=1) entrenado en 1T tokens de código (7B_1T_1/) y modelo de predicción de múltiples tokens (n=4) entrenado en 1T tokens de código (7B_1T_4/).