Nous lanza Lighthouse Attention: corre un B200 y acelera 17 veces procesando 512K
Nous Research ha liberado el mecanismo de preentrenamiento de largo contexto Lighthouse Attention. Al procesar texto de 512K en una sola GPU B200, esta solución es aproximadamente 17 veces más rápida que los mecanismos tradicionales, y logra una aceleración de 1.4 a 1.7 veces en el entrenamiento de extremo a extremo con textos de 98K.
Los mecanismos de atención tradicionales requieren calcular las relaciones entre cada par de palabras, lo que hace que el consumo de poder computacional se dispare cuadráticamente a medida que el texto se alarga. Lighthouse Attention cambia el enfoque a un proceso de filtrado grueso seguido de un cálculo fino. Primero, examina rápidamente un resumen comprimido del texto en diferentes niveles, seleccionando segmentos clave para formar un texto corto, que luego se pasa directamente a un operador eficiente como FlashAttention para su procesamiento. Al desviar completamente la lógica de filtrado fuera del núcleo, los desarrolladores evitan la molestia de tener que escribir código de bajo nivel y no necesitan establecer objetivos de entrenamiento adicionales.
Las soluciones de aceleración anteriores que usaban un enfoque similar a menudo tenían efectos secundarios; cuando el modelo se acostumbraba a la lectura salteada, perdía fácilmente la capacidad de leer palabra por palabra. Para evitar esta trampa, el equipo de desarrollo hizo que el modelo completara la mayor parte del progreso en modo acelerado, y solo al final del entrenamiento se revertía brevemente al cálculo de atención completa tradicional para una leve adaptación. En pruebas con un modelo de 5.3 millones de parámetros y alimentando 500 mil millones de Tokens de datos de entrenamiento, el modelo así entrenado no solo redujo significativamente el tiempo de entrenamiento, sino que su rendimiento también igualó e incluso superó al de la versión base que utilizó el método tradicional todo el tiempo.
#AI #AIAgent $AI