DeepSeek presentó un nuevo método de entrenamiento de modelos de IA que reduce la carga en la memoria sin perder eficacia. La empresa china publicó un trabajo científico sobre la tecnología de «hipervínculo con restricción de diversidad» (mHC), que permite crear modelos competitivos con recursos computacionales limitados.

Solución al problema de escalabilidad

Un grupo de 19 investigadores de DeepSeek probó el método mHC en modelos con 3 mil millones, 9 mil millones y 27 mil millones de parámetros. Los resultados mostraron que la nueva tecnología no genera una carga computacional adicional significativa en comparación con el método tradicional de hipervínculos (HC).

El enfoque básico de HC surgió en septiembre de 2024 gracias a investigadores de ByteDance. Es una modificación de la arquitectura ResNet, el sistema dominante de aprendizaje profundo, que fue desarrollado en 2015 por científicos de Microsoft Research Asia.

La arquitectura ResNet y sus limitaciones

ResNet ayuda a conservar información importante al crear redes neuronales complejas con muchas capas. Las capas de la red son niveles de procesamiento de información en la red neuronal. Imagina la red neuronal como un edificio de varios pisos: los datos llegan al primer piso, se procesan, luego se envían al segundo piso para un procesamiento adicional, luego al tercero y así sucesivamente. Cada uno de esos "pisos" es una capa.
En cada capa, los datos se analizan de manera diferente; por ejemplo, las primeras capas pueden reconocer elementos simples, mientras que las últimas captan patrones complejos. Cuantas más capas hay, más complejas son las tareas que la red neuronal puede resolver, pero también más difícil es conservar información importante desde la primera capa hasta la última.

Las tecnologías ResNet son utilizadas por modelos conocidos de OpenAI GPT y Google DeepMind AlphaFold. Pero ResNet tiene una desventaja: la información, al pasar a través de diferentes capas de la red, puede volverse demasiado general y perder su singularidad.

Los hipervínculos manejan con éxito este problema, ampliando el flujo de datos residuales y aumentando la complejidad de la red neuronal sin cambiar la carga computacional de bloques individuales. Pero, al mismo tiempo, aumenta la carga en la memoria, lo que dificulta escalar la arquitectura para modelos grandes.

Ventajas del método mHC

El nuevo enfoque de DeepSeek resuelve el problema de la memoria y abre el camino para la evolución de arquitecturas de próxima generación. La empresa señala que el método ayudará a eliminar las limitaciones existentes al entrenar modelos grandes.

La publicación refleja la cultura de apertura de los desarrolladores de IA en China, que comparten una parte significativa de sus investigaciones. Los expertos señalan que los trabajos científicos de DeepSeek a menudo muestran la dirección técnica de los futuros modelos de la empresa.

Se espera un nuevo modelo grande de DeepSeek a mediados de febrero. El método presentado puede convertirse en la base para la creación de sistemas de IA más eficientes con recursos limitados.

Opinión de IA

La publicación de DeepSeek refleja la tendencia global de democratización de las tecnologías de IA. Las empresas chinas están desarrollando activamente métodos de optimización no solo debido a las restricciones de acceso a chips avanzados, sino también para crear ventajas competitivas en mercados emergentes, donde los recursos computacionales son costosos.

El análisis histórico muestra que los avances en eficiencia a menudo cambian el equilibrio de poder en las carreras tecnológicas. El método mHC puede convertirse en un catalizador para startups y grupos de investigación que no cuentan con los recursos de los gigantes tecnológicos. Curiosamente, la publicación abierta de investigaciones crea una paradoja: al compartir conocimientos, las empresas simultáneamente forman un ecosistema donde sus propios modelos futuros obtendrán ventajas competitivas gracias a la retroalimentación de la comunidad de desarrolladores.

#2025WithBinance #AI #DeepSeek #Write2Earn

$BNB

BNB
BNB
870.16
-0.95%