DeepSeek a prezentat un nou metode de antrenare a modelelor de IA, care reduce sarcina asupra memoriei fără a compromite eficiența. Compania chinezească a publicat o lucrare științifică despre tehnologia «hiperconexiune cu restricție pe varietate» (mHC), care permite crearea de modele competitive chiar și cu resurse computaționale limitate.
Soluționarea problemei scalabilității
O echipă de 19 cercetători de la DeepSeek au testat metoda mHC pe modele cu 3 miliarde, 9 miliarde și 27 miliarde de parametri. Rezultatele au arătat că noua tehnologie nu creează o sarcină de calcul semnificativă suplimentară în comparație cu metoda tradițională de hyperlinks (HC).
Abordarea de bază HC a apărut în septembrie 2024 datorită cercetătorilor de la ByteDance. Reprezintă o modificare a arhitecturii ResNet — sistemul dominant de învățare profundă, dezvoltat în 2015 de cercetătorii Microsoft Research Asia.
Arhitectura ResNet și limitările sale
ResNet ajută la păstrarea informațiilor importante în crearea rețelelor neuronale complexe cu un număr mare de straturi. Straturile rețelei sunt nivelurile de procesare a informațiilor în rețeaua neuronală. Imaginează-ți o rețea neuronală ca un edificiu cu mai multe etaje: datele intră pe primul etaj, sunt procesate, apoi sunt transmise pe al doilea etaj pentru o prelucrare suplimentară, apoi pe al treilea și așa mai departe. Fiecare astfel de "etaj" este un strat.
Pe fiecare strat, datele sunt analizate diferit — de exemplu, primele straturi pot recunoaște elemente simple, în timp ce cele finale pot detecta modele complexe. Cu cât mai mulți straturi, cu atât mai complexe pot fi problemele rezolvate de rețeaua neuronală, dar și cu atât mai dificil devine păstrarea informațiilor importante de la primul strat până la ultimul.
Cunoscutele modele OpenAI GPT și Google DeepMind AlphaFold funcționează pe tehnologia ResNet. Dar ResNet are un dezavantaj: informația care trece prin diferitele straturi ale rețelei poate deveni prea generală și să-și piardă unicitatea.
Hyperlinks reușesc să rezolve această problemă, extinzând fluxul de date rămase și creșterea complexității rețelei neuronale fără a modifica sarcina de calcul a blocurilor individuale. Dar în același timp crește sarcina de memorie, ceea ce împiedică scalarea arhitecturii pentru modele mari.
Avantajele metodei mHC
Noul abordare de la DeepSeek rezolvă problema memoriei și deschide calea pentru evoluția arhitecturilor următoarei generații. Compania menționează că metoda va ajuta la eliminarea limitărilor existente în antrenarea modelelor mari.
Publicarea reflectă cultura de deschidere a dezvoltatorilor chinezi AI, care împart o parte semnificativă din cercetările lor. Experti indică faptul că lucrările științifice ale DeepSeek arată adesea direcția tehnică a modelelor viitoare ale companiei.
Se așteaptă o nouă model mare de la DeepSeek în mijlocul lunii februarie. Metoda prezentată poate deveni baza pentru crearea unor sisteme AI mai eficiente în condiții de resurse limitate.
Opinia AI
Publicarea de la DeepSeek reflectă tendința globală de democratizare a tehnologiilor AI. Companiile chineze dezvoltă metode de optimizare activ în mod activ nu doar din cauza limitărilor de acces la chipuri avansate, ci și pentru a crea avantaje competitive pe piețele emergente, unde resursele de calcul sunt costisitoare.
Analiza istorică arată că progresele în eficiență schimbă adesea echilibrul de putere în cursele tehnologice. Metoda mHC poate deveni un catalizator pentru start-up-uri și grupuri de cercetare care nu dispun de resursele gigantilor tehnologici. Interesant este că publicarea deschisă a cercetărilor creează un paradox: împărtășind cunoștințele, companiile formează în același timp o ecologie în care modelele lor viitoare vor obține avantaje concurențiale datorită feedback-ului comunității de dezvoltatori.
#2025WithBinance #AI #DeepSeek #Write2Earn
