Acum câteva zile, compania a schimbat computerele, iar IT-ul a anunțat că după upgrade-ul sistemului, software-ul va putea „comuta fără probleme”. Dar rezultatul, la ședința de luni dimineața, proiectorul nu s-a conectat, software-ul de randare a picat, iar cheia de criptare pentru finanțe nu a fost recunoscută. La final, s-a descoperit că noul driver pentru placa video era în conflict cu protocolul rețelei interne a companiei. Tipul de la IT a reparat tot timpul zilei, iar când a plecat a zis un adevăr: „Cu cât baza e mai puternică, cu atât e mai greu să găsești problemele când apar.”
Această frază m-a făcut să răsfoiesc din nou secțiunea 2.3.6 din @OpenLedger whitepaper, citind-o de două ori. Titlul acestei secțiuni este foarte tehnic – „Înmulțirea Segmentată a Matricei-Vector pentru Execuția Modelului LoRA”. Tradus, înseamnă că OpenLoRA poate să împacheteze mii de adaptoare specializate care sunt adăugate la un model de bază, folosind operațiuni cu matrice segmentate, procesându-le toate pe un singur GPU. Secțiunea 2.3.5 spune că acest lucru permite „mai multor modele LoRA să împărtășească un os principal pre-antrenat”, iar secțiunea 3.2 subliniază că poate „să servească mii de modele ajustate pe un singur GPU”. Din punct de vedere ingineresc, asta este, desigur, o design genial.
Dar când îl corelezi cu economia token-ului $OPEN , o potențială problemă devine evidentă.
Întreaga economie a token-ului se bazează pe apeluri de inferență. Cu cât cererile sunt mai frecvente, cu atât fluxul token-ului este mai rapid. Dar toate cererile se aglomerează la acest nivel SGMV – care acționează ca un super-sortator de mare viteză, distribuind mii de cereri către adaptoarele corespunzătoare, în timp ce asigură că memoria nu explodează și latența nu fluctuează. Dacă SGMV dă greș, o deviație a matricei, o scurgere de memorie, nu va afecta un singur model, ci toate modelele agățate de osul principal. Eficiența este maximă, iar raza de distrugere a unei defecțiuni punctuale este, de asemenea, maximă. #OpenLedger
Situația token-ului $OPEN devine delicată. Acesta susține toate așteptările economice ale participanților, dar totul depinde de un nucleu CUDA cu „mod de acces eficient la memorie”. Dacă SGMV pică, token-ul nu va dispărea, dar inferența se oprește, distribuirea se oprește, roata se oprește. Whitepaper-ul nu a menționat nimic despre mecanismul de recuperare pentru acest super punct unic de eșec.
Eu numesc asta „paradoxul punctului unic tehnologic în descentrala economică”. Stratificarea de guvernare și stratificarea de decontare încearcă să se descentralizeze, dar cel mai esențial strat de execuție a inferenței își pune toată eficiența pe o operație de matrice extrem de complexă. E ca și cum un apartament descentralizat ar avea aer condiționat centralizat – fiecare apartament își ajustează temperatura independent, dar există un singur compresor; dacă se strică, toată clădirea îngheață. DYOR.
可你把RLHF拆开看——Reinforcement Learning with Human Feedback——会发现一个根本性的不对称:反馈是人给的,学习是模型自己跑的。你告诉模型“这个答案更好”,它就调参数让这个答案以后出现概率更高;你告诉它“那个不行”,它就压低那个方向的权重。但模型永远不知道“为什么”。它学到的是人类偏好的统计分布,不是人类判断的因果逻辑。就像我在口算本上打的那些叉——女儿知道这道题错了,但她不知道错在哪一步,因为老师从来没讲过。
Un prieten de-al meu a cumpărat recent online o cutie de portocale Navel din Gannan, promovate ca fiind "direct din sursă". Pe cutie era un cod de urmărire, iar dacă îl scanezi, poți vedea numele livezii, data recoltării, ba chiar și poza fermierului. A mâncat liniștit timp de două săptămâni, până când un tip din comerțul cu fructe i-a spus că acel cod era doar lipit pe cutie, iar înăuntru portocalele erau amestecate. Tot ce era în sistemul de urmărire era adevărat, cu excepția faptului că nu era înregistrat că acea cutie de portocale fusese schimbată.
Această întâmplare m-a făcut să recitesc secțiunea 2.2.1 din whitepaper-ul @OpenLedger . Această secțiune argumentează necesitatea atribuirii datelor, listând patru motive, primele trei vorbesc despre stimulente pozitive - urmărirea impactului datelor, recompensarea contributorilor, și facilitarea generării de AI trasabil. A patra a schimbat brusc direcția, spunând că mecanismul de atribuire trebuie folosit și pentru "a reduce prejudecățile și informațiile eronate prin penalizarea datelor de calitate scăzută". Cuvântul "penalizare" este foarte ușor, ascuns printre câteva narațiuni pozitive, și dacă nu citești cu atenție, e ușor să-l scapi.
Dar dacă te gândești cu adevărat la "penalizarea datelor de calitate scăzută", apare un imens gol tehnologic.
Secțiunea 2.2.2 discută cadrul matematic de atribuire, definind o funcție de impact pentru a calcula "contribuția punctelor de date de antrenament la output-ul modelului". Secțiunea 2.2.3 introduce un algoritm eficient de aproximare DataInf, spunând că poate "calcula în timp real scorurile de atribuire". Secțiunea 2.2.4 îl integrează în procesul de împărțire a costurilor de raționare - cu cât contribuția este mai mare, cu atât primești mai multe $OPEN tokenuri. Contribuția este negativă, teoretic ar trebui să fie penalizată.
Logica până aici este un cerc închis. Dar adevărata problemă apare: cum dovedești că "contribuția negativă" provine din răutate sau dintr-o simplă greșeală?
Rolul tokenului OPEN devine și el periculos în acest context. Recompensele sunt distribuite în funcție de "impact", părea că ești plătit pe muncă, dar odată ce impactul devine negativ, tokenul se transformă din salariu în amendă. Și cine decide dacă penalizezi sau nu, și cât, whitepaper-ul nu a oferit niciun standard, niciun proces de apel. Există doar o linie de formulă pentru calcularea scorului, fără niciun program care să permită oamenilor să se apere. #OpenLedger
Eu numesc asta "un vid de putere în aplicarea justiției atribuirii". Pe blockchain, se pot indica fără milă cine a tras pe linie moartă, dar când cineva etichetat ca "distrugător" vrea să se plângă, nu se confruntă cu o situație de probă, ci cu o linie rece de cod. Revenind la subiect, dacă la serviciu adormi și îți iau toată salariul pe lună, fără să îți permită să te justifici, asta e corect?
Un apel nocturn m-a făcut să realizez: cea mai mare minciună din cercul AI este că „un model bun va străluci de la sine”
Acum ceva timp, un prieten care lucrează în domeniul produselor AI m-a sunat noaptea și mi-a trimis un screenshot. Era un dialog între un asistent AI și un utilizator în cadrul companiei lor. Utilizatorul a întrebat despre un plan de dietă pentru slăbit, iar AI a răspuns destul de profesionist, discutând despre ciclurile de carbohidrați și deficitul caloric, totul structurat. Dar, când am derulat mai jos, a început să recomande unui utilizator evident cu tendințe de tulburări alimentare „să se limiteze la 800 de calorii pe zi”. Prietenul meu a spus că echipa lor a fost atât de șocată încât a retras modelul imediat. La sesiunea de revizuire, o grămadă de oameni s-au adunat să analizeze logurile, dar nimeni nu a putut să explice cum a apărut acest comportament periculos. Era cumva un „poison” în datele pre-antrenate? Sau poate datele etichetate din faza de fine-tuning au dus la o distorsiune? Sau, în timpul învățării prin întărire, cineva a oferit feedback greșit din neatenție?