Šobrīd notiek saruna par AI, kas gandrīz nekad nenonāk kripto Twitter.
Neiet runa par to, kurš modelis ir gudrāks. Neiet runa par AGI termiņiem vai tokenu cenām. Tas ir par kaut ko daudz garlaicīgāku un daudz svarīgāku. Kā tu patiesībā vari palaist tūkstošiem specializētu AI modeļu, nepārmaksājot par resursiem?
Lielākā daļa cilvēku, kas būvē šajā jomā, par to nedomā, līdz saskaras ar problēmu. Tu pielāgo modeli konkrētai uzdevumam, piemēram, medicīnas vaicājumiem, juridiskai sagatavošanai, klientu atbalstam trīs valodās. Tas strādā. Pēc tam tu mēģini to paplašināt. Un tu saproti, ka katram modelim ir nepieciešama sava GPU instance. Katrs jauns lietošanas gadījums reizinās tavu infrastruktūras rēķinu. Ekonomika sabrūk pirms produkts.
Šī ir problēma, ko OpenLoRA tika izstrādāts, lai atrisinātu. Un tas netika izveidots kā blakus funkcija; tas tika palaists kā patstāvīgs atvērtais protokols 2025. gada 1. jūlijā, īpaši mērķējot uz izvietošanas izmaksu krīzi specializētajā AI.
Šeit ir tas, ko tā patiesībā dara citādi. Tradicionālā izvietošana iepriekš ielādē modeļus GPU atmiņā un tur tos tur. Ja tev ir divdesmit pielāgotas variācijas, tev vajag divdesmit ielādētas instances. Atmiņa piepildās. Izmaksas multiplizējas. OpenLoRA neko iepriekš neielādē. LoRA adapteri, mazi parametru faili, kas pārstāv pielāgošanu, paliek neaktīvi, līdz pienāk pieprasījums. Kad pieprasījums ierodas, pareizais adapters ielādējas tieši laikā, dinamiski apvienojas ar kopējo bāzes modeli, veic secinājumu un atbrīvojas. GPU satur vienu bāzes modeli un apstrādā adapterus pēc pieprasījuma. Publiskie skaitļi no testiem vairākos aparatūras vidēs: 20ms latentums augstās vienlaicības apstākļos, mazāk nekā 12GB VRAM, lai apkalpotu tūkstošiem adapteru vienlaicīgi, tokenu ģenerēšana vairāk nekā četras reizes ātrāk nekā tradicionālās pieejas.

OpenLoRA v2.0 ir pašreizējā versija, kas ir uzlabota paralelizācija, ciešāka atribūtu izsekošanas integrācija, tāpēc katrs secinājums saglabā on-chain datu pēdas, kas savieno izejas atpakaļ uz Datanets līdzdalībniekiem, kuru dati veidoja modeli. Šī integrācijas detaļa ir svarīga, jo tas nozīmē, ka mērogojot ar OpenLoRA, netiek pārtraukta atribūtu ķēde. Tavas izvietošanas izmaksas samazinās, un līdzdalībnieku atlīdzības sistēma turpina darboties.
Ražošanas infrastruktūrai OpenLedger sadarbojās ar Aethir NVIDIA H100 GPU, līdz 2TB RAM, 3.2 Tbps tīklošana, klasteri, kas mērogojami līdz 4,096 H100 visā pasaulē mazāk nekā divu nedēļu laikā. Šī partnerība ir atšķirība starp standartu un ražošanas sistēmu.
Tagad šeit ir vieta, kur man patiesi vēl nav tīras atbildes.
Deviņdesmit procentu izmaksu samazināšana ir konkrēts apgalvojums. Standarti to atbalsta kontrolētās apstākļos. Bet ražošanas veiktspēja, reālie uzņēmumu slodzes, neparedzēti pieprasījumu modeļi, vienlaicīgi vairāki lietotāji no dažādām laika joslām, kas tieši ietekmē specializētās modeļus, tas ir cits stresa tests. Es neesmu redzējis pietiekami daudz neatkarīgu ražošanas datu no lieliem izvietojumiem, lai zinātu, vai OpenLoRA noturēsies mērogā, ko mārketinga materiāli apgalvo.
Ko es domāju, ir skaidrs: pamatarchitektūra ir stabila. Tieši laikā adapteru ielāde nav jauna koncepcija ML pētniecībā; OpenLoRA to piemēro ražošanas mērogā ar uz on-chain atribūtu slāni virsū. Tā kombinācija ir jauna.
Vai 90% skaitlis noturas tavā konkrētajā ražošanas vidē, tas ir jautājums, ko vērts pārbaudīt pirms tu pārveido savu infrastruktūru ap atbildi.
Izstrādātāja pavedienu, ko es saglabāju pirms dažiem mēnešiem, joprojām ir atvērts manā pārlūkprogrammā. Persona, kas to rakstīja, nav publicējusi sekotāju par to, vai viņi atrisināja izmaksu problēmu.
Varbūt viņi atrada OpenLoRA. Varbūt viņi vienkārši pārstāja būvēt.
Specializētās AI izvietošanas matemātika jebkurā gadījumā ir salauzta. Vismaz kāds pie tā strādā.
Ko tu izvietotu pirmajā vietā, ja izmaksu ierobežojums pazustu?
