Adesso quale tipo di dati vengono usati per addestrare i modelli AI, chi è del settore lo sa bene. Sono quei dati "pubblici" che si trovano in rete, non si sa se possano essere utilizzati commercialmente, e l'autore originale nemmeno riceve un avviso. Due anni fa ho aiutato un piccolo team di trading quantitativo a raccogliere etichette sui comportamenti degli indirizzi blockchain, ho preso dati sugli stessi indirizzi da quattro canali diversi e, indovina un po', ogni canale ha fornito quattro set di etichette completamente diversi. Uno diceva che era un trader ad alta frequenza DeFi, un altro parlava di utenti per normali trasferimenti, il terzo era ancora più ridicolo, etichettato come “sospetta strega”, il quarto non aveva nemmeno un'etichetta. Sono rimasto davanti allo schermo per diversi minuti, poi ho passato settimane a controllare manualmente ogni singolo dato, alla fine ho capito che il problema non era la quantità di dati, ma che non c'era un “certificato di nascita” affidabile per questi dati dal momento in cui sono stati generati.
A causa di questa questione, ho sviluppato un'ossessione per le parole "fonti di dati affidabili". La settimana scorsa ho passato tre notti a esaminare dall'inizio alla fine la documentazione ufficiale e il white paper sull'economia dei token di @OpenLedger . A dire il vero, la prima notte, mentre leggevo l'introduzione, stavo per chiudere tutto; la combinazione AI + blockchain è stata urlata per due anni, e la maggior parte dei progetti non ha portato nulla di nuovo. Ma la seconda notte, quando ho trovato il documento ufficiale sulla proof of attribution, c'era un piano di sblocco che mi ha fatto ritrovare lucidità. #openleder
La situazione è questa. L'offerta totale di token di OpenLedger è di 1 miliardo, senza ulteriori emissioni, il che è piuttosto contenuto per molti progetti. La chiave è nella struttura di sblocco; durante il TGE viene rilasciato solo il 21,55% per la circolazione, il resto verrà rilasciato lentamente. Il team e gli investitori hanno un periodo di lock-up di 12 mesi, dopodiché vengono sbloccati linearmente in 36 mesi, con circa 5,08 milioni di token sbloccati ogni mese per gli investitori e circa 4,16 milioni per il team, fino al 48° mese. Questo è un estratto diretto dal piano di sblocco ufficiale.
Ho creato un foglio Excel per fare un calcolo. Supponendo che non ci sia una crescita significativa nella domanda ecologica in futuro, una volta che questi quasi dieci milioni di nuovi token al mese entreranno sul mercato, quanti scenari di utilizzo reale saranno necessari per assorbirli? Questo calcolo lo fate voi. Inoltre, la distribuzione della comunità e dell'ecosistema rappresenta il 61,71% dell'offerta totale, e questa parte inizia a sbloccarsi linearmente dal primo mese, per un totale di 381,6 milioni di token. Ciò significa che prima che il team e gli investitori facciano un grande sblocco, ci saranno già molti token rilasciati in continuazione ai contributori di dati e agli addestratori di modelli. Teoricamente, questo è un incentivo positivo per i partecipanti attivi, ma l'effetto reale dipenderà da quanti stanno davvero lavorando.
Queste informazioni non sono frutto della mia immaginazione, sono tutte scritte chiaramente nei documenti ufficiali della fondazione. Inoltre, secondo la pagina ufficiale della fondazione, OpenLedger ha una collaborazione ufficiale con Chainbase, portando i dati strutturati multi-chain elaborati da Chainbase nel sistema di proof of attribution di OpenLedger, in modo che gli agenti AI sappiano da dove provengono i dati, chi li ha forniti e se sono stati manomessi quando prendono decisioni. Attualmente, le informazioni che ho visto si concentrano principalmente su questa collaborazione.
C'è un aspetto che mi fa sia ammirare che disperare. Il loro sistema di proof of attribution utilizza un metodo chiamato Infini-gram per affrontare il problema della tracciabilità dei grandi modelli di linguaggio. L'ufficiale afferma che etichetta ogni Token con la sua esatta origine di corrispondenza nei dati di addestramento, e non si limita a guardare finestre di n-gram fisse, ma utilizza array di suffissi per cercare dinamicamente la sequenza di corrispondenza più lunga. Questo è davvero complicato. Perché i dati di addestramento dei grandi modelli possono essere composti da trilioni di Token, e dover trovare in tempo reale l'origine esatta di un output all'interno di un'enorme quantità di dati comporta un calcolo astronomico. L'ufficiale dice che nel dataset di 1,4 trilioni di Token chiamato Red Pajamas, cercare qualsiasi n-gram richiede solo 20 millisecondi, e il costo di archiviazione è di circa 7 byte per Token. Non posso verificare questo numero, ma almeno dimostra che hanno pensato a qualche soluzione nella struttura dei dati.
Comunque, devo dire una verità scomoda. Riguardo ai processi specifici di prevenzione degli abusi per i nodi di verifica, come i nodi si sfidano a vicenda e come vengono penalizzati i token in caso di sfida riuscita, dopo aver esaminato tutti i documenti pubblici non sono riuscito a trovare una descrizione procedurale ufficiale. L'ufficiale dice solo che i nodi devono mettere in staking OPEN per partecipare alla governance della rete, e i guadagni dei nodi sono legati alla loro disponibilità online, alla latenza di risposta e all'accuratezza della verifica. Per quanto riguarda come vengono verificati i dati caricati dai contributori e come si fa a perseguire i nodi che commettono abusi, non ho trovato dettagli di progettazione su questo livello nelle informazioni pubbliche. Non dico che non esistano, solo che al momento non sono informazioni pubbliche, oppure non ho ancora trovato quella pagina.
Per quanto riguarda la data di lancio della mainnet di OpenLedger, ho visto due versioni diverse. Alcuni rapporti dicono che la mainnet sarà attiva a settembre 2025, ma un articolo di The Block di novembre afferma che OpenLedger ha ufficialmente lanciato la mainnet OPEN a novembre 2025. Un'analisi approfondita sul blog di Gate con lo stesso nome afferma chiaramente che la mainnet sarà attiva a settembre 2025. Questa discrepanza nelle informazioni tra le piattaforme è un problema centrale; la direzione di base per la tracciabilità dei dati AI è corretta, ma a quale livello di esecuzione siamo, le affermazioni di fonti diverse variano.
Non dico queste cose per fare polemica, ma perché credo che il problema che OpenLedger sta cercando di risolvere meriti davvero attenzione. La questione della tracciabilità dei dati di addestramento dell'AI e la distribuzione dei benefici per i contributori richiede a lungo termine una soluzione seria per affrontarla. Hanno integrato la proof of attribution nelle infrastrutture di base, etichettando i dati con credenziali verificabili sulla blockchain, e facendo in modo che ogni modello che utilizza i tuoi dati ti restituisca automaticamente una percentuale durante l'inferenza, e su questo fronte sono d'accordo. Ma l'equilibrio della domanda e dell'offerta nel rilascio dei token, i meccanismi anti-abuso per i nodi di verifica, e la solidità dell'ecosistema degli sviluppatori, sono tutti problemi seri che non possono essere ignorati. Continuerò a monitorare la frequenza di sblocco dei dati sulla blockchain e delle chiamate PoA.
Per quanto riguarda il valore specifico di OPEN, io non guardo mai i grafici. Decidete voi. #OpenLedger $OPEN


