Was für Daten werden aktuell zum Trainieren von AI-Modellen verwendet? Jeder in der Szene weiß es. Es sind diese „öffentlichen Daten“, die einfach aus dem Internet gekratzt wurden, ohne zu wissen, ob sie kommerziell genutzt werden können, und der ursprüngliche Autor erhält nicht einmal eine Benachrichtigung. Vor zwei Jahren habe ich einem kleinen quantitativen Team geholfen, On-Chain-Adressen mit Verhaltenslabels zu sammeln. Ich habe die gleichen Adressdaten aus vier verschiedenen Quellen bezogen, und das Ergebnis war, dass jede Quelle vier komplett unterschiedliche Labels geliefert hat. Eine sagte, es sei ein Hochfrequenz-DeFi-Scalper, eine andere sprach von normalen Überweisungsbenutzern, die dritte war noch verrückter und bezeichnete sie direkt als „verdächtige Hexe“, und die vierte hat einfach nichts markiert. Ich saß mehrere Minuten wie versteinert vor dem Bildschirm, und danach habe ich Wochen damit verbracht, die Daten manuell zu überprüfen, nur um schließlich festzustellen, dass das eigentliche Problem nicht die Datenmenge war, sondern dass es von dem Moment an, als diese Daten generiert wurden, kein einziges vertrauenswürdiges „Geburtszeugnis“ gab.
Wegen dieser Angelegenheit habe ich eine Besessenheit für die Worte „vertrauenswürdige Datenquelle“ entwickelt. Letzte Woche habe ich drei Abende damit verbracht, die offiziellen Dokumente und das Whitepaper zur Token-Ökonomie von @OpenLedger von Anfang bis Ende durchzuarbeiten. Um ehrlich zu sein, als ich am ersten Abend die Zusammenfassung las, wollte ich fast aufhören; die Kombination aus AI und Blockchain wurde seit zwei Jahren propagiert, und die meisten Projekte haben einfach nicht viel Substanz. Aber am zweiten Abend, als ich zu ihrem offiziellen Dokument über den Attributionsnachweis kam, gab es einen Entsperrzeitplan, der mich sofort aufweckte. #openleder
So sieht's aus. Das Gesamtes Angebot von OpenLedger beträgt 1 Milliarde Token, ohne zusätzliche Emission - das ist in vielen Projekten schon recht zurückhaltend. Der Schlüssel liegt in der Freigabestruktur; beim TGE werden nur 21,55 % freigegeben, der Rest wird langsam freigegeben. Das Team und die Investoren haben eine 12-monatige Lock-up-Periode, danach gibt es eine lineare Freigabe über 36 Monate. Monatlich werden etwa 5,08 Millionen Token für Investoren freigegeben und etwa 4,16 Millionen für das Team, bis zum 48. Monat. Das ist das Zitat, das ich direkt aus dem offiziellen Entsperrzeitplan herausgezogen habe.
Ich habe in Excel eine Tabelle erstellt und etwas gerechnet. Angenommen, die ökologische Nachfrage wächst nicht signifikant, dann muss man berechnen, wie viele echte Nutzungsszenarien nötig sind, um die monatlichen neuen fast zehn Millionen Token, die in den Markt kommen, aufzunehmen. Diese Rechnung dürft ihr selbst anstellen. Außerdem machen die Community- und ökologischen Verteilungen 61,71 % des Gesamtangebots aus, und dieser Teil wird bereits ab dem ersten Monat linear freigegeben, mit einem Gesamtbetrag von bis zu 381,6 Millionen Token. Das bedeutet, dass bereits eine große Menge Token kontinuierlich an Datenbeitragsleistende und Modelltrainer freigegeben wird, bevor das Team und die Investoren massenhaft freigeschaltet werden. Theoretisch ist dies ein positiver Anreiz für aktive Teilnehmer, aber die tatsächliche Wirkung hängt davon ab, wie viele wirklich aktiv sind.
Diese Informationen sind nicht einfach nur meine Vermutungen, sondern stehen schwarz auf weiß in den offiziellen Dokumenten der Stiftung. Darüber hinaus gibt es laut der offiziellen Seite der Stiftung eine Zusammenarbeit zwischen OpenLedger und Chainbase, wobei die von Chainbase aufbereiteten, strukturierten Multichain-Daten in das Attributionsnachweissystem von OpenLedger eingespeist werden, sodass AI-Agenten bei Entscheidungen wissen, woher die Daten stammen, wer sie beigetragen hat und ob sie manipuliert wurden. Die Informationen, die ich derzeit sehe, konzentrieren sich hauptsächlich auf diese Zusammenarbeit.
Es gibt noch einen Aspekt, der mich sowohl beeindruckt als auch frustriert. Ihr Attributionsnachweissystem nutzt eine Methode namens Infini-gram, um die Herkunft großer Sprachmodelle zu verfolgen. Offiziell heißt es, dass jedem Token seine exakte Quelle in den Trainingsdaten zugeordnet wird, und zwar nicht nur durch fixe n-Gramm-Fenster, sondern durch dynamische Suche nach der längsten Übereinstimmung mithilfe von Suffix-Arrays. Das ist wirklich eine Herausforderung. Denn bei den Trainingsdaten großer Modelle sprechen wir von Billionen von Tokens, und du musst in dieser riesigen Datenmenge in Echtzeit die exakte Quelle eines Outputs finden - das ist astronomisch aufwendig. Offiziell wird gesagt, dass es im 1,4 Billionen Tokens umfassenden Red-Pajama-Datensatz nur 20 Millisekunden dauert, um beliebige n-Gramme zu prüfen, und die Speicherkosten liegen bei etwa 7 Bytes pro Token. Ich kann diese Zahl nicht verifizieren, aber es zeigt zumindest, dass sie sich einige Gedanken zu den Datenstrukturen gemacht haben.
Ich muss jedoch eine ehrliche Wahrheit sagen. Was den spezifischen Prozess zur Verhinderung von Fehlverhalten bei Validierungsknoten angeht, wie sich Knoten gegenseitig herausfordern und wie bestrafte gestakte Token bei erfolgreicher Herausforderung gehandhabt werden, habe ich in allen öffentlichen Dokumenten, die ich durchgesehen habe, keine offizielle prozedurale Beschreibung gefunden. Offiziell wird nur gesagt, dass Knoten OPEN staken, um an der Netzwerkverwaltung teilzunehmen, und dass die Einnahmen der Knoten an die Online-Rate, die Reaktionszeit und die Verifizierungsgenauigkeit gebunden sind. Was die Validierung der von Datenbeitragsleistenden hochgeladenen Daten und die Verantwortlichkeit für Fehlverhalten von Knoten angeht, habe ich in den öffentlich zugänglichen Informationen tatsächlich keine Details gefunden. Das bedeutet nicht, dass es nicht existiert; es bedeutet nur, dass es derzeit keine öffentlichen Informationen dazu gibt oder ich diese Seite noch nicht gefunden habe.
Was den genauen Starttermin des OpenLedger-Hauptnetzes angeht, habe ich zwei verschiedene Aussagen gesehen. Eine Reihe von Berichten besagt, dass das Hauptnetz im September 2025 online geht, während The Block in einem Bericht von November sagt, dass OpenLedger im November 2025 offiziell das OPEN-Hauptnetz gestartet hat. Der Gate Blog mit der gleichnamigen tiefen Analyse hat klar geschrieben, dass das Hauptnetz im September 2025 offiziell online geht. Diese Inkonsistenzen zwischen Plattformen sind problematisch; das Kernproblem ist, dass die grundlegende Ausrichtung der Datenattribution für AI korrekt ist, es jedoch Unterschiede in der Ausführung gibt, was zu verschiedenen Formulierungen aus unterschiedlichen Quellen führt.
Ich sage das nicht, um zu kritisieren, sondern weil ich denke, dass das Problem, das OpenLedger lösen möchte, definitiv Beachtung verdient. Die Herkunft von AI-Trainingsdaten und die Verteilung von Interessen der Beitragenden erfordert langfristig eine ernsthafte Lösung. Sie integrieren den Attributionsnachweis in die grundlegende Infrastruktur, versehen Daten mit verifizierbaren On-Chain-Trust-Labels und sorgen dafür, dass jedes Modell, das deine Daten verwendet, bei der Inferenz automatisch Geld an dich verteilt. In diese Richtung stimme ich zu. Aber die Balance zwischen Angebot und Nachfrage bei der Tokenvergabe, die Mechanismen zur Verhinderung von Fehlverhalten bei Validierungsknoten und die Tiefe des Entwickler-Ökosystems sind echte harte Brocken, an denen man nicht einfach vorbeischauen kann. Ich werde die Freigabe von On-Chain-Daten und die Frequenz der PoA-Aufrufe weiterhin genau im Auge behalten.
Was OPEN tatsächlich wert ist, schaue ich mir nie in den Klines an. Ihr entscheidet selbst. #OpenLedger $OPEN


