Quel type de données sont utilisées pour entraîner les modèles d'IA en ce moment ? Tout le monde dans le milieu le sait. C'est ce genre de "données publiques" qu'on trouve en ligne, sans savoir si elles peuvent être utilisées commercialement, et l'auteur original ne reçoit même pas de notification. Il y a deux ans, j'ai aidé une petite équipe de quant à collecter des étiquettes de comportement d'adresses on-chain. J'ai récupéré les mêmes données d'adresses à partir de quatre canaux différents, et le résultat était que chaque canal fournissait un jeu d'étiquettes complètement différent. Un disait que c'était un moine de DeFi à haute fréquence, l'autre disait que c'était un utilisateur de transfert ordinaire, le troisième était encore plus fou, le marquait directement comme "sorcière suspecte", et le quatrième n'avait même pas d'étiquette. J'étais là, devant mon écran, à rester figé pendant plusieurs minutes, puis j'ai passé plusieurs semaines à vérifier manuellement chaque ligne, pour finalement découvrir que le vrai problème n'était pas le manque de données, mais que ces données n'avaient dès le départ aucune "certificat de naissance" fiable.
À cause de ça, j'ai développé une obsession pour les mots "sources de données fiables". La semaine dernière, j'ai passé trois nuits à décortiquer les documents officiels et le livre blanc sur l'économie des tokens de @OpenLedger . Honnêtement, lors de la première nuit en lisant le résumé, j'ai failli tout fermer, le combo IA + blockchain a été crié depuis deux ans déjà, et la plupart des projets, je les ai juste survolés. Mais la deuxième nuit, en tombant sur leur document officiel de preuve d'attribution, j'ai trouvé un calendrier de déverrouillage qui m'a instantanément réveillé.#openleder
Voici la situation. L'offre totale de tokens d'OpenLedger est de 1 milliard, sans augmentation, ce qui est relativement modéré pour de nombreux projets. Le point clé est la structure de déverrouillage, lors de l'ICO, seulement 21.55% a été libéré en circulation, le reste sera libéré progressivement. L'équipe et les investisseurs ont une période de verrouillage de 12 mois, après quoi il y aura un déverrouillage linéaire sur 36 mois, chaque mois, environ 5,08 millions de tokens seront déverrouillés pour les investisseurs, et environ 4,16 millions pour l'équipe, continuant jusqu'au 48ème mois. C'est exactement ce que j'ai trouvé dans le calendrier de déverrouillage officiel.
J'ai fait un tableau dans Excel pour calculer ça. Supposons qu'il n'y ait pas de croissance significative de la demande dans l'écosystème à l'avenir, une fois que ces nouveaux flux d'environ dix millions de tokens par mois entreront sur le marché, combien de scénarios d'utilisation réels seront nécessaires pour les soutenir, faites le calcul vous-même. De plus, la répartition pour la communauté et l'écosystème représente 61.71% de l'offre totale, cette partie commence à se déverrouiller de manière linéaire dès le premier mois, pour un total de 381,6 millions de tokens. Cela signifie qu'avant que l'équipe et les investisseurs ne déverrouillent massivement, une grande quantité de tokens est déjà libérée en continu aux contributeurs de données et aux formateurs de modèles. En théorie, c'est une incitation positive pour les participants actifs, mais l'effet réel dépendra de combien de personnes font réellement le travail.
Ces informations ne sont pas des conjectures de ma part, tout est écrit noir sur blanc dans les documents de la fondation officielle. De plus, selon la page de la fondation officielle, OpenLedger a une collaboration officielle avec Chainbase, intégrant les données structurées multi-chaînes préparées par Chainbase dans le système de preuve d'attribution d'OpenLedger, permettant ainsi à l'agent IA de savoir d'où proviennent les données qu'il utilise, qui les a fournies, et si elles ont été altérées. Les informations que j'ai vues se concentrent principalement sur cette collaboration.
Il y a un autre aspect qui me fascine et me donne mal à la tête. Leur système de preuve d'attribution utilise une méthode appelée Infini-gram pour traiter la question de la traçabilité des grands modèles linguistiques. Officiellement, ils disent qu'ils vont marquer chaque Token avec sa source de correspondance exacte dans les données d'entraînement, et pas seulement en regardant une fenêtre de n-grammes fixe, mais en utilisant un tableau de suffixes pour trouver dynamiquement la plus longue séquence de correspondance. Ça, c'est vraiment compliqué. Parce que les données d'entraînement des grands modèles atteignent facilement des trillions de Tokens, et tu dois en temps réel trouver la source précise d'une sortie parmi un océan de données, le calcul est astronomique. Officiellement, dans le jeu de données des pyjamas rouges de 1,4 trillion de Tokens, trouver n'importe quel n-gramme prend seulement 20 millisecondes, et le coût de stockage est d'environ 7 octets par Token. Je ne peux pas vérifier ce chiffre de manière pratique, mais au moins cela montre qu'ils ont réfléchi à certaines solutions en matière de structure de données.
Cependant, je dois dire une vérité brutale. Concernant les processus spécifiques de prévention des abus pour les nœuds de validation, comme comment les nœuds se défient mutuellement, et comment punir les tokens de mise en cas de défi réussi, après avoir parcouru tous les documents publics, je n'ai toujours pas trouvé de description procédurale officielle. Ils disent seulement que les nœuds misent des OPEN pour participer à la gouvernance du réseau, et que les revenus des nœuds sont liés à leur taux de disponibilité, leur latence de réponse et leur précision de validation. Quant à la manière dont les données uploadées par les contributeurs sont vérifiées, et comment les abus des nœuds sont sanctionnés, je n'ai effectivement pas vu de détails de conception à ce niveau dans les informations publiques. Cela ne veut pas dire que ça n'existe pas, mais cela signifie simplement que ce n'est pas encore une information publique, ou que je n'ai pas encore trouvé cette page.
Concernant la date de lancement du mainnet d'OpenLedger, j'ai vu deux versions différentes. Un certain nombre de rapports disent que le mainnet sera lancé en septembre 2025, mais un rapport de The Block en novembre indique qu'OpenLedger a officiellement lancé le mainnet OPEN en novembre 2025. L'analyse approfondie de Gate Blog mentionne clairement que le mainnet sera officiellement lancé en septembre 2025. Cette incohérence d'informations inter-plateformes soulève la question que la direction sous-jacente de l'attribution des données IA est correcte, mais à quel point l'exécution est poussée, les déclarations varient selon les sources.
Je ne dis pas ça pour critiquer, mais je pense que le problème que doit résoudre OpenLedger mérite vraiment notre attention. La question de la traçabilité des données d'entraînement de l'IA et la répartition des intérêts des contributeurs nécessitent, à long terme, un plan sérieux pour y faire face. Ils intègrent la preuve d'attribution dans l'infrastructure de base, en étiquetant les données avec des labels de crédit vérifiables sur la chaîne, et en permettant à chaque modèle utilisant tes données de te redistribuer des fonds automatiquement lors de l'inférence, je soutiens cette direction. Mais l'équilibre offre-demande pour la libération de tokens, le mécanisme de prévention des abus pour les nœuds de validation, et la robustesse de l'écosystème des développeurs, ce sont tous des problèmes réels et tangibles que personne ne peut ignorer. Je vais garder un œil sur le déverrouillage des données sur la chaîne et la fréquence des appels PoA.
En ce qui concerne la valeur précise d'OPEN, je ne regarde jamais les chandeliers. C'est à vous de décider.#OpenLedger $OPEN


