Salut tout le monde, je suis NingFan.
Récemment, FanFan a vu un ensemble de chiffres qui l'a vraiment mis mal à l'aise. En mai 2026, Epoch AI a publié un rapport : les grands modèles de langage pourraient épuiser toutes les données textuelles publiques sur Internet entre 2026 et 2032. Pendant ce temps, le rapport de l'Institut de communication de Chine est encore plus radical, prédisant directement qu'en 2026, l'entraînement de grands modèles de langage pourrait complètement assécher les données textuelles disponibles.
Ce n'est pas un scénario de science-fiction lointain, c'est ce qui se passe actuellement. L'industrie de l'IA ne fait pas face seulement à des poursuites pour droits d'auteur - le 5 mai, Elsevier a joint cinq grands éditeurs pour poursuivre Meta, accusant Llama d'avoir entraîné des modèles sur des milliers de livres piratés ; la crise plus profonde est que les données de haute qualité sont en train de s'épuiser. Les données ouvertes sur Internet, cette branche basse, est presque dénudée, tandis que les véritables données précieuses des domaines verticaux - imagerie médicale, enregistrements de transactions financières, cas juridiques, paramètres industriels - sont toutes verrouillées à l'intérieur des institutions, et l'IA n'y a tout simplement pas accès.
Pour le dire simplement : la "crise des denrées alimentaires" pour l'IA est là. Et ce n'est pas que la nourriture devient chère, c'est que la nourriture est vraiment en train de disparaître.
C'est aussi pourquoi FanFan garde un œil sur @OpenLedger . Ce projet ne raconte pas l'histoire stéréotypée du "GPT décentralisé", il agit directement à la source des données — c'est leur système Datanets.
Datanets, on peut le comprendre comme une "coopérative de données". Par exemple, dans le domaine des imageries médicales, on pourrait créer un Datanet spécialisé, où des médecins, hôpitaux et organismes de recherche du monde entier mettent des données d'images anonymisées, les contributeurs étant rémunérés en $OPEN en fonction de la qualité des données et des fois où elles sont sollicitées, et les développeurs de modèles payent pour accéder à ces ensembles de données de haute qualité vérifiés pour entraîner des modèles spécifiques. Transactions financières, fabrication industrielle, contrats juridiques — chaque domaine vertical peut ouvrir son propre Datanet pour libérer ces "données cachées" enfermées dans les institutions.
FanFan pense que la logique de ce système fonctionne parce qu'elle a percé un tabou. Il y a une énorme quantité de données de haute qualité dans le monde, mais elles sont enfermées dans des "îles de données" — les standards ne sont pas interopérables entre les institutions, les formats de données ne sont pas uniformes, et il n'existe presque aucun mécanisme pour le partage inter-plateformes. OpenLedger ne cherche pas à collecter des données lui-même, mais à fournir une infrastructure qui permet à n'importe quelle communauté de s'auto-organiser autour des données d'un domaine spécifique.
Son arme principale, c'est le Proof of Attribution dont FanFan a déjà parlé — mais aujourd'hui, FanFan veut aborder les choses sous un autre angle, celui de la "chaîne d'approvisionnement des données".
Dans l'entraînement traditionnel de l'IA, d'où viennent les données, par qui elles passent, comment elles sont traitées, et quelle partie du modèle en est influencée — c'est une vraie pagaille. Les contributeurs de données sont achetés une bonne fois pour toutes, et les modèles gagnent de l'argent sans que cela ait un lien avec les fournisseurs de données.
Sur OpenLedger, chaque donnée est ancrée sur la blockchain avec un hash dès qu'elle est téléchargée, tout le processus d'annotation et de validation est enregistré, les journaux d'entraînement des modèles associés aux références des ensembles de données sont également mis sur la chaîne, et lors de l'inférence, le moteur d'attribution retrace automatiquement quels points de données ont le plus contribué, ensuite les récompenses sont distribuées via des contrats intelligents. Les contributeurs de données ne sont pas achetés, mais possèdent des "actions de données" — tant que vos données sont utilisées, vous continuez à toucher des revenus.
Cette chaîne entière, OpenLedger l'appelle "pipeline de données vérifiables". FanFan lui a donné un nom plus accessible : la "chaîne d'approvisionnement ensoleillée des données". De la collecte à la purification, à la validation et au transfert, chaque étape est auditable sur la chaîne, tout polluant de données malveillantes ou données d'origine inconnue peut être rapidement identifié.
Et OpenLedger ne se bat pas seul. Ils ont fait un grand coup avec Story Protocol en janvier 2026 — en lançant ensemble un nouveau standard de règlement des droits d'auteur pour les données d'entraînement de l'IA et de paiement automatique pour les créateurs. Comment ça fonctionne concrètement ? Du côté de Story, ils gèrent l'enregistrement des IP et la définition des termes de licence, tandis qu'OpenLedger s'occupe de l'exécution et de la validation — lorsque le contenu autorisé est utilisé dans l'entraînement, l'IP d'utilisation est vérifiée de manière cryptographique, puis l'argent est automatiquement versé aux titulaires de droits. Les mésaventures d'Elsevier, qui se battent en justice pour leurs droits, pourraient ne jamais se produire dans ce système d'OpenLedger.
Parlons un peu de la position de l'OPEN dans l'ensemble du tableau. FanFan a regardé un peu la position de l'OPEN dans l'ensemble du jeu. En regardant les cas d'utilisation de l'OPEN, il s'avère qu'il ne s'agit pas seulement d'un "jeton de gouvernance" pour vous duper — les contributeurs de données reçoivent des récompenses en OPEN via le moteur d'attribution, les développeurs de modèles s'inscrivent et publient des modèles en utilisant des OPEN comme Gas, les utilisateurs payent également en $OPEN pour invoquer les inférences des modèles, une partie allant aux développeurs de modèles, une partie aux contributeurs de données en amont, et une autre partie dans le fonds d'infrastructure publique. L'ensemble de ce cycle économique est ce qu'OpenLedger appelle "IA payante" — chaque maillon de l'IA a quelqu'un qui travaille, chaque maillon a quelqu'un qui perçoit de l'argent, l'activité économique n'est plus un jeu de monopole pour les géants.
FanFan a toujours pensé que la narration la plus sexy de Web3 n'est pas de recréer un casino, mais d'utiliser la technologie pour résoudre de réels problèmes dans le monde. La crise des données pour l'IA n'est pas une exagération — si les relations de production de données existantes ne changent pas, le plafond de verre du développement de l'IA est clairement visible. Je ne peux pas garantir qu'OpenLedger sera le disruptor, mais la solution qu'ils proposent avance au moins d'un grand pas la question de "comment produire des données et comment les rémunérer".
Vous en pensez quoi ? La pénurie de données est-elle vraiment là ou c'est juste du flan ? Est-ce que les données décentralisées peuvent vraiment tenir le coup ? Discutons dans les commentaires, FanFan attend en ligne. N'oubliez pas de suivre @OpenLedger et $OPEN pour l'histoire, on regarde et on discute ensemble !
