Le casse-tête de la validation des Datanets et les décharges de données

La semaine dernière, j'ai testé un nouveau protocole de chaîne avec des preuves récursives en batch, j'ai passé la nuit à surveiller les ressources des nœuds et j'ai déniché un problème de fuite mémoire extrêmement sournois et un biais dans le calcul du Gas. Débusquer ce genre de bugs cryptographiques, c'est vraiment épuisant. Juste après avoir arrêté le script de test, je suis tombé sur la dernière doc d'OpenLedger concernant les Datanets et la "preuve d'attribution (Proof of Attribution)". J'ai passé une heure à décomposer les infos, et selon les officiels, les Datanets sont un référentiel structuré qui, grâce à un mécanisme d'attribution décentralisé, garantit que les modèles d'IA peuvent utiliser des données de haute qualité spécifiques à un domaine, vérifiées.

Je suis resté là, fixant l'écran, en me demandant où diable on en est avec ce stockage. On parle d'endurer la plus grande inondation de données de l'ère AI sur une couche de consensus blockchain extrêmement fragile.

J'ai pris un extrait de la description sur le 'mécanisme de détrust et de transparence' et l'ai envoyé à un pote qui fait des preuves à connaissance nulle. Je me suis plaint que même un simple test de preuve récursive fait crasher la mémoire de mon nœud, et que les frais de Gas sont complètement fous, et ils veulent valider et attribuer des données d'entraînement AI de plusieurs To ? Il m'a dit : tu te trompes de priorité. La validation Datanet ne porte pas sur la vérité absolue des données, mais sur la 'provenance des droits'. Ils utilisent un réseau de validateurs pour filtrer les mauvaises données, puis marquent les données validées avec un tampon d'attribution. Mais il a ajouté que le coût de friction que tu crains est mortel. Si le mécanisme d'attribution n'est pas assez léger, les pertes de validation vont directement siphonner la liquidité de tout l'écosystème de données. Après ça, je suis resté silencieux un moment, cette logique est trop rigide. $OPEN 

J'ai recalculé les chiffres : un modèle AI moderne nécessite d'engloutir des billions de Tokens. Si @OpenLedger  réussit vraiment à créer un Datanet médical ou financier de grande valeur, nécessitant des milliers de contributeurs pour soumettre en continu des données, et que chaque contribution doit passer par la validation, l'enregistrement et l'attribution de ce réseau décentralisé, les exigences de concurrence derrière tout ça sont astronomiques. J'ai comparé avec les déviations de calcul que j'ai rencontrées lors des tests de nœuds et constaté que si ces opérations de vérification à haute fréquence tournent sur le mainnet, les petites récompenses que les contributeurs de données gagnent risquent d'être immédiatement effacées par les frais prélevés par les nœuds de validation. Un ami a dit : le plus effrayant n'est pas le manque de données de haute qualité, mais le coût de validation des données qui est plus élevé que les données elles-mêmes. Ça m'a fait réfléchir ; dans le récit décentralisé de l'AI, le plus grand trou noir de puissance de calcul n'est pas le grand modèle, mais le mécanisme de validation massif et lourd.

Plus insidieux est la vulnérabilité de ce système face aux 'données de sorcière'. Les officiels affirment que Datanets peut garantir la 'crédibilité' des données, mais c'est complètement un idéal. Si un studio génère des centaines de milliers de données synthétiques habilement déguisées par AI chaque jour pour obtenir des récompenses d'attribution, les nœuds de validation ordinaires n'ont tout simplement pas la puissance de calcul ni l'énergie pour distinguer le vrai du faux. Le résultat final est que les données humaines de haute qualité sont diluées, et Datanet devient une décharge remplie de données de mauvaise qualité générées par des machines.

Je réévalue maintenant la position des gens ordinaires dans ce réseau de données décentralisé. Nous ne sommes pas les maîtres des données, nous sommes juste des échantillons de test pour cette grande algorithme d'attribution. Les développeurs ont besoin d'un énorme Datanets pour faire briller la disponibilité de leur infrastructure, mais seuls ceux qui possèdent une puissance de calcul massive et peuvent générer et vérifier des données à faible coût, les oligopoles industriels, peuvent vraiment en tirer profit.

Les signaux que je surveille maintenant sont deux : d'une part, voir combien de déviation de calcul réelle leur Proof of Attribution génère sur la chaîne, si je me retrouve encore avec des fuites de mémoire ou des frais de Gas qui montent en flèche comme avec d'autres chaînes, alors ce modèle économique ne tiendra pas face à une forte concurrence ; d'autre part, voir comment ils empêchent le spam par des machines, si aucun mécanisme de pénalité pour comportement malveillant n'est en place, les contributeurs humains seront tôt ou tard évincés par une armée de scripts. #OpenLedger 

Je ne vais pas me replonger dans la recherche de comment injecter des données exclusives dans Datanets à court terme, c'est inutile. J'ai ajusté ma stratégie : je vais retourner peaufiner mon script de surveillance des nœuds qui fuit de la mémoire, et moins m'inquiéter des droits de propriété sur le corpus linguistique de l'humanité. Tant que les problèmes de base ne sont pas résolus, pas la peine de construire une cyber Babel au-dessus.