Como um pesquisador de IA, treinei um grande modelo de linguagem em@OpenLedger ($OPEN ) com o objetivo de gerar artigos sobre "análise do mercado de criptomoedas". Os dados de treinamento incluem milhões de artigos, relatórios e discussões da comunidade. Quando o#OpenLedger modelo gera uma previsão sobre a volatilidade do preço do bitcoin, quero saber de quais dados de treinamento ele realmente depende.
Se usar métodos tradicionais, ou a computação é muito lenta, ou só é possível indicar de forma aproximada a contribuição de todo o conjunto de dados, sendo impossível rastrear com precisão documentos ou parágrafos específicos. Nesse momento, utilizamos o Infini-gram.#OpenLedger O sistema vinculará cada palavra-chave gerada pelo modelo a uma correspondência simbolizada com o corpus de treinamento, utilizando uma estrutura de array de sufixo para comparação eficiente.
Os resultados mostram:
Quando @OpenLedger o modelo previu "retratação de curto prazo do Bitcoin", ele se baseou principalmente em trechos específicos de três artigos de análise de mercado e uma postagem de discussão da comunidade. A influência de cada documento foi quantificada, e eu pude ver qual trecho contribuiu mais para a decisão do modelo. Esse processo me permitiu:
Verificar as decisões do modelo: garantir que o modelo não aprendeu de maneira tendenciosa com dados errôneos;
Retornar aos contribuidores de dados: quantificando as contribuições e distribuindo recompensas através da OpenLedger ($OPEN );
Otimizar o conjunto de dados: identificar dados de alta influência para melhorar o desempenho do modelo.
Para mim e para a equipe, o Infini-gram não é apenas uma tecnologia, ele torna o valor de cada dado transparente. Cada julgamento gerado pelo modelo tem uma origem clara e rastreável, e os contribuidores de dados também podem ser reconhecidos na blockchain, estabelecendo assim um ecossistema de IA justo e verificável.
