Будучи исследователем ИИ, я обучил крупную языковую модель на@OpenLedger ($OPEN ) с целью генерации статей о «анализе криптовалютного рынка». Обучающие данные содержат миллионы статей, отчетов и обсуждений в сообществе. Когда#OpenLedger модель генерирует прогноз о колебаниях цен на биткойн, мне интересно, на каких именно обучающих данных она основывает свои выводы.
Если использовать традиционные методы, то либо вычисления слишком медленные, либо можно лишь приблизительно указать на вклад всего набора данных, совершенно невозможно точно отследить конкретный документ или абзац. В этом случае используется Infini-gram.#OpenLedger Система сопоставляет каждое ключевое слово, выводимое моделью, с обучающим корпусом, используя структуру суффиксных массивов для эффективного сопоставления.
Результаты показывают:
Когда @OpenLedger модель предсказывала «краткосрочную коррекцию биткойна», она в основном опиралась на три статьи рыночного анализа и определенные абзацы одного обсуждения в сообществе. Влияние каждого документа было количественно оценено, и я могу увидеть, какой отрывок текста оказал наибольшее влияние на решение модели. Этот процесс позволяет мне:
Проверить решения модели: убедиться, что модель не обучается на предвзятых данных;
Возврат данных вкладчикам: через OpenLedger($OPEN ) количественно оценить вклад и выдать вознаграждения;
Оптимизировать набор данных: выявить данные с высоким влиянием, чтобы повысить производительность модели.
Для меня и моей команды Infini-gram — это не просто технология, это делает ценность каждой записи данных прозрачной. Каждое суждение, выданное моделью, имеет четко отслеживаемый источник, и вкладчики данных могут получать признание в блокчейне, создавая тем самым справедливую и проверяемую экосистему ИИ.

