Сегодня я почти два часа спорил с коллегой на работе о безсессионных GPU в @OpenGradient . Сперва всё было довольно просто: мы отлаживали случай, когда результаты инференса выглядели немного неточно, и разговор постепенно съехал в область архитектуры. Но в какой-то момент он перестал быть вообще про GPU.

Он утверждал, что безсессионные GPU — правильное направление, потому что они легко масштабируются: любой GPU может обработать любой запрос, без зависимости от сессии и без KV-cache, которую нужно поддерживать. Я не спорил с тезисом о масштабируемости. Но я задал ему прямой вопрос: «Если состояния нет, то когда что-то идёт не так, как вы вообще это прослеживаете до причины?»

В OpenGradient запрос не поступает напрямую в модель. Он проходит через retrieval (получение данных), векторный поиск, кэширование — и только потом собирается в контекст. То, что GPU действительно видит, — это лишь финальный упакованный вход. На этом этапе проблема уже не внутри GPU.

Он сказал, что так и работают распределённые системы. Справедливое замечание. Но мне всё равно казалось иначе. Раньше, по крайней мере, было за что зацепиться: состояние сессии или какой-то контекст выполнения, который можно было проверить. Теперь же всё разбито по кэшу, retrieval, embeddings, таймингам… каждый компонент живёт где-то отдельно.

Была часть спора, где мы снова и снова возвращались к одному и тому же вопросу: что именно мы тут масштабируем? Он говорил — вычисления. А я ответил: нет, ощущается, что мы масштабируем процесс сборки входа ещё до того, как модель вообще начинает работать. GPU — это просто выполнение в конце гораздо более длинной цепочки.

Больше всего меня в OpenGradient поразило то, насколько сложнее становится отладка. GPU делает свою работу, модель в порядке, задержка выглядит нормально. Но когда выходные данные различаются, нет единого места, на которое можно указать и сказать: «вот здесь всё пошло не так».

Безсессионные GPU на самом деле не упрощают систему. Они переносят сложность вверх по цепочке, делая сбои гораздо труднее проследить до чёткой первопричины.

$OPG #OPG $XCX $CAP