@OpenLedger заявляє про OpenLoRA так - тисячі find-tuned моделей на одному GPU, економія до 90 відсотків вартості розгортання.

Це звучить сильно. Розберемо, чи витримує перевірку.

Технічна основа реальна. OpenLoRA працює на методі LoRA - донавчання, яке міняє не всю модель, а маленький набір параметрів. Такі адаптери легкі. Тримати багато легких адаптерів на одному GPU замість важких повних моделей - логіка робоча.

Але заявка має дві частини. Перша - тисячі моделей на GPU - правдоподібна за механікою LoRA. Друга - економія саме 90% - конкретне число. І його я не знайшов підтвердженим жодним незалежним бенчмарком.

90 відсотків це не виміряний публічно результат. Це цифра с анонсу проекту. Можливо точна. Можливо найкращій сценарій у лабораторних умовах. Різниця велика для того, хто на цю економію розраховує.

Технічна заявка, яку ти не можеш перевірити незалежним бенчмарком - береш на віру чи чекаєш цифр від когось стороннього? Цікава думка тих, хто вже розгортав LLM-інференс - наскільки реалістична економія, про яку тут йдеться?

$OPEN #OpenLedger