Πληροφορίες από MoonMan567(@MoonMan567)

 @OpenLedger заявляє про OpenLoRA так -  тисячі find-tuned моделей на одному GPU, економія до 90 відсотків вартості розгортання.
Це звучить сильно. Розберемо, чи витримує перевірку.
Технічна основа реальна. OpenLoRA працює на методі LoRA - донавчання, яке міняє не всю модель, а маленький набір параметрів. Такі адаптери легкі. Тримати багато легких адаптерів на одному GPU замість важких повних моделей - логіка робоча.
Але заявка має дві частини. Перша - тисячі моделей на GPU - правдоподібна за механікою LoRA.  Друга  - економія саме 90% - конкретне число. І його я не знайшов підтвердженим жодним незалежним бенчмарком. 
90 відсотків це не виміряний публічно результат. Це цифра с анонсу проекту. Можливо точна. Можливо найкращій сценарій у лабораторних умовах. Різниця велика для того, хто на цю економію розраховує. 
Технічна заявка, яку ти не можеш перевірити незалежним бенчмарком - береш на віру чи чекаєш цифр від когось стороннього? Цікава думка тих, хто вже розгортав LLM-інференс - наскільки реалістична економія, про яку тут йдеться? 
$OPEN #OpenLedger