#openledger $OPEN 几千个模型挤一张卡?这事要是成了,算力还真就不金贵了

聊个可能被很多人当空气的事儿。

你训练了个LoRA,效果还行,想放出来给人用。结果一看,要跑推理得单独租台机器,哪怕只是偶尔被人调一下,那张卡也得24小时待命。这不是纯烧钱么?所以我一直觉得,单卡跑成百上千个微调模型这事儿,比大多数人想象的要重得多。

@OpenLedger 那个OpenLoRA框架,白皮书15-16页写得挺实在。说白了就一句话:所有微调模型共用同一个基座模型的显存,谁被调用就把谁那一小撮适配器权重拉进来,用完就腾地儿。你想想,以前一个模型霸一张卡,现在几千个模型挤一张卡——还不怎么互相拖后腿,他们那个SGMV的优化专门干这个的,分段矩阵向量乘法,批量跑的时候调度得很顺。

这对我来说最直接的变化是啥?在Datanets交的那批数据,微调出来的模型终于不是躺硬盘里吃灰了。真有人调用,推理费就按Proof of Attribution的规则分到我头上,不用我扛着部署成本等用户上门。说白了,$OPEN那个“数据贡献→收益”的闭环能不能转起来,底层就看这种技术能不能把门槛砸碎。

算力贵不贵,不只看单卡多少钱,更看一张卡能同时养活多少个模型。OpenLoRA这个方向,我觉得押对了。@OpenLedger