رؤى 小张在路上(@zhh37219)

#openledger $OPEN 几千个模型挤一张卡？这事要是成了，算力还真就不金贵了
聊个可能被很多人当空气的事儿。
你训练了个LoRA，效果还行，想放出来给人用。结果一看，要跑推理得单独租台机器，哪怕只是偶尔被人调一下，那张卡也得24小时待命。这不是纯烧钱么？所以我一直觉得，单卡跑成百上千个微调模型这事儿，比大多数人想象的要重得多。
@OpenLedger  那个OpenLoRA框架，白皮书15-16页写得挺实在。说白了就一句话：所有微调模型共用同一个基座模型的显存，谁被调用就把谁那一小撮适配器权重拉进来，用完就腾地儿。你想想，以前一个模型霸一张卡，现在几千个模型挤一张卡——还不怎么互相拖后腿，他们那个SGMV的优化专门干这个的，分段矩阵向量乘法，批量跑的时候调度得很顺。
这对我来说最直接的变化是啥？在Datanets交的那批数据，微调出来的模型终于不是躺硬盘里吃灰了。真有人调用，推理费就按Proof of Attribution的规则分到我头上，不用我扛着部署成本等用户上门。说白了，$OPEN那个“数据贡献→收益”的闭环能不能转起来，底层就看这种技术能不能把门槛砸碎。
算力贵不贵，不只看单卡多少钱，更看一张卡能同时养活多少个模型。OpenLoRA这个方向，我觉得押对了。@OpenLedger