ME AI 消息,6 月 1 日(UTC+8),Together AI发布OSCAR技术,实现LLM长上下文推理中INT2 KV缓存量化实用化。该方法通过从注意力统计导出旋转(查询协方差用于Key旋转、分数加权值协方差用于Value旋转),解决INT2量化因通道级异常值导致精度崩溃的问题,并与SGLang生产服务堆栈完全兼容,采用sink tokens(64个BF16)、recent tokens(256个BF16)和history tokens(INT2)三层混合精度布局。实验结果显示:在128K上下文、每KV元素2.28位条件下,Qwen3-32B精度损失仅0.02分,GLM-4.7-FP8精度提升0.27分;对比naive INT2和QuaRot-INT2得分近乎为零。吞吐量方面,H100上100K上下文批处理大小1时,Qwen3-4B-Thinking达到3.08×加速,批处理大小32时达6.17×加速。该研究首次证明INT2 KV缓存在实际生产环境中的可行性。