Together AI lance OSCAR pour réaliser la quantification du cache INT2, avec un débit amélioré jusqu'à 7,83 fois

ME News · 2026-05-31T21:06:07.000Z

ME AI message, 1er juin (UTC+8), Together AI a lancé la technologie OSCAR, réalisant la quantification du cache INT2 dans le raisonnement à long contexte des LLM. Cette méthode résout le problème de l'effondrement de la précision dû aux valeurs aberrantes au niveau des canaux en extrayant la rotation (la covariance de la requête pour la rotation des clés, la covariance des poids de score pour la rotation des valeurs) à partir des statistiques d'attention. Elle est complètement compatible avec la pile de services SGLang, utilisant des tokens de sink (64 BF16), des tokens récents (256 BF16) et des tokens historiques (INT2) dans une disposition de précision mixte à trois niveaux. Les résultats expérimentaux montrent : dans un contexte de 128K, avec 2,28 bits par élément KV, la perte de précision de Qwen3-32B n'est que de 0,02 point, tandis que GLM-4.7-FP8 a gagné 0,27 point ; comparant le INT2 naïf et le QuaRot-INT2, les scores sont presque nuls. En termes de débit, sur H100 avec une taille de lot de 1 pour 100K de contexte, Qwen3-4B-Thinking atteint une accélération de 3,08×, et avec une taille de lot de 32, il atteint une accélération de 6,17×. Cette recherche prouve pour la première fois la faisabilité du cache INT2 KV dans un environnement de production réel.

ME AI 消息，6 月 1 日（UTC+8），Together AI发布OSCAR技术，实现LLM长上下文推理中INT2 KV缓存量化实用化。该方法通过从注意力统计导出旋转（查询协方差用于Key旋转、分数加权值协方差用于Value旋转），解决INT2量化因通道级异常值导致精度崩溃的问题，并与SGLang生产服务堆栈完全兼容，采用sink tokens（64个BF16）、recent tokens（256个BF16）和history tokens（INT2）三层混合精度布局。实验结果显示：在128K上下文、每KV元素2.28位条件下，Qwen3-32B精度损失仅0.02分，GLM-4.7-FP8精度提升0.27分；对比naive INT2和QuaRot-INT2得分近乎为零。吞吐量方面，H100上100K上下文批处理大小1时，Qwen3-4B-Thinking达到3.08×加速，批处理大小32时达6.17×加速。该研究首次证明INT2 KV缓存在实际生产环境中的可行性。