perspectivas de 苏格(@suge)

GLM-5.2 ofrece a los modelos de codificación de peso abierto una ventana de contexto real de 1M-token. La parte difícil es servir esa ventana completa en el hardware que muchos equipos ya utilizan en producción: Hopper.

Cuantizamos GLM-5.2-FP8 en W4AFP8 y lo validamos en un solo nodo 8×H200 con SGLang. El punto de control reduce la memoria de peso de 755 GB a 368 GB, liberando 387 GB de HBM para el caché KV de 1M-token y margen de tiempo de ejecución.

Por qué esto es importante

GLM-5.2 ya resolvió el lado del modelo de contexto largo: atención dispersa, IndexShare, decodificación especulativa MTP, uso de herramientas, razonamiento y una ventana de 1,048,576-token. El despliegue aún tiene un segundo problema. Una ventana de 1M-token necesita espacio para los pesos del modelo, caché KV, gráficos CUDA, búferes de tiempo de ejecución y sobrecarga de servicio.

El punto de control FP8 oficial es la línea base de servicio general correcta. En Hopper, esa línea base deja mucho menos margen de memoria una vez que empujas hacia la ventana de contexto completa. W4AFP8 cambia el presupuesto de memoria sin cambiar la familia del modelo, tokenizador, forma de API o comportamiento de GLM-5.2.