Google DeepMind 开源 Gemma 4 多模态模型家族

ME News 消息，4 月 3 日（UTC+8），Google DeepMind 近日开源了 Gemma 4 多模态模型家族。该系列模型支持文本和图像输入（小模型还支持音频），生成文本输出，包含预训练和指令调优变体，上下文窗口最高可达 256K 令牌，并支持超过 140 种语言。模型采用密集（Dense）和混合专家（MoE）两种架构，共有 E2B、E4B、26B A4B 和 31B 四种尺寸。其核心能力包括高性能推理、扩展多模态处理、设备端优化、增大上下文窗口、增强编码与智能体能力以及原生系统提示支持。在技术细节上，模型采用混合注意力机制，全局层采用统一的键值对和比例 RoPE（p-RoPE）。其中，E2B 和 E4B 模型采用逐层嵌入（PLE）技术，有效参数少于总参数。而 26B A4B MoE 模型在推理时仅激活 3.8B 参数，运行速度接近 4B 参数模型。（来源：ME）