DeepSeek hat die Vorschauversion seiner V4-Serie von Open-Source-Modellen veröffentlicht, lizenziert unter MIT, mit Gewichten, die jetzt auf Hugging Face und ModelScope verfügbar sind. Laut Odaily umfasst die Serie zwei MoE-Modelle: V4-Pro, mit ungefähr 1,6 Billionen Gesamtparametern und 49 Milliarden aktivierten Parametern pro Token, sowie V4-Flash, mit 284 Milliarden Gesamtparametern und 13 Milliarden aktivierten Parametern. Beide Modelle unterstützen einen Kontext von 1 Million Tokens. Die offizielle Erklärung hebt hervor, dass die neuen Modelle im Vergleich zur Version V3.2 den Speicherverbrauch und die Rechenkosten bei der Inferenz von langen Texten erheblich reduzieren.

