ME News mensagem, 25 de março (UTC+8), recentemente, uma compartilhamento de tecnologia apontou que é possível executar enormes modelos de especialistas mistos em hardware Mac, sem precisar carregar o modelo inteiro na memória. O método principal é carregar em fluxo um subconjunto dos pesos dos especialistas a partir do SSD para cada token gerado. No texto, o modelo Kimi 2.5 é usado como exemplo, apontando que sua quantidade total de parâmetros é de 1T, mas a quantidade de parâmetros ativados é de apenas 32B, portanto, pode ser adaptado a 96GB de memória. (Fonte: ME)