Cloudflare formalmente entra no campo da inferência de grandes modelos, lançando o Kimi K2.5: o agente de segurança interno consome 70 bilhões de tokens por dia, custo reduzido em 77%

De acordo com o monitoramento do 1M AI News, a Cloudflare anunciou recentemente que a plataforma Workers AI começou a suportar a inferência de grandes modelos, sendo o primeiro modelo a ser lançado o Kimi K2.5 do lado escuro da lua, que suporta uma janela de contexto de 256K, chamadas de ferramentas de múltiplas rodadas, entrada visual e saída estruturada. O modelo padrão Kimi K2.5 já foi definido no template SDK de Agents. A Cloudflare já utiliza o Kimi K2.5 para desenvolvimento diário. Engenheiros o utilizam como o modelo principal de agente de programação no ambiente OpenCode, além de integrá-lo à linha de revisão de código automatizada. Um dos agentes de auditoria de segurança processa mais de 70 bilhões de tokens por dia, tendo descoberto mais de 15 problemas de segurança confirmados em um único repositório de código. A Cloudflare estima que, se um modelo comercial de médio porte fosse utilizado para executar a mesma tarefa, o custo anual seria de cerca de 2,4 milhões de dólares, e ao mudar para o Kimi K2.5, o custo foi reduzido em 77%. A plataforma também lançou três melhorias: 1. Desconto de cache de prefixo: tokens de entrada já processados em diálogos de múltiplas rodadas não são cobrados novamente, tokens que atingem o cache desfrutam de preço com desconto 2. Cabeçalho de afinidade de sessão: novo cabeçalho de requisição x-session-affinity, roteando a mesma sessão para a mesma instância do modelo para melhorar a taxa de acerto do cache 3. API de inferência assíncrona em lote: requisições que excedem o limite de taxa de sincronização podem ser enfileiradas para execução assíncrona, testes internos normalmente são concluídos em menos de 5 minutos, adequados para varredura de código e agentes de pesquisa não em tempo real.