Cloudflare接入Kimi K2.5后每天跑70亿 token,安全审计成本省下77%
Cloudflare的WorkersAI平台正式接入月之暗面(MoonshotAI)的KimiK2.5,支援256K上下文、多轮工具呼叫与视觉输入。Cloudflare内部安全审计Agent每天处理超过70亿token,切换后成本较中档商业模型降低77%。(前情提要:Cursor用KimiK2.5训模型却没说,开发者抓包、删推、官方急转弯全纪录)(背景补充:帮你挡爬虫的Cloudflare推出“一键全站爬虫API”,完美支援RAG、增量更新与模型训练)Cloudflare的WorkersAI平台悄悄做了一件大事,据Cloudflare官方部落格,把月之暗面的KimiK2.5设为AgentsSDKstarter的预设模型。Cloudflare工程师自己也在用它跑真实的安全审计任务,而且省了很多经费。KimiK2.5是目前开源阵营里少数做到“前沿规格”的模型之一,支援256K上下文视窗、多轮工具呼叫(multi-turntoolcalling)、视觉输入与结构化输出。对于需要长文推理的Agent任务来说,这几个数字已经相当实用。一天跑70亿token的安全AgentCloudflare工程师在OpenCode环境中直接把KimiK2.5拿来当程式设计Agent的主力,还部署了一个名为“Bonk”的公开程式码审查Agent,接入自动化管线。更亮眼的是内部安全审计场景。这个Agent每天处理超过70亿token。如果用标准等级商业模型跑同样的工作量,一年下来成本大概是240万美元,换成KimiK2.5之后,成本直接砍掉77%,省下将近185万美元。这个数字不是在做广告,而是Cloudflare工程师在官方部落格直接摊出来的帐。Cloudflare推出三个改进光是换模型还不够,Cloudflare同步推出三项平台层面的改进,专门针对Agent长对话场景的成本和效率问题:字首快取折扣(PrefixCaching):多轮对话中已处理过的输入token不再重复计费,快取命中的token享受折扣价。长任务跑下来,这块省的钱相当可观。SessionAffinityHeader:新增x-session-affinity请求头标,将同一会话路由到同一模型,让快取命中率更高,OpenCode与AgentsSDKstarter已内建支援。异步批次推理API:超出同步速率限制的请求可以异步排队执行,内部测试通常在5分钟内完成。适合程式码扫描、研究类不需要即时回应的Agent任务。底层推理引擎:Infire加持,不是硬套现成框架Cloudflare没有用现成的推理框架,而是用自家的Infire推理引擎做了客制化核心,采用资料并行、张量并行与专家并行化,搭配分离式字首处理架构。目前KimiK2.5是WorkersAI上线大模型推理的第一个案例,也说明了Cloudflare在AI基础设施这块的野心,可以配合网路平台,而且够便宜。相关报导Cursor用KimiK2.5训模型却没说,开发者抓包、删推、官方急转弯全纪录帮你挡爬虫的Cloudflare推出“一键全站爬虫API”,完美支援RAG、增量更新与模型训练深度分析》Cloudflare推出稳定币“NETDollar”背后在下一盘什么大棋?〈Cloudflare接入KimiK2.5后每天跑70亿token,安全审计成本省下77%〉这篇文章最早发布于动区BlockTempo《动区动趋-最具影响力的
区块链新闻媒体》。