阶跃星辰Step3.5 Flash连续三天登上OpenClaw榜首

Step Fun's Step3.5 Flash model has ranked first in API call volume on the OpenClaw benchmark for three consecutive days, according to data from OpenRouter. This achievement marks the first time a Chinese large language model has led a global performance ranking, with Chinese models Kimi K2.5 and M2.5 also holding the top three spots since March 2026. The trend highlights a shift in global AI competition towards specialized, cost-effective models over general-purpose giants.

阶跃星辰Step3.5 Flash连续三天登上OpenClaw榜首

全球AI模型API聚合平台OpenRouter的最新数据显示,阶跃星辰的Step3.5 Flash模型在OpenClaw基准测试上的调用量已连续三日位居全球首位,标志着中国大模型在特定性能维度上首次实现了全球领先。这一成就不仅反映了中国AI公司在模型优化与市场策略上的成功,也预示着全球大模型竞争格局正从单一的通用能力比拼,向更细分、更注重性价比的实用场景深化。

关键要点

  • 性能登顶:阶跃星辰的Step3.5 Flash模型在OpenRouter平台的OpenClaw基准上,调用量连续三天排名全球第一。
  • 三强格局:自2026年3月以来,全球调用量前三名依次为月之暗面的Kimi K2.5、阶跃星辰的Step3.5 Flash和MiniMax的M2.5,中国模型包揽前三。
  • 平台价值:数据来源于OpenRouter,这是全球最大的AI模型API聚合与路由平台,其调用量数据是衡量模型实际受欢迎程度和实用性的关键市场指标。
  • 趋势信号:中国大模型在全球性公开基准和实际使用量上同时取得领先地位,是一个重要的行业转折点。

OpenClaw基准上的中国模型崛起

根据OpenRouter平台的数据监测,阶跃星辰近期推出的Step3.5 Flash模型表现异常突出。该模型在旨在评估模型代码与推理能力的OpenClaw基准测试集上,其API调用量已经持续三日保持全球第一。调用量是开发者“用脚投票”的直接结果,直接反映了模型在性价比、响应速度、任务完成度等方面受到了市场的认可。

更值得关注的是整体格局。自2026年3月开始,全球调用量排行榜的前三名就被中国公司包揽:月之暗面的Kimi K2.5、阶跃星辰的Step3.5 Flash以及MiniMax的M2.5。这表明中国头部AI公司不仅在紧追国际前沿,更在特定的关键赛道上形成了集群优势,改变了以往由GPT-4、Claude-3、Gemini等国际模型主导榜单的局面。

行业背景与深度分析

此次中国模型在OpenRouter调用量上包揽前三,绝非偶然,而是技术、市场与战略多重因素作用下的必然结果,其背后有深刻的行业逻辑。

首先,从技术路径看,这是“垂直优化”对“规模至上”的一次胜利。以阶跃星辰Step3.5 Flash为例,其名称中的“Flash”通常意味着在保持核心能力的同时,对推理速度、吞吐量或特定任务(如代码生成)进行了极致优化。这与OpenAI、Anthropic等公司追求通用智能体(AGI)的“巨无霸”路线形成对比。在OpenClaw这类侧重代码与推理的基准上,一个响应更快、成本更低、针对性强的小规模模型,往往比一个庞大但昂贵的通用模型更受开发者欢迎。这类似于在编程领域,专门优化的CodeLlama系列在GitHub上的受欢迎程度长期居高不下,其星标数远超许多参数更大的通用模型。

其次,市场数据揭示了性价比的绝对重要性。OpenRouter作为一个聚合平台,其核心价值在于帮助开发者根据成本、延迟和性能动态选择最优模型。中国模型能占据调用量前三,必然在定价策略上极具竞争力。参考历史数据,当GPT-3.5 Turbo的API价格下调时,其调用量总会迎来激增。中国模型很可能提供了接近甚至超越GPT-4性能(尤其在特定任务上),但价格仅为其几分之一的解决方案。这种“高性价比”标签一旦建立,就会形成强大的用户粘性和网络效应。

再者,这反映了全球大模型竞争进入“第二篇章”。第一篇章是比拼预训练规模、通用基准(如MMLU、GPQA)分数和上下文窗口长度。而现在,竞争焦点正转向推理成本、垂直领域适配、API生态和开发者体验。中国公司如月之暗面(以超长上下文著称)、阶跃星辰(强调推理优化)和MiniMax(深耕多模态与C端应用),都选择了差异化的突破口,而非单纯复刻GPT。这种策略使其能够在国际巨头的压力下找到生存和发展空间。例如,Kimi Chat凭借其200万字的长上下文能力,在中文内容处理领域建立了独特优势,其用户增长曲线曾多次在社交媒体引发关注。

最后,需客观看待“调用量第一”的含义。OpenClaw是重要的基准,但并非全部。在更全面的通用知识基准(如MMLU)、复杂推理基准(如GPQA)或多模态基准(如MMMU)上,国际顶尖模型目前仍保持领先。然而,调用量榜首的意义在于,它证明了在模型经济的“实战”环节——即开发者实际付费使用的场景中,中国模型已经具备了强大的吸引力和竞争力。这比在学术论文中刷新一个基准分数,更能体现其商业化的成功潜力。

未来影响与展望

这一事件将对全球AI产业格局产生一系列连锁反应。

对于中国AI行业而言,这是一剂强心针。它验证了差异化技术路线的可行性,并将吸引更多资本和人才涌入模型优化、推理加速、垂直场景落地等赛道。预计会有更多中国公司效仿,推出在特定基准或任务上“单项夺冠”的模型,从而在整体生态中形成合力。投资市场也会更加关注模型的实际调用量和营收能力,而非仅仅关注参数规模。

对于国际巨头,竞争压力将进一步加大。OpenAI、Anthropic等公司将不得不更认真地考虑其定价策略,并可能加速推出更多“小型化”、“专业化”的模型变体(如同此前推出的GPT-4 Turbo和o1-preview系列),以应对来自中国性价比模型的冲击。全球模型市场的价格战可能因此加剧。

对于全球开发者与企业用户,这无疑是个利好。他们将拥有更多高质量、低成本的选择,降低AI应用的集成门槛,从而推动AI技术在更多行业和场景中落地。模型聚合平台如OpenRouter、Together AI的地位将愈发重要,成为模型市场的“流量入口”和“裁判员”。

下一步需要关注的关键点包括:1) 这一调用量优势能否长期维持,并扩展到其他基准(如更通用的聊天基准);2) 阶跃星辰、月之暗面等公司是否会借此势头,加速其模型的国际化部署与市场推广;3) OpenAI等公司如何回应,是否会针对亚太市场或特定任务推出更具竞争力的产品。无论如何,全球大模型竞技场已经因中国力量的强势崛起而变得更加多元和充满变数。

常见问题