🚀 MiniMax M2.5 深度解读：更快、更强、更便宜的 Agent 生产力模型

发布时间：2026-02-13

一句话结论：MiniMax M2.5 这次不是“小步迭代”，而是直接把“Agent 能力 + 速度 + 成本”三件事一起推到了新档位：在官方披露中，其 SWE-Bench Verified 达到 80.2%，多项工具调用/搜索任务达到行业领先，同时把运行成本压到“可长期常开”的水平，目标很明确——让 Agent 真正进入规模化生产。

1) 这次发布到底说了什么？

MiniMax 在 2026 年 2 月 12 日发布 M2.5，核心叙事非常直接：模型经过海量真实环境强化学习训练（官方称“数十万复杂真实环境”），重点优化“有经济价值的生产任务”，而不是只追逐单点学术分数。具体到任务形态，官方把能力聚焦在四个方向：编程、工具调用与搜索、办公交付、复杂 Agent 任务效率。

从指标披露看，M2.5 给出的几个关键数字很有冲击力：SWE-Bench Verified 80.2%、Multi-SWE-Bench 51.3%、BrowseComp（含上下文管理）76.3%。更重要的是官方把“完成时间”拉出来单独强调：在 SWE-Bench Verified 流程上，端到端平均时长从 M2.1 的 31.3 分钟降到 22.8 分钟，提速约 37%，并且速度接近 Opus 4.6 的 22.9 分钟。

2) 编程能力：不只是修 Bug，而是“工程全生命周期”

这次 M2.5 在编程上的亮点，不只是 benchmark 数字提升，而是模型行为模式发生了变化：官方特别提到模型会先写“规格/设计思路”，再落代码，具备更明显的架构师式分解倾向。这个点很关键，因为它直接影响代码产出的可维护性和团队协作可读性。

官方还强调了训练覆盖语言和场景的广度：Go、C/C++、TypeScript、Rust、Kotlin、Python、Java、JS、PHP、Lua、Dart、Ruby 等多语言，并覆盖 Web、Android、iOS、Windows 与后端 API/数据库链路。换句话说，它瞄准的是“可落地的生产工程”，而不是只会拼 demo 页面。

3) 搜索与工具调用：从“会用工具”到“少走弯路”

很多模型现在都能调用工具，但差距在于“怎么调用”。M2.5 给出的方向是：在 BrowseComp、Wide Search、RISE 这类任务中，用更少轮次完成更高质量结果（官方称比 M2.1 平均减少约 20% 轮次）。这意味着模型不仅答案对，路径也更高效，Token 消耗更可控。对企业来说，这种优化直接变成时延、成本和稳定性收益。

4) 办公场景：开始瞄准“可交付成果”而非“漂亮文本”

M2.5 在办公能力上的升级值得重视。MiniMax 不是只宣传“会写 Word/PPT/Excel”，而是强调与金融、法律、社科领域资深从业者共建数据和标准，目标是输出“可交付物”——也就是能直接用于业务流程的文档、模型和分析结果。官方自建的 GDPval-MM 框架把交付质量、轨迹专业性和 token 成本一起评估，这种评估思路更接近企业真实 KPI。

5) 成本与速度：为什么说这次最“工程化”？

维度	M2.5 / M2.5-Lightning（官方口径）	意义
推理速度	50 TPS / 100 TPS	高并发 Agent 流程可控，交互延迟更低
定价	Lightning：输入 $0.3/M，输出 $2.4/M；M2.5 约半价	单位任务成本显著下降，适合大规模常开
小时成本	100 TPS 连续运行 1 小时约 $1；50 TPS 约 $0.3	从“能试用”变成“能长期运营”

这套成本结构的实际意义是：很多过去“技术可行、商业不可行”的 Agent 场景，今天可能第一次变成正收益。比如持续监控、多轮研究助手、研发流程自动化、财务建模协作机器人等，都开始有规模化部署的现实土壤。

6) RL 扩展与 Forge 框架：M2.5 背后的增长飞轮

M2.5 的底层方法论也很有看点。官方披露其 Agent-Native RL 框架 Forge 通过中间层把“训练推理引擎”和“Agent 层”解耦，方便接入不同工具链与脚手架，同时通过异步调度和树状样本合并策略提升训练吞吐（官方称约 40x 训练提速）。

同时，他们延续了此前的算法路线（如 CISPO）来稳定 MoE 训练，并引入过程奖励机制处理长链路 credit assignment 问题。简单说：M2.5 的提升并非单次调参，而是训练基础设施、奖励设计、产品反馈回路三者共同进化。

7) 我的判断：M2.5 的战略价值

我的判断很明确：M2.5 的核心价值在于“生产可运营性”。很多模型在 demo 时很强，但放进真实业务流里会被延迟、成本、稳定性拖垮。M2.5 这次的打法刚好反过来——先把真实流程打透，再用速度和价格把门槛砍掉。对企业来说，这比单一榜单领先更重要。

当然，也要保持冷静：官方数据仍需更多第三方长期复现实证，特别是跨行业、跨地区、跨工具栈的稳定表现。真正的胜负，不是发布周，而是三个月后谁还在生产线上稳定跑、持续创造收益。

原文链接：https://www.minimax.io/news/minimax-m25

返回首页