MiniMax 在 2026 年 2 月 12 日发布 M2.5,核心叙事非常直接:模型经过海量真实环境强化学习训练(官方称“数十万复杂真实环境”),重点优化“有经济价值的生产任务”,而不是只追逐单点学术分数。具体到任务形态,官方把能力聚焦在四个方向:编程、工具调用与搜索、办公交付、复杂 Agent 任务效率。
从指标披露看,M2.5 给出的几个关键数字很有冲击力:SWE-Bench Verified 80.2%、Multi-SWE-Bench 51.3%、BrowseComp(含上下文管理)76.3%。更重要的是官方把“完成时间”拉出来单独强调:在 SWE-Bench Verified 流程上,端到端平均时长从 M2.1 的 31.3 分钟降到 22.8 分钟,提速约 37%,并且速度接近 Opus 4.6 的 22.9 分钟。
这次 M2.5 在编程上的亮点,不只是 benchmark 数字提升,而是模型行为模式发生了变化:官方特别提到模型会先写“规格/设计思路”,再落代码,具备更明显的架构师式分解倾向。这个点很关键,因为它直接影响代码产出的可维护性和团队协作可读性。
官方还强调了训练覆盖语言和场景的广度:Go、C/C++、TypeScript、Rust、Kotlin、Python、Java、JS、PHP、Lua、Dart、Ruby 等多语言,并覆盖 Web、Android、iOS、Windows 与后端 API/数据库链路。换句话说,它瞄准的是“可落地的生产工程”,而不是只会拼 demo 页面。
很多模型现在都能调用工具,但差距在于“怎么调用”。M2.5 给出的方向是:在 BrowseComp、Wide Search、RISE 这类任务中,用更少轮次完成更高质量结果(官方称比 M2.1 平均减少约 20% 轮次)。这意味着模型不仅答案对,路径也更高效,Token 消耗更可控。对企业来说,这种优化直接变成时延、成本和稳定性收益。
M2.5 在办公能力上的升级值得重视。MiniMax 不是只宣传“会写 Word/PPT/Excel”,而是强调与金融、法律、社科领域资深从业者共建数据和标准,目标是输出“可交付物”——也就是能直接用于业务流程的文档、模型和分析结果。官方自建的 GDPval-MM 框架把交付质量、轨迹专业性和 token 成本一起评估,这种评估思路更接近企业真实 KPI。
| 维度 | M2.5 / M2.5-Lightning(官方口径) | 意义 |
|---|---|---|
| 推理速度 | 50 TPS / 100 TPS | 高并发 Agent 流程可控,交互延迟更低 |
| 定价 | Lightning:输入 $0.3/M,输出 $2.4/M;M2.5 约半价 | 单位任务成本显著下降,适合大规模常开 |
| 小时成本 | 100 TPS 连续运行 1 小时约 $1;50 TPS 约 $0.3 | 从“能试用”变成“能长期运营” |
这套成本结构的实际意义是:很多过去“技术可行、商业不可行”的 Agent 场景,今天可能第一次变成正收益。比如持续监控、多轮研究助手、研发流程自动化、财务建模协作机器人等,都开始有规模化部署的现实土壤。
M2.5 的底层方法论也很有看点。官方披露其 Agent-Native RL 框架 Forge 通过中间层把“训练推理引擎”和“Agent 层”解耦,方便接入不同工具链与脚手架,同时通过异步调度和树状样本合并策略提升训练吞吐(官方称约 40x 训练提速)。
同时,他们延续了此前的算法路线(如 CISPO)来稳定 MoE 训练,并引入过程奖励机制处理长链路 credit assignment 问题。简单说:M2.5 的提升并非单次调参,而是训练基础设施、奖励设计、产品反馈回路三者共同进化。
我的判断很明确:M2.5 的核心价值在于“生产可运营性”。很多模型在 demo 时很强,但放进真实业务流里会被延迟、成本、稳定性拖垮。M2.5 这次的打法刚好反过来——先把真实流程打透,再用速度和价格把门槛砍掉。对企业来说,这比单一榜单领先更重要。
当然,也要保持冷静:官方数据仍需更多第三方长期复现实证,特别是跨行业、跨地区、跨工具栈的稳定表现。真正的胜负,不是发布周,而是三个月后谁还在生产线上稳定跑、持续创造收益。