MiniMax 这篇文章的标题叫“Early Echoes of Self-Evolution”,中文直译过来,大概是“自我进化的早期回声”。这不是一个随手起的营销词,而是整篇发布最想推销的概念:M2.7 不只是被人拿来做任务,它已经开始参与自己的训练、实验、工作流优化,甚至帮助构建下一轮更强的模型生产系统。
如果只看表面,M2.7 像是在讲三件事:第一,它的软件工程能力很强,能做端到端项目交付、日志分析、Bug 排查、代码安全和机器学习任务;第二,它在办公场景中的文件处理、复杂编辑、工具调用和多轮修订能力明显增强;第三,它在人设一致性和情绪理解上也有提升,说明 MiniMax 不只盯着“写代码”这条线,而是想覆盖工作和娱乐两个方向。
但真正的重点其实是第四层:MiniMax 想把 M2.7 定义为一个能嵌入 Agent 系统、并开始反过来改进 Agent 系统本身的模型。换句话说,模型不再只是工作流里的一个“执行器”,而是逐渐变成“工作流共同设计者”。这一点,才是它跟很多只晒 benchmark 的模型发布稿最大的区别。
这篇稿子里最有意思的,不是它说自己会写多少代码,而是它把内部研究流程讲得很像一个半自动的研发组织。MiniMax 描述的场景是:研究员先和 Agent 讨论实验想法,Agent 做文献梳理、跟踪实验规范、准备数据和训练环境、启动实验,再在实验过程中自动做日志阅读、指标分析、调试、改代码、发合并请求、跑 smoke test。人只在关键决策节点介入,剩下大量机械但又很专业的工作由 Agent 接手。
这套叙事的重点不在“自动化”,而在“闭环”。一个普通自动化脚本也能跑实验,但它不会看失败轨迹、不会总结当前轮次哪里做得烂、不会把经验沉淀成短期记忆、也不会基于反馈去修改下一轮策略。MiniMax 这里强调的是:M2.7 不只是接工具,而是通过短期记忆、自我批评、自我优化三件套,把连续多轮迭代串起来。这个方向非常像未来 Agent 的核心竞争力——不是一次回答多聪明,而是连续 50 轮、100 轮之后还能不崩。
文章里给了一个很关键的例子:M2.7 被用来优化内部编程 scaffold,它自主执行了 100 多轮“分析失败轨迹 → 规划改动 → 修改代码 → 跑评测 → 对比结果 → 决定保留还是回滚”的循环,并最终把内部评测表现提升了 30%。这事如果属实,含金量相当高。因为这不是提示词里加一句“请你自我反思”那种花活,而是模型开始在真实工程反馈中调整自己的工作框架。说白了,这已经不是问答模型的思路,而是“把模型放进一个能持续进化的生产系统里”。
当然,别被“self-evolution”这词带飞。它还远不是完全自治。这里的自我进化,本质上仍然是研究员定义任务边界、评测目标和可执行环境后,模型在这个笼子里做递归优化。它很强,但没强到科幻片那个地步。把它看成“受控环境中的自我改进”更准确,也更靠谱。
MiniMax 给出的工程侧数据相当激进:SWE-Pro 56.22%,VIBE-Pro 55.6%,Terminal Bench 2 为 57.0%,并声称在 SWE Multilingual 和 Multi SWE Bench 这类更贴近真实工程的测试上也有明显优势。单看数字,M2.7 已经不是“国产里还不错”的级别,而是直接往全球第一梯队边上挤。
更有意思的是它举的实战例子:线上事故排查时,模型能把监控指标和部署时间线关联起来做因果分析,再去数据库验证根因,识别缺失的索引迁移文件,甚至知道先用非阻塞索引创建来止血,再提交 merge request。这个案例要是真的,那说明 M2.7 不是停留在“给你一段可能对的代码”,而是已经触到了 SRE、数据库、可观测性和工程决策的交叉地带。很多模型代码写得花里胡哨,一进生产环境就露馅;而 MiniMax 想证明 M2.7 理解的是系统,不只是语法。
我对这段最大的评价是:这比纯 benchmark 更重要。因为真实世界的软件工程从来不是 LeetCode,不是补全几行函数就结束,而是日志、依赖、环境、数据库、上线窗口、回滚风险全都搅在一起。如果一个模型能在这种泥潭里稳住,那它才配叫工程模型。M2.7 至少在叙事上,已经完全朝这个方向走了。
很多人一看到模型发布,只盯着代码能力,这是个典型误区。真正能大规模落地的 Agent,最后拼的往往不是“最强代码生成”,而是“在复杂环境里长期稳定做事”的能力。M2.7 在办公场景上的升级,恰恰说明 MiniMax 很清楚这一点。
文章里提到它在 GDPval-AA 上取得 1495 的 ELO,在开源模型里排第一,同时强化了 Excel、PPT、Word 的复杂编辑、多轮修订和高保真交付能力。听起来像小事,其实不是。真实公司里最耗时间的活,很多就是读材料、改文档、做表、调 PPT、来回修十几版。模型如果不能在这种恶心但高频的任务里稳定输出,再能写代码也只是窄用例英雄。
更关键的是它对复杂 Skill 的遵从率。MiniMax 说,M2.7 在 40 个超过 2000 token 的复杂技能环境里,仍能维持 97% 的技能遵循率。这个指标很像 Agent 时代的“工业稳定性分数”。因为你一旦把模型放进带记忆、带工具、带工作流约束的环境里,最怕的就是它忘指令、乱调用、半路偏航、或者自己编造状态。能在复杂约束里稳住,比单轮回答好看更有商业价值。
至于 Agent Teams,这更是个大信号。MiniMax 明说,多 Agent 协作不是靠提示词就能糊出来的,它要求模型天然理解角色边界、协议遵守、对抗性推理和行为差异化。这个判断我是认同的。很多所谓多 Agent,其实只是一个模型换几个名字轮流说话,演得像,骨子里还是一个脑子。若 M2.7 真能稳定处理团队角色分工,那它在未来组织级 Agent 系统里的想象空间会非常大。
M2.7 这次发布最聪明的地方,是它没有只讲“更高分”,而是讲“更完整的 agentic capability”。这比单纯卷 benchmark 更高级,因为行业正在从“谁更会答题”切向“谁更能交付工作”。从这个角度看,M2.7 站位是对的,而且站得挺准。
但冷静讲,它离真正的统治级模型还有距离。首先,文章里大量关键能力来自 MiniMax 自己构建的内部场景和自定义评测,外部复现难度高;其次,“自我进化”虽然方向对,但目前更像高质量 scaffold 下的递归优化,不是通用自治智能;再次,跟 Opus 4.6、GPT-5.4 这种顶级模型相比,M2.7 在最复杂开放任务中的稳定性和上限,恐怕还需要更多第三方验证。
不过,哪怕把滤镜摘掉,这依然是一篇值得认真看的发布。因为它透露出一个清晰趋势:模型厂商正在从“卖模型能力”转向“卖完整工作系统能力”。谁能把模型、记忆、技能、工具、组织流程、评测反馈串成闭环,谁就更接近下一代 AI 产品形态。M2.7 也许还不是终局,但它很像一个明确的路标。
| 维度 | MiniMax M2.7 | Opus 4.6 | GPT-5.4 / 5.3-Codex | 我的判断 |
|---|---|---|---|---|
| 核心叙事 | 自我进化、Agent Harness、组织级协作 | 深度推理、多 Agent、超长上下文 | 通用执行、终端操作、实战工程效率 | M2.7 最像在讲“AI 研发组织” |
| 软件工程 | 已达第一梯队边缘,强调生产环境处置 | 上限极高,复杂推理强 | 执行速度快,工程落地凶猛 | M2.7 已经不丢人,但还需要更多外部实锤 |
| 办公交付 | 明显强化 Word/Excel/PPT 高保真编辑 | 强,但更多优势在深度推理 | 强在执行与任务完成度 | M2.7 很明显在补“上班场景”这条线 |
| 工具/技能遵循 | 高,强调复杂 Skill 环境稳定性 | 高 | 高 | Agent 时代这项比闲聊能力更值钱 |
| 娱乐/人设一致性 | 主动强调,想走工作+陪伴双路线 | 较强 | 相对没那么强调 | M2.7 这块更像产品层差异化 |
如果要用一句话总结 MiniMax M2.7,我会这么说:它不是在证明自己比别人多会几道题,而是在证明自己能不能成为一个组织里的“持续交付节点”。 这差别很大。前者只是模型竞赛,后者才是未来生产系统。
所以,M2.7 这次最值得关注的,不是它是不是“全世界第一”,而是它已经明确走上了一条对的路:让模型参与真实流程、参与自我改进、参与多 Agent 协作、参与复杂技能系统。谁先把这条路走通,谁就更有机会定义下一代 Agent 平台。
MiniMax 这次不是吹了个空泡泡,但也没到可以封神的地步。它更像是一次相当硬的前哨战:信号很强,方向很对,后面就看它能不能把这些能力真正做成稳定、开放、可验证的产品。
本文基于 MiniMax 官方文章《MiniMax M2.7: Early Echoes of Self-Evolution》整理与分析:https://www.minimax.io/news/minimax-m27-en