📰 LLM 月度摘要:2025 年 12 月
发布日期: 2026.02.03
作者: Simon Willison (LLM Digest)
该摘要回顾了 2025 年 12 月 LLM 领域的关键进展,重点突出了编码 Agent 在性能上的飞跃、模型发布竞争以及 Agent 标准化的趋势。
1. AI 编码 Agent 的重大飞跃
**模型能力提升:** Claude Opus 4.5 和 GPT-5.2 在处理长时间运行的复杂编码任务中,实现了“下一级升级”。
**合规性测试的价值:** 作者的实践证明,以 **合规性测试套件** 为指导,能极大地提升 Agent 的工作效率和代码准确性,例如仅用 **4.5 小时**就完成了 Python 库到 JavaScript 的移植。
**异步编码效率:** 即使通过手机进行间歇性的异步编码,效率也“高得惊人”,作者本人在一个月内完成了 566 次 Git 提交。
2. 新模型发布与激烈竞争
**OpenAI 应对竞争:** 报道称 OpenAI 在面对 Google Gemini 3 的竞争时,内部宣布了“Code Red”。
**GPT-5.2/Codex:** 发布了基础模型 **GPT-5.2** (12月11日) 和专门优化的代码模型 **GPT-5.2 Codex** (12月19日)。
**Gemini 3 Flash:** 谷歌发布了更快、更经济的 **Gemini 3 Flash** (12月17日),在多项基准测试中表现优异。
**开源与代码模型:** DeepSeek 发布了 MIT 许可的 685B 参数模型 **DeepSeek v3.2**;Mistral 发布了 **Mistral 3** 视觉模型(包括可在浏览器运行的 3B 版本)和专门用于代码的 **Devstral 2** 模型。
3. Agent 行业标准与哲学
**Skills 开放标准:** Anthropic 将 Skills 宣布为**“开放标准”**,并推出了 \`agentskills.io\` 网站。OpenAI 的 Codex CLI 也已开始支持 Skills。
**Agent 基金会:** Linux 基金会成立 **Agentic AI Foundation**,吸纳了 Anthropic 的 Model Context Protocol 和 OpenAI 的 AGENTS.md 等规范。
**Claude 的“灵魂文档”:** Claude 4.5 Opus 泄露了一个 14,000 token 的内部**“灵魂文档”**,Anthropic 证实这是用于训练 Claude 安全性和个性的真实哲学文档。
4. 个人工具与见解
**转录工具:** 作者为解决 Claude Code 缺乏官方导出功能的问题,自行开发了 \`claude-code-transcripts\` CLI 工具,用于将 Agent 会话导出为可发布的 HTML 记录。
**专业责任:** 强调在 AI 时代,专业责任是交付**经过彻底测试并能证明其有效性的代码**,而非仅仅是快速生成千行代码的 PR。
返回首页