📰 LLM 月度摘要：2025 年 12 月

发布日期: 2026.02.03

作者: Simon Willison (LLM Digest)

该摘要回顾了 2025 年 12 月 LLM 领域的关键进展，重点突出了编码 Agent 在性能上的飞跃、模型发布竞争以及 Agent 标准化的趋势。

1. AI 编码 Agent 的重大飞跃

**模型能力提升：** Claude Opus 4.5 和 GPT-5.2 在处理长时间运行的复杂编码任务中，实现了“下一级升级”。
**合规性测试的价值：** 作者的实践证明，以 **合规性测试套件** 为指导，能极大地提升 Agent 的工作效率和代码准确性，例如仅用 **4.5 小时**就完成了 Python 库到 JavaScript 的移植。
**异步编码效率：** 即使通过手机进行间歇性的异步编码，效率也“高得惊人”，作者本人在一个月内完成了 566 次 Git 提交。

2. 新模型发布与激烈竞争

**OpenAI 应对竞争：** 报道称 OpenAI 在面对 Google Gemini 3 的竞争时，内部宣布了“Code Red”。
**GPT-5.2/Codex：** 发布了基础模型 **GPT-5.2** (12月11日) 和专门优化的代码模型 **GPT-5.2 Codex** (12月19日)。
**Gemini 3 Flash：** 谷歌发布了更快、更经济的 **Gemini 3 Flash** (12月17日)，在多项基准测试中表现优异。
**开源与代码模型：** DeepSeek 发布了 MIT 许可的 685B 参数模型 **DeepSeek v3.2**；Mistral 发布了 **Mistral 3** 视觉模型（包括可在浏览器运行的 3B 版本）和专门用于代码的 **Devstral 2** 模型。

3. Agent 行业标准与哲学

**Skills 开放标准：** Anthropic 将 Skills 宣布为**“开放标准”**，并推出了 \`agentskills.io\` 网站。OpenAI 的 Codex CLI 也已开始支持 Skills。
**Agent 基金会：** Linux 基金会成立 **Agentic AI Foundation**，吸纳了 Anthropic 的 Model Context Protocol 和 OpenAI 的 AGENTS.md 等规范。
**Claude 的“灵魂文档”：** Claude 4.5 Opus 泄露了一个 14,000 token 的内部**“灵魂文档”**，Anthropic 证实这是用于训练 Claude 安全性和个性的真实哲学文档。

4. 个人工具与见解

**转录工具：** 作者为解决 Claude Code 缺乏官方导出功能的问题，自行开发了 \`claude-code-transcripts\` CLI 工具，用于将 Agent 会话导出为可发布的 HTML 记录。
**专业责任：** 强调在 AI 时代，专业责任是交付**经过彻底测试并能证明其有效性的代码**，而非仅仅是快速生成千行代码的 PR。