深度文章

📊 OSWorld：多模态 Agent 在真实计算机环境中的基准测试

2026.01.31 · 历史路径：osworld-benchmark-2026-01-31.html

📊 OSWorld：多模态 Agent 在真实计算机环境中的基准测试

发布日期: 2026.01.31

文章概要:

OSWorld 是首个为多模态 Agent 设计的可扩展、真实的计算机环境，用于评估 Agent 在 Ubuntu, Windows, macOS 等真实操作系统中执行涉及 Web 和桌面应用的开放式任务的能力。评估结果显示，尽管人类成功率超过 72%，但最佳模型的成功率仅有 12.24%，表明 Agent 在 GUI 定位和操作知识上存在严重缺陷。

核心概念

环境： OSWorld 提供了一个统一的、真实的计算机环境，支持跨操作系统的任务设置、基于执行的评估和交互式学习。
目标： 解决现有基准测试缺乏交互性和应用多样性的问题，以反映真实世界的复杂计算机使用场景。

基准测试与评估结果

任务数量： 369 个真实世界的计算机任务（涉及 Web, 桌面应用, 文件 I/O, 跨应用工作流）。
评估方式： 基于执行的评估脚本，确保结果可靠和可重复。
性能差距： 人类成功率（>72.36%）远高于最佳模型（12.24%）。
核心瓶颈： 模型主要难以进行 GUI 定位（GUI grounding）和应用**操作知识**。

分析洞察

定性分析揭示了影响 VLM Agent 性能的几个关键因素：

分辨率影响： 更高的截图分辨率能改善性能。
历史情境： 更长的纯文本轨迹历史上下文有助于性能提升，但效率较低。
鲁棒性差： 当前 VLM Agent 对 UI 布局和噪声的鲁棒性不足。
跨 OS 迁移性： 在 OSWorld 中开发的见解可以高可靠性地迁移到 Windows 等其他操作系统。

平台细节

环境基础设施支持通过配置文件快速初始化任务、进行 Agent 交互、以及执行评估。平台支持无头操作，并可在单个主机上并行运行多个环境。