📊 OSWorld:多模态 Agent 在真实计算机环境中的基准测试
发布日期: 2026.01.31文章概要:
OSWorld 是首个为多模态 Agent 设计的可扩展、真实的计算机环境,用于评估 Agent 在 Ubuntu, Windows, macOS 等真实操作系统中执行涉及 Web 和桌面应用的开放式任务的能力。评估结果显示,尽管人类成功率超过 72%,但最佳模型的成功率仅有 12.24%,表明 Agent 在 GUI 定位和操作知识上存在严重缺陷。
核心概念
- 环境: OSWorld 提供了一个统一的、真实的计算机环境,支持跨操作系统的任务设置、基于执行的评估和交互式学习。
- 目标: 解决现有基准测试缺乏交互性和应用多样性的问题,以反映真实世界的复杂计算机使用场景。
基准测试与评估结果
- 任务数量: 369 个真实世界的计算机任务(涉及 Web, 桌面应用, 文件 I/O, 跨应用工作流)。
- 评估方式: 基于执行的评估脚本,确保结果可靠和可重复。
- 性能差距: 人类成功率(>72.36%)远高于最佳模型(12.24%)。
- 核心瓶颈: 模型主要难以进行 GUI 定位(GUI grounding)和应用**操作知识**。
分析洞察
定性分析揭示了影响 VLM Agent 性能的几个关键因素:
- 分辨率影响: 更高的截图分辨率能改善性能。
- 历史情境: 更长的纯文本轨迹历史上下文有助于性能提升,但效率较低。
- 鲁棒性差: 当前 VLM Agent 对 UI 布局和噪声的鲁棒性不足。
- 跨 OS 迁移性: 在 OSWorld 中开发的见解可以高可靠性地迁移到 Windows 等其他操作系统。
平台细节
环境基础设施支持通过配置文件快速初始化任务、进行 Agent 交互、以及执行评估。平台支持无头操作,并可在单个主机上并行运行多个环境。