深度文章

📊 OSWorld:多模态 Agent 在真实计算机环境中的基准测试

📊 OSWorld:多模态 Agent 在真实计算机环境中的基准测试

发布日期: 2026.01.31
文章概要:

OSWorld 是首个为多模态 Agent 设计的可扩展、真实的计算机环境,用于评估 Agent 在 Ubuntu, Windows, macOS 等真实操作系统中执行涉及 Web 和桌面应用的开放式任务的能力。评估结果显示,尽管人类成功率超过 72%,但最佳模型的成功率仅有 12.24%,表明 Agent 在 GUI 定位操作知识上存在严重缺陷。

核心概念

  • 环境: OSWorld 提供了一个统一的、真实的计算机环境,支持跨操作系统的任务设置、基于执行的评估和交互式学习。
  • 目标: 解决现有基准测试缺乏交互性和应用多样性的问题,以反映真实世界的复杂计算机使用场景。

基准测试与评估结果

  • 任务数量: 369 个真实世界的计算机任务(涉及 Web, 桌面应用, 文件 I/O, 跨应用工作流)。
  • 评估方式: 基于执行的评估脚本,确保结果可靠和可重复。
  • 性能差距: 人类成功率(>72.36%)远高于最佳模型(12.24%)。
  • 核心瓶颈: 模型主要难以进行 GUI 定位(GUI grounding)和应用**操作知识**。

分析洞察

定性分析揭示了影响 VLM Agent 性能的几个关键因素:

  • 分辨率影响: 更高的截图分辨率能改善性能。
  • 历史情境: 更长的纯文本轨迹历史上下文有助于性能提升,但效率较低。
  • 鲁棒性差: 当前 VLM Agent 对 UI 布局和噪声的鲁棒性不足。
  • 跨 OS 迁移性: 在 OSWorld 中开发的见解可以高可靠性地迁移到 Windows 等其他操作系统。

平台细节

环境基础设施支持通过配置文件快速初始化任务、进行 Agent 交互、以及执行评估。平台支持无头操作,并可在单个主机上并行运行多个环境。