📊 OSWorld:多模态 Agent 在真实计算机环境中的基准测试

发布日期: 2026.01.31
文章概要:

OSWorld 是首个为多模态 Agent 设计的可扩展、真实的计算机环境,用于评估 Agent 在 Ubuntu, Windows, macOS 等真实操作系统中执行涉及 Web 和桌面应用的开放式任务的能力。评估结果显示,尽管人类成功率超过 72%,但最佳模型的成功率仅有 12.24%,表明 Agent 在 GUI 定位操作知识上存在严重缺陷。

核心概念

基准测试与评估结果

分析洞察

定性分析揭示了影响 VLM Agent 性能的几个关键因素:

平台细节

环境基础设施支持通过配置文件快速初始化任务、进行 Agent 交互、以及执行评估。平台支持无头操作,并可在单个主机上并行运行多个环境。