AI 取代人类从网购 / 刷短视频开始：CMU 发布多模态 Web Agent 基准，让大模型冲浪比你还溜

新智元 2024/2/11 22:38:58 责编：问舟

评论：

大模型的新考验来了！近日，来自卡内基梅隆大学的研究人员发布了评估 LLM 多模态 Web 代理性能的基准测试。大模型（LLM）的多模态和 Agent 能力被做成基准测试了！以后哪个 LLM 再掌握不了多模态，干不了 Agent，都不好意思出门了。

近日，来自卡内基梅隆大学（CMU）的研究人员发布了一个评估多模态 Web 代理性能的基准测试。

AI 取代人类从网购 / 刷短视频开始：CMU 发布多模态 Web Agent 基准，让大模型冲浪比你还溜

论文地址：https://arxiv.org/ pdf / 2401.13649.pdf

代码和任务集：https://github.com/ web-arena-x / visualwebarena

多模态和代理都是 AI 的发展趋势，我们之前也报道过很多相关工作，比如帮助人类处理网上购物、会议等日常任务，比如帮助人类考试「作弊」，还有近来风头正盛的 AI 机器人，也是人类在物理世界的代理。

AI 取代人类从网购 / 刷短视频开始：CMU 发布多模态 Web Agent 基准，让大模型冲浪比你还溜

而为了训练 AI 掌握这项能力，研究人员花费了很多心血，比如联合世界各地的著名实验室，共享机器人的训练和操作数据，比如开发了对应于真实世界的模拟器用来训练 Agent。

而这次，CMU 的研究人员带来了 LLM 的考试标准，VisualWebArena。VisualWebArena 由一组基于 Web 的多样化和复杂的任务组成，这些任务评估自主多模式代理的各种功能：

AI 取代人类从网购 / 刷短视频开始：CMU 发布多模态 Web Agent 基准，让大模型冲浪比你还溜

如上图所示，这个基准测试中引入了 910 个新任务，这些任务来自于分类广告、购物和 Reddit 网站上。

分类网站是一个新环境（具有真实世界的数据），而购物和 Reddit 网站与 WebArena 中使用的网站相同。

为了执行这个基准测试，代理（LLM）需要准确处理图像文本输入，解释自然语言指令，并在网站上执行操作以实现用户定义的目标。比如在维基百科中搜索：

AI 取代人类从网购 / 刷短视频开始：CMU 发布多模态 Web Agent 基准，让大模型冲浪比你还溜

在 Reddit 上搜索、浏览和评论：

AI 取代人类从网购 / 刷短视频开始：CMU 发布多模态 Web Agent 基准，让大模型冲浪比你还溜

在交易网站上查阅和咨询想要购买的商品，同时小手一抖，给个五星：

AI 取代人类从网购 / 刷短视频开始：CMU 发布多模态 Web Agent 基准，让大模型冲浪比你还溜

比如一条龙完成线上购物：

AI 取代人类从网购 / 刷短视频开始：CMU 发布多模态 Web Agent 基准，让大模型冲浪比你还溜

新的基准测试引入的任务需要视觉理解，能够评估基于 Web 的环境中自主代理的视觉和推理技能。

为了评估 VisualWebArena 的性能，研究人员在 WebArena 的功能评估范式中引入了新的基于视觉的评估指标。

AI 取代人类从网购 / 刷短视频开始：CMU 发布多模态 Web Agent 基准，让大模型冲浪比你还溜

上图展示了几个评估示例，通过运行基于执行的测试，可以全面评估开放式视觉基础任务上代理轨迹的正确性。

受 Set-of-Mark 提示的启发，研究人员使用 JavaScript 自动注释网页上的每个可交互元素来执行初始预处理步骤，包含边界框和唯一 ID。

AI 取代人类从网购 / 刷短视频开始：CMU 发布多模态 Web Agent 基准，让大模型冲浪比你还溜

如上图所示，使用包含边界框和 ID 的带注释屏幕截图，以及 SoM 的文本表示形式，作为多模态模型的输入。

下图的结果表明，SoM 表示提高了可导航性，并在 VisualWebArena 上实现了更高的成功率。

AI 取代人类从网购 / 刷短视频开始：CMU 发布多模态 Web Agent 基准，让大模型冲浪比你还溜

研究人员对几个最先进的 LLM 和基于 VLM 提示的代理进行了基准测试，发现所有现有的模型都明显低于人类的表现。

尽管多模态模型通常会提高 VisualWebArena 的性能，但仍有很大的差距需要弥合。

AI 取代人类从网购 / 刷短视频开始：CMU 发布多模态 Web Agent 基准，让大模型冲浪比你还溜

VisualWebArena

为了确保可重复性、真实性和确定性，VisualWebArena 框架中的所有网站都可作为独立的开源 Web 应用程序使用。

网站中可用的文本和视觉内容是从现实世界获取的，而代码则基于现实世界应用程序中常用的开源框架。

环境和智能体可以建模为部分可观察的马尔可夫决策过程（POMDP）：E =（S，A，Ω，T），其中 S 表示状态集，A 表示行动集，Ω 表示观测值集。

转移函数定义为 T：S × A → S，状态之间的确定性转换以动作为条件。在每个时间步骤 t 中，环境都处于某种状态 s（比如特定页面），并具有部分观察 o∈ Ω。

代理以 o 为条件发出操作 a ∈ A，这将导致新状态 s ∈ S，以及结果页面的新部分观察 o ∈ Ω。

操作可以是在网页上执行的操作，也可以只是信息搜索任务的字符串输出。

最后，定义奖励函数 R ：S × A → {0，1} 来衡量任务执行的成功。在 VisualWebArena 中，如果状态转换与任务目标的期望一致（即目标已实现），则奖励函数在最后一步返回 1，否则返回 0。

AI 取代人类从网购 / 刷短视频开始：CMU 发布多模态 Web Agent 基准，让大模型冲浪比你还溜

比如在上图的第一个任务中，奖励函数评估订单是否正确下达到输入图像中提供的确切地址，并包含正确的项目。

观察空间

观察空间 Ω 以真实的 Web 浏览体验为模型。观察结果包括网页 URL、打开的选项卡（可能是不同网站的多个选项卡）以及重点选项卡的网页内容。

在大约 25% 的任务中，目标也会涉及到图像（比如上图的第一个和第三个任务）

网页内容可以用几种不同的方式表示：

原始网页 HTML 作为文档对象模型（DOM）树，通常用于以前的自治 Web 代理工作。
网页截图，表示为 RGB 阵列，在之前的视觉代理工作中已经证明了有效性。
辅助功能树，提供了针对辅助技术优化的网页内容的结构化和简化表示，是 WebArena 用于其基线 LLM 代理的主要表示。
本文引入的一种新的视觉表示，灵感来自标记集（SoM）提示。对于网页上的每个可交互元素，用边界框和 ID 标记它，生成一个屏幕截图，允许可视化代理通过其唯一 ID 引用页面上的元素。