Web Agent Insight | fufu酱のNoteBook

type

status

slug

summary

MindAct

Web Agent 指的是自动执行特定任务的软件程序，它可以代表用户或其他程序进行各种操作，而通用web agent需要具备泛化性，能够支持互联网上任何真实网站操作。

一个原始HTML文档可能由数千个元素组成，直接输入给LLM成本过高，可能还超过最大限制。MindACT提出提出了一个两阶段的过程，通过小模型和大模型协作来达到目的。

在第一阶段，先从原始HTML里提取候选元素，使用微调的小模型对网页上的元素进行排名，产生一个候选池。

在第二阶段，这些候选元素被合并以形成网页的代表片段，然后由LLM处理以预测最终动作，包括预测用于交互的元素和相应的操作。

Ranking模型

从网页中提取出所有DOM元素进行排行，每个DOM的描述来源于它的标签、文本内容、属性值以及父元素和子元素的文本等特征，通过与任务描述配对一起过一遍模型计算出分数。论文介绍的ranking模型：

We use the Cross-Encoder implementation from Sentence-Transformers and use DeBERTa as the backbone model. More specifically, we use DeBERTa-v3-base for our experiments.

embedding用的是Sentence-Transformers，分类模型用的是Bert的变种模型。

将top- k候选集按照每5个候选元素加一个None选项划分多个组，在推理时将HTML、任务描述等发给LLMs。如果一轮选择了多个选项，我们将选中的选项组成新的组。这个过程重复，直到选中一个元素，或者模型拒绝所有选项，即模型对所有组选择None选项。

Ele.Acc：模型预测元素和真实元素比较的精确率

Op.F1：模型预测操作的的F1分数

Step SR：步骤成功率，选中元素、预测操作正确才算成功

实验后得到如下几个结论

GPT-3.5比baseline还低，推测原因是任务一般是多个网页之间跳转才能完成，在单个网页上模型倾向于选择None。

和开源做过SFT的T5模型（没有微调是无法执行任务的）相比GPT4是很有潜力的。

See Act

框架内容：提出任务后利用多模态大型模型(LMM)如GPT-4V的能力理解网页并制定任务计划，通过操作HTML元素来实施计划

指示GPT-4V模仿人类浏览网页，结合之前网页上下文，分析任务生成下一个动作描述，和以往的web agent不同的是，这里是将截图图像作为视觉上下文，而不使用HTML文档。

上图包含423 个HTML元素，通过分词器分词后186,490token，而使用GPT-4V的视觉分词器只有1,445token。

文本上下文可能遗漏了网站里的关键图像，比如有的html标签里是一个图片链接。

如果把模型类比人类，那也可得到一个结论理解一件事物使用图像是比文字更容易的进行的。

Action Grounding（动作定位）

这里我把Grounding翻译成定位，如何把LLM提示的元素点击动作和现实中的网页元素操作绑定，我们称之为Grounding，我翻译成定位，每一个对网页操作都可以转化为浏览器事件，浏览器事件包含三个变量(e, o, v)。

元素e ∈ E标识要操作的目标网页元素，例如Figure 2中的“Find Your Truck”按钮。E表示环境S中的网页元素集合。

操作o ∈ O是要在目标元素上执行的操作，O包含S中所有可能的操作(e.g.，单击，键入)。

变量v表示某个操作所需的附加值(e.g.，比如输入值)。

基于LLMs或者LMMs是无法直接生成浏览器事件所需的三个变量(e, o, v)，而是包含有这些变量信息的描述，而将描述转为成浏览器事件，这个过程称为Action Grounding。

其中通过描述里的字符串解析我们是能够拿到o和v，关键在于怎么拿到e。

通过文本选择定位

在GPT-4V提供任务描述后，并通过启发式搜索进行精确匹配，得到一批候选元素（参考MindACT）。每个候选元素都表示为多选问题中的一个选择项及其HTML文本，如上图所示。在生成动作描述之后，模型被进一步询问一个多选问题，以从给定的多个候选元素中选择它想要的元素(也包括一个“none”选项)。

通过图像标注定位

仅靠文本表示有时不足以区分相似或相同的元素，因此在这种方法中，每个top-k的候选元素通过打标的方式在标记元素的边界和标签索引。

通过元素属性定位

完全由GPT-4V根据任务描述和图像推理出需要定位元素的网页元素类型和文本，然后在网页进行搜索得出最相近的一个或多个元素，多个需要再调一次模型进行选择。

预言式定位（Oracle Action Grounding）

比较理想的情况是动作生成阶段的描述包含所以细节以便能够精确的转换为浏览器事件（e,o,v），为了更好评估模型性能性能，这种定位方式只要在描述中提到这些变量就能直接转换浏览器事件。这篇论文通过人为标注的方式实现（理解为人从动作描述里找出下一步的浏览器事件，是为了更好的控制变量来测试模型性能，假设未来更好的定位方法）。

测试数据

本论文在此数据集基础上将相应的网页做了截图制作了符合多模态大模型的Multimodal Mind2Web.

通过上述实验数据，得到以下结论。

通过人工注释，GPT-4V-Oracle 具有远超其他包括SFT的模型步骤成功率，

使用GPT4-V比使用GPT-4（LMMs比LLMs）有更好的步骤成功率

元素属性定位效果最差，主要受文本和元素的特征影响，例如文本和操作元素不对应

System Role

Action Generation

answer

ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation

Introduction

提出了一个ReFL针对得分者优化扩散模型

现有的自监督预训练生成器存在着不足

aligning models with human preference

模型与人类的偏好结合起来
pre-training distribution is noisy

Text-image Alignment: failing to accurately depict all the numbers, attributes, properties, and relationships of objects described in text prompts, as shown in Figure 1 (a)(b).

无法准确描述文本提示中描述所有对象的数字、属性和关系

Body Problem: presenting distorted, incomplete, duplicated, or abnormal body parts (e.g., limbs) of humans or animals, as illustrated in Figure 1 (e)(f).

Human Aesthetic: deviating from the average or mainstream human preference for aesthetic styles, as demonstrated in Figure 1 (c)(d).

Toxicity and Biases: featuring content that is harmful, violent, sexual, discriminative, illegal, or causing psychological discomfort, as depicted in Figure 1 (f).

在自然语言处理(NLP)中，研究人员采用了来自人类反馈的强化学习(RLHF)引导大型语言模型人类的偏好和价值观。该方法依赖于学习奖励模型(RM)来捕获人类来自大量专家注释模型输出比较的偏好。尽管标注是有效的，但标注过程可能是昂贵且具有挑战性的[39]，因为它需要数月的努力来建立标注标准，招募和培训专家，验证响应，并最终生成RM。

认识到在生成模型中解决这些挑战的重要性，我们提出并发布了第一个通用的文本到图像的人类偏好RM-ImageReward，它基于真实世界的用户提示和相应的模型输出，在总共137k对专家比较的基础上进行了训练和评估。在此基础上，我们进一步研究了用于改进扩散生成模型的直接优化方法ReFL。我们的主要贡献是:

我们提出奖励反馈学习(ReFL)来调整关于人类偏好评分者的扩散模型。我们对ImageReward在后期去噪步骤中的质量可识别性的独特见解允许对扩散模型进行直接反馈学习，而扩散模型不提供其代的可能性。广泛的自动和人工评估表明，ReFL优于现有的方法，包括数据增强和损失重估。

我们建议ImageReward可以作为一个有前途的自动文本到图像的评估指标。与FID和CLIP对真实用户和MS-COCO 2014提示的评分相比，ImageReward始终与人类偏好排名保持一致，并在模型和样本之间表现出更高的区别。

通过广泛的分析和实验，我们证明ImageReward在理解人类在文本到图像合成中的偏好方面优于现有的文本图像评分方法，如CLIP41、Aesthetic50和BLIP26。ImageReward也被证明可以显著缓解上述问题，为如何将人类偏好集成到生成模型中提供了有价值的见解。

我们系统地识别了文本到图像的人类偏好标注面临的挑战，并因此设计了一个专门针对它的管道，建立了定量评估和标注员培训的标准，优化了标注体验，并确保了质量验证。我们基于管道构建了用于训练ImageReward模型的文本-图像比较数据集。整个体系结构如图所示。

ImageReward: Learning to Score and Evaluate Human Preferences

ImageReward使用系统的管道构建，包括数据收集和专家的人工注释。在此基础上，我们实现了RM训练，并推导出ImageReward。

在这项工作中，我们提出了ImageReward和ReFL，这是第一个通用的文本到图像的人类偏好奖励模型，以及通过ImageReward反馈优化扩散模型的直接微调方法。通过我们系统的人类偏好标注管道，我们收集了一个137k的专家比较数据集来训练ImageReward，并在此基础上构建ReFL算法。它们共同解决了生成模型中的普遍问题，并帮助更好地将文本到图像的生成与人类的价值观和偏好结合起来。

Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft

许多强化学习环境(例如，Minecraft)只提供稀疏的奖励，用二进制值表示任务完成或失败。这种环境中探索效率的挑战使得基于强化学习的智能体难以学习复杂任务。为了解决这个问题，本文提出了一个先进的学习系统Auto MC-Reward，利用大型语言模型(LLMs)自动设计密集的奖励函数，从而提高学习效率。Auto MC-Reward由三个重要组件组成:奖励设计器，奖励评价器和轨迹分析器。给定环境信息。然后，我们的奖励评论器将负责验证代码，检查代码是否自洽，是否没有语法和语义错误。进一步，轨迹分析器总结可能的故障原因，并根据收集到的轨迹提供改进建议。在下一轮中，奖励设计师将根据反馈进一步细化和迭代密集奖励函数。

for specific sparse reward tasks

利用llm可以帮助RL智能体模拟人类的实践摘要能力。基于智能体的历史动作轨迹和成功-失败信号，LLMs可以自动设计并细化相应的辅助奖励，有效克服了《我的世界》中奖励稀疏的挑战。

根据上述分析，提出了一种自动的方法Auto MC-Reward，根据任务描述和历史动作轨迹设计和改进辅助奖励函数。首先使用llm根据环境和任务的基本描述设计与任务相关的密集奖励函数，称为奖励设计师。这些奖励函数用于训练自验证后的智能体，即奖励评论家。为解决LLM理解中的潜在偏差或疏忽，本文还提出了一个基于LLM的轨迹分析器，以分析和总结从训练过的智能体收集的轨迹，以及帮助奖励设计者完善奖励功能。在一系列具有代表性的基准上验证了自动MC-Reward的有效性，包括对地下钻石的水平探索和在平原生物群落中接近树木和动物。实验结果表明，与原始的稀疏奖励和现有的密集奖励方法相比，Auto MC-Reward在这些任务上取得了明显更好的效果，显示了其在稀疏奖励任务上高效学习的先进能力。通过迭代地改进奖励函数的设计，Auto MCReward使智能体能够有效地学习有益于相应任务的新行为，例如避免lava，这大大提高了成功率。此外，Auto MC-Reward在只有原始信息的情况下取得了很高的钻石成功率(36.5%)，展示了它解决长视距任务的能力。

🦄

自动mc -奖励由三个组件组成:奖励设计器，奖励评价器和轨迹分析器。给定环境信息和任务描述，奖励设计者通过编写一个可执行的Python函数，并预定义观察输入，提出奖励函数。奖励评论家验证所提出的奖励函数是否自洽且是否满足格式要求。设计的奖励函数通过奖励评价器来训练环境中的智能体。为根据经验改进设计的奖励函数，提出轨迹分析器，根据训练的智能体的推理轨迹总结可能的失败原因，并提供奖励函数的优化建议。然后，奖励设计者根据反馈修改奖励函数

为了消除上述不容易发现的错误，设计了一个基于LLM的奖励评价器来自动审查所设计的奖励函数。除了检查语法错误，Reward Critic还被要求检查奖励函数的质量，以进一步消除语义错误。具体来说，我们要求奖励评论者检查当前的代码实现是否与自己的想法相匹配，是否满足奖励函数的设计要求，是否考虑了游戏信息。如果审核失败，评价者会提出批评意见，然后奖励设计者会根据该标准修改奖励函数并再次提交审核。上述过程最多重复3次。如果在与环境交互的过程中，奖励函数执行过程中发生错误，则错误消息的Python回溯将反馈给奖励设计者进行修改。这些错误可能包括对输入参数的误解、列表索引超出范围、字典中的键未初始化等问题。有些运行时错误只在实际执行代码时出现

Environment-agnostic Multitask Learning for Natural Language Grounded Navigation

🦄

提出了一种多任务学习模型，能够同时处理视觉语言导航（VLN）和基于对话历史的导航（NDH）两种任务，使用环境不可知（agnostic）的学习方法改善模型对未知环境的泛化能力。

摘要

最近的研究工作使人们能够在逼真的环境中研究基于自然语言的导航，例如遵循自然语言指令或对话。然而，现有方法往往会在见过的环境中过拟合训练数据，并且在以前见过的环境中不能很好地泛化。为缩小见过和没见过环境之间的差距，本文旨在从两个新的角度学习通用导航模型。

(1)提出了一个多任务导航模型，可以在视觉-语言导航(VLN)和对话历史导航(NDH)任务上进行无缝训练，这得益于更丰富的自然语言指导，并有效地跨任务迁移知识;

(2)为导航策略学习与环境无关的表示，这些表示在训练过程中看到的环境中不变，从而在未见过的环境中更好地泛化。广泛的实验表明，环境无关的多任务学习显著减少了见过和未见过环境之间的性能差距，训练的导航代理在未见过环境上比基线在VLN上的性能提高了16%(相对成功率衡量标准)，在NDH上的性能提高了120%(目标进度)。我们向CVDN排行榜的提交为holdout测试集上的NDH任务建立了新的最先进的技术。

面向自然语言导航任务的通用多任务模型，如视觉-语言导航(VLN)和从对话历史导航(NDH)，旨在高效地跨任务迁移知识，并用一个智能体同时有效地解决所有任务。

多任务学习：通过共享模型参数，如语言编码器和轨迹编码器，同时学习处理VLN和NDH两种任务，可以有效地将一个任务中学到的知识迁移到另一个任务。

环境不可知的表示学习：通过引入环境分类器和梯度反转层，让轨迹编码器学习到的表示不包含环境特定的信息，使得学到的导航策略在未见过的环境中也能有良好表现。

数据集与实验：使用了包含61个独立房屋扫描的Matterport3D环境进行训练，通过大量实验验证了模型在处理未知环境时相比基线模型有显著提升。

实验显示，提出的环境不可知的多任务学习模型在未见过的环境上，相对于单任务模型在成功率和目标进展上都有显著提升，例如在VLN任务中未见环境的成功率提高了16%，在NDH任务中目标进展提高了120%。这证明了多任务学习和环境不可知表示学习在提高模型泛化能力方面的有效性。

实验方法：

数据集和任务定义：

视觉语言导航（VLN）：使用Room-to-Room (R2R) 数据集，包含90个不同室内环境的指令-轨迹对，让代理在虚拟环境中根据自然语言指令导航。

基于对话历史的导航（NDH）：使用Cooperative Vision-and-Dialog Navigation (CVDN) 数据集，代理需要根据一系列的问题和答案对话历史定位目标物品所在的房间。

多任务学习策略：

交叉模态匹配（RCM）模型的适应：模型共享所有可学习的参数（如单词嵌入层、语言编码器、轨迹编码器、交叉模态注意力模块和行为预测器），使得可以在不同任务间无缝转移学习。

交错多任务数据抽样：在一个小批量数据中，数据样本可以来自任何一个任务（VLN或NDH），通过这种方法使得模型可以同时学习两种任务的特征。

环境不可知学习：

环境分类器与梯度反转：在轨迹编码器和环境分类器之间加入一个梯度反转层，使得轨迹编码器学到的表示不受环境特定特征的影响，从而提高模型对未见环境的泛化能力。

双重优化目标：环境分类器试图识别代理所处的具体房屋，而轨迹编码器则尝试提高分类器的不确定性，从而学习到通用的特征表示。

奖励形状和训练策略：

奖励调整（Reward Shaping）：根据代理的行动是否使其更接近目标位置来调整奖励，使训练过程中代理能够学习到有效的导航策略。

行为克隆与强化学习的结合：使用行为克隆从人类演示中直接学习行为，同时使用强化学习帮助代理从错误中恢复，提高其在未知环境中的表现。

实验设置和评估：

通过多个实验设置验证模型在已知环境（训练中看到的）和未知环境（训练中未看到的）的表现。

使用了多种评估指标，如路径长度（PL）、导航错误（NE）、成功率（SR）等，以全面评估模型性能。

这些实验方法结合了深入的多任务学习机制和创新的环境不可知学习策略，有效地提升了模型在未知环境中的导航能力。

多任务学习（Multitask Learning）：

任务共享：类似于文章中共享模型参数来处理不同的导航任务，Web Agent可以共享模型来处理多种类型的Web任务，如信息检索、填表、自动化测试等。这样做可以提高学习效率，节省资源，同时提高任务间的知识迁移。

交错训练：在训练Web Agent时，可以采用类似于文章中的交错多任务数据抽样策略，使得模型在训练过程中同时学习多种任务，增强模型处理复杂情况的能力。

环境不可知学习（Environment-Agnostic Learning）：

泛化能力：在Web环境中，Agent可能面临不同的网站布局和风格。采用类似于无视环境的策略，训练Web Agent忽略这些视觉上的差异，专注于网页内容的语义和功能性，能够增强其在不同网站间的泛化能力。

抗过拟合策略：通过引入梯度反转层，促使Web Agent在学习时不过度适应特定网站的特征，避免过拟合，提高在未见过的网站上的性能。

奖励形状和行为克隆：

奖励设计：在设计Web Agent的奖励函数时，可以参考论文中的奖励形状设计，确保奖励与目标任务紧密相关，如正确完成一个在线表单或成功从网页获取信息。

从示例中学习：借鉴行为克隆的方法，Web Agent可以从人类的Web交互行为中直接学习，例如，模仿用户如何在网站上导航或如何填写表格。

强化学习和行为克隆的结合使用：

策略训练：结合使用监督学习和强化学习来训练Web Agent，利用监督学习快速学习人类行为模式，通过强化学习进一步优化和适应动态变化的Web环境。

🦄

Web Agent的开发不仅可以提升其在多任务环境下的表现，还能有效地应对多变的Web环境，从而实现更加智能和可靠的自动化Web操作。这些方法有助于开发出更加强大和适应性强的Web自动化工具，可以广泛应用于Web数据抓取、自动化测试、在线服务自动化操作等领域。

想到的idea：

跨域环境不可知的多模态Web代理：通过自然语言和视觉线索进行网页交互学习

提出的web agent的背景：

随着在线内容和服务的日益增多，自动化Web代理在提高效率、降低人力成本方面扮演着重要角色。目前，大多数Web自动化工具仅限于特定任务和固定的网页结构，缺乏在新环境中快速适应的能力。此外，现有的Web代理大多关注于单一模态的信息（如文本或图像），而忽略了多模态信息的综合利用可能带来的潜在优势。因此，开发一种能够理解并综合利用网页中自然语言和视觉信息的跨域环境不可知的多模态Web代理，对于提高Web自动化的普适性和效率具有重要意义。

提出目标：

多任务学习：开发一种多任务学习框架，使Web代理能够同时学习执行多种Web交互任务，如信息检索、内容抓取、表单填写等。

环境不可知模型：通过模型设计实现对新网页布局和风格的快速适应，避免对特定域的过度拟合。

多模态融合：整合网页的文本和视觉信息，提升代理在处理复杂网页内容时的准确性和效率。

想到的解决方向：

设计一个共享底层的神经网络架构，支持不同Web任务的学习，并通过任务特定的适配层优化每一类任务的表现。

引入梯度反转和域不可知的学习算法，让模型学习到更为泛化的特征表示。

开发一种新的注意力机制模型，用于有效融合文本指令和视觉信息，提高信息解析的准确度。

进而再评估其跨域泛化的能力

🦄

能够显著提高Web自动化代理在多任务执行及新环境适应上的能力，推动自动化技术在Web管理、在线内容分析等领域的应用。

Unsupervised Reinforcement Learning of Transferable Meta-Skills for Embodied Navigation

研究问题：

本文针对如何在资源有限的环境中训练实体代理进行视觉导航的问题，特别是在缺少大量标注数据时，如何有效学习并迁移导航能力。

创新点：提出了一种新的无监督强化学习框架ULTRA（Unsupervised Learning of TRAnsferable meta-skills），通过自动生成的递增难度任务和对抗性训练，学习一系列可转移的元技能（meta-skills），如绕过障碍物、直行等，并能在获得特定导航任务的奖励后快速适应新环境。通过学习高层主策略来组合这些元技能，使得代理快速适应视觉导航任务。

实现原理：

框架设计：利用对抗训练过程中的任务生成器自动提出逐渐增加难度的任务，而元学习者（meta-learner）通过完成这些任务来学习元技能。

策略结构：采用分层策略，其中主策略（master policy）负责选择合适的子策略（sub-policy）执行，子策略包含实际的动作执行序列，如移动和旋转。

元强化学习：使用基于梯度的元学习算法优化跨任务的表现，子策略在多个任务中得到优化以提高其泛化能力

数据集：实验在AI2-THOR仿真环境中进行，该环境是一个可定制的室内场景仿真环境，包含120个不同的场景。

通过进一步的定性分析显示：

效果验证：实验结果表明，ULTRA框架在小样本设置下显著优于基线方法，尤其在长期规划任务中表现出更高的成功率和路径效率。
组件有效性：通过消融实验验证了分层策略、元强化学习更新和对抗训练各自的贡献，证实这些设计对于提高模型的快速适应能力和效率至关重要。

实验方法：

实验设置：

环境：使用AI2-THOR环境，这是一个高度逼真的室内场景模拟环境，包含120个不同的场景，涵盖厨房、客厅、卧室和浴室等多种室内环境。

任务定义：在元训练阶段，任务生成器会在不同的起始点自动生成导航任务，任务难度会随训练过程逐步增加。在元测试阶段，系统需要根据简单的视觉导航任务快速适应，如根据物体的名称导航到目标位置。

训练过程：

对抗训练：在元训练阶段，使用对抗性策略自动生成一系列越来越困难的任务，元学习者需要完成这些任务以学习和优化子策略。

策略结构：采用分层策略，主策略决定激活哪个子策略，而子策略负责执行具体的动作序列。

元强化学习：使用基于梯度的元学习算法（如Reptile算法）更新策略参数，使模型能够在少量梯度更新后快速适应新任务。

元训练与元测试：

元训练：在没有人类指定的奖励函数的情况下进行，任务生成器和元学习者之间进行交互，通过完成自动生成的任务来学习元技能。

元测试：在这一阶段，已经学习的元技能被用来快速适应新的视觉导航任务。这一阶段的训练是完全监督的，但可用的训练数据非常少。

评估指标：

成功率（Success Rate）和路径长度加权成功率（SPL, Success weighted by Path Length）：这两个指标用于评估导

学习曲线：在元测试阶段，记录并评估在一系列评估任务中的平均奖励，以观察学习速度和性能提升。

对比实验：

基线对比：将ULTRA框架与其他无监督强化学习方法（如基于好奇心的方法和多样性驱动的方法）进行比较，验证其在小样本学习上的优势。

消融研究：通过移除ULTRA中的关键组件（如分层策略、元强化学习更新等），研究每个组件对总体性能的贡献

无监督强化学习和元技能学习框架ULTRA在如何处理资源有限的情况和如何快速适应新任务的能力方面对于开发web agent很有参考价值

无监督学习与对抗性训练：

自动生成任务：在Web环境中，Agent可以通过无监督学习在不同的网站上自动生成探索任务，例如自动识别和尝试网站上的不同交互功能，而不需要手动定义这些任务。

对抗性训练：类似于文章中的任务生成器和元学习者的交互，Web Agent可以设计成两个交互模块：一部分生成探索任务，另一部分尝试解决这些任务，通过这种方式增强模型的鲁棒性和适应能力。

元技能学习：

转移元技能：Web Agent可以学习通用的导航和操作元技能，比如填写表单、导航菜单等，这些技能可以在不同网站间转移和复用。

快速适应新环境：通过元学习策略，Web Agent能够在遇到新网站或新任务时，利用已有的元技能快速调整其策略以适应新环境，这对于经常需要处理多样化网站的Web Agent尤其重要。

分层策略框架：

策略的模块化：将Web Agent的决策过程分层，可以使顶层策略决定使用哪种元技能，而底层则执行具体的动作，如点击、滚动等。这种分层结构有助于清晰地组织和优化Agent的行为。

小样本学习和泛化：

小样本效率：在Web环境中，经常会遇到数据标注成本高昂或样本稀缺的问题。借鉴元学习的方法，Web Agent可以在极少数样本上迅速学习和适应，提高在新场景下的效率。

高效地在多变的Web环境中导航和执行任务，特别适用于自动化测试、数据抓取和复杂交互任务的自动化处理。

提出的新想法：

自适应 Web Agent：基于无监督元学习和对抗性训练的跨域网页操作

旨在通过自适应学习和跨域操作能力提高其在新环境中的表现。

无监督学习：开发一种无需手动标注的Web Agent训练方法，使其能自动生成和解决网页操作任务。

元学习策略：利用元学习提升Web Agent的快速适应性，使其能在少数几个样本后迅速适应新的网页结构和任务。

对抗性训练：通过对抗性训练增强模型的泛化能力，其中一部分模型生成任务，另一部分模型解决任务，模拟真实世界中的动态网页交互。

模型架构：

任务生成器：自动探索网站的不同功能，并生成有助于学习的任务（例如，自动识别和填写网页表单）。

元学习者：学习如何完成这些任务，并通过元学习算法优化其策略以适应新的或未知的任务。

对抗性训练：使用对抗性训练来模拟Web环境中的不确定性，提升Agent在未知环境中的性能。

应用场景：

自动化测试：提高在自动化测试中的效率，特别是在频繁更新的网站上。

数据抓取：提升跨域数据抓取的能力，减少因网站结构变化导致的维护成本。

结合两篇文章：

提出多任务学习与环境不可知策略在Web Agent中的应用：跨域自然语言处理与视觉融合

背景：

Web Agent通常需要在多样化的网站环境中执行基于自然语言的指令，例如“找到并填写注册表单”或“导航到产品评论页”。然而，这些操作在不同网站上的实现方式可能有所不同，导致Agent需要针对每个新环境重新学习，效率较低。此外，大多数现有Web Agent主要依赖于文本信息，忽略了页面的视觉元素，这限制了它们的应用范围。基于先前研究中的无视环境的多任务学习框架和自然语言导航的成果，本研究提出将这些策略应用于Web Agent，以增强其跨域操作的能力和泛化性。

研究方向：

跨模态融合：开发一种结合自然语言处理和视觉信息的Web Agent框架，提高其理解和执行跨域网页任务的能力。

多任务学习：利用多任务学习机制，使Web Agent能够同时学习多种类型的网页任务，如信息检索、导航和交互，增强其任务间的知识迁移。

环境不可知学习：实现一种环境不可知的学习策略，使Agent能够在未知的网站上有效执行任务，无需针对每个新环境进行大量的重新训练。

研究方法：

模型架构：

视觉-语言融合模型：构建一个深度学习模型，结合视觉（网页元素布局、图像等）和语言（指令、文本内容）信息，优化任务执行策略。

多任务学习组件：设计一个共享的神经网络底层，支持不同类型的网页操作任务，通过专门的任务适配层来优化每种任务的性能。

环境不可知组件：通过引入梯度反转层和域适应技术，训练一个不包含环境特定偏差的模型，以提升其在未见过的网站上的表现。

对比实验：将提出的方法与传统的单任务Web Agent以及未使用视觉信息的Agent进行比较，以验证新方法的有效性。

使用任务成功率、执行效率（如完成任务所需点击数）和跨域泛化能力作为主要评价标准。

预期该研究能够显著提高Web Agent在处理跨域任务时的效率和准确性，尤其是在理解和执行基于自然语言指令的Web交互任务方面。这项工作将推动Web自动化技术在多任务环境中的应用，特别是在自动化测试、客户支持和在线购物辅助等领域。

Web-VLN

论文信息：

标题：WebVLN：网站上的视觉和语言导航

作者：Qi Chen*, Dileepa Pitawela*, Chongyang Zhao*, Gengze Zhou, Hsiang-Ting Chen, Qi Wu†

机构：澳大利亚阿德莱德大学机器学习研究所

要点：

主题：WebVLN任务旨在使AI代理能够理解并按照自然语言指令在网站上导航。

问题：现有的视觉和语言导航（VLN）任务主要关注现实环境中的导航，而忽略了虚拟环境（如网站）中的导航需求。

创新点：提出了一个新的任务——WebVLN，通过问题指令训练代理，模拟用户浏览网站的行为。WebVLN代理不仅关注视觉和语言信息，还结合网页底层HTML内容进行导航。

实现原理：

方法：引入了一个新的数据集WebVLN-v1，并提出了一种新的网络模型Website-aware VLN Network（WebVLN-Net），该模型基于先进的VLN技术构建。

数据集：WebVLN-v1包含8,990条记录和14,825个QA对，来自三个不同的购物网站。该数据集不仅包含视觉和文本内容，还包括HTML结构。

模型架构：

初始化：使用预训练的BERT模型初始化状态和上下文。
导航：通过图像编码器和按钮编码器处理当前网页的截图和按钮信息，并使用多层Transformer进行导航决策。
回答：当代理达到目标网页后，使用一个多层Transformer解码器生成答案。

实验结论：

WebVLN-Net在各种导航和问答评估指标上均优于现有的VLN和网页导航方法，显示了其在处理WebVLN任务方面的有效性。

与基线方法相比，WebVLN-Net在导航成功率、路径长度以及回答准确性等方面表现更佳。

零样本测试结果表明，目前的高级语言模型在WebVLN任务上仍然存在较大提升空间。

这篇论文通过扩展VLN任务至网站导航领域，展示了在虚拟环境中使用视觉和语言信息进行有效导航和问答的可能性，并为未来的研究提供了一个新的基准。

数据集构建：

WebVLN-v1 数据集：

包含8,990条路径记录和14,825个问答对。
数据来源于三个不同的购物网站，分别用SA, HB和ES来表示。
路径生成：从网站主页开始，使用最短路径算法生成到目标页面的路径，并手动检查其合理性。
问答对生成：使用大语言模型（如ChatGPT）生成问题和答案，经过人工校验确保质量。

模型设计：

WebVLN-Net：

基于VLN BERT框架（Hong et al. 2021），引入了视觉、语言和HTML内容的多模态输入。
包括三个主要组件：初始化、导航和回答。
初始化：使用预训练的BERT模型对问题Q和辅助描述D进行编码，生成初始状态表示。
导航：

使用图像编码器将网页截图转化为图像token。
使用按钮编码器将HTML中的可点击按钮转化为按钮token。
通过多层Transformer对输入进行处理，生成导航决策。
包含特殊的“停止”token，指示导航结束。

回答：

使用多层Transformer解码器生成自然语言答案。

实验设置：

评价指标：

导航指标：成功率（SR）、路径长度加权成功率（SPL）、轨迹长度（TL）等。
问答指标：使用Wu-Palmer相似度（WUPS）评价答案的语义相似度。

基线对比：

与传统的VLN方法（如VLN⟳BERT）和网页相关的导航方法（如WebGUM）进行比较。

训练和测试：

数据集分割：60%用于训练，10%用于验证，30%用于测试。
使用AdamW优化器进行训练，学习率为1e-5，批量大小为4。

结果分析：

导航性能：

WebVLN-Net在SR、SPL等导航指标上表现优于基线方法。
在路径长度（TL）指标上也取得了较好的结果。

问答性能：

WebVLN-Net在WUPS0.9和WUPS0.0指标上显著优于基线方法，表明其在生成准确答案方面的优势。

消融实验：

通过移除不同的输入组件（如辅助描述、按钮图像）进行消融实验，验证每个组件的重要性。

总结：通过设计和实验，论文验证了WebVLN-Net在处理网站导航和问答任务方面的有效性，并通过与基线方法的对比，展示了其在多模态信息融合和决策能力方面的优势。

数据集和基准测试：

创新点：构建了一个新的数据集WebVLN-v1，包含丰富的导航路径和问答对，并提出了评估指标。

启发：可以创建更多样化和大规模的数据集，涵盖不同类型的网站和任务场景，制定标准化的评估指标，推动Web Agent研究的进展。

模型架构：

创新点：提出了Website-aware VLN Network (WebVLN-Net)，结合了预训练的语言模型和多层Transformer。

启发：未来的Web Agent模型可以采用模块化设计，利用预训练模型的强大能力，并结合任务特定的调整，以适应不同的应用场景。