不二如是 发表于 2025-1-27 11:00:00

「Web Walker」阿里重磅开源·像人类一样搜索!



阿里巴巴开源的 Web Walker 项目是一个旨在提升检索增强生成(RAG)多维信息检索能力的项目,由阿里巴巴通义实验室和东南大学联合开发。

该项目的核心目标是通过模拟人类网页导航行为,解决传统搜索引擎在信息检索中只能进行浅层内容搜索的问题。

在线学习:

https://www.bilibili.com/video/BV1sAFNejExZ

大型语言模型(LLM)通常具有固定的知识库,无法实时更新信息。

官网:传送门

尽管检索增强生成(RAG)可以通过搜索引擎获取最新信息,但传统搜索引擎的横向搜索方式限制了对复杂、多层次信息的深层挖掘能力。因此,Web Walker项目提出了一个新任务——Web Traversal,即系统性地遍历网页以获取隐藏在子页面中的信息。

Web Walker项目的核心内容

[*]Web Walker QA数据集:这是一个用于评估LLM网页遍历能力的基准数据集,包含680个来自四种真实场景(会议、组织、教育、游戏)的查询,覆盖中英两种语言。数据集分为单源和多源两种类型,并根据信息所在的深度分为简单、中等和困难三个难度级别。
[*]Web Walker框架:采用多智能体框架,包括一个探测代理(explorer agent)和一个裁判代理(critic agent)。探测代理模拟人类在网页中点击按钮和跳转页面的过程,而裁判代理则负责存储搜索过程中的信息,并判断何时停止探索。


Web Walker项目的开源为研究者和开发者提供了一个强大的工具,用于提升LLM在复杂信息检索任务中的表现,同时也为RAG系统的进一步发展提供了新的思路。

sunshine_8205 发表于 2025-1-27 16:10:35

{:5_106:}

不二如是 发表于 2025-2-23 22:38:29

朕已阅!有趣
页: [1]
查看完整版本: 「Web Walker」阿里重磅开源·像人类一样搜索!