|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
阿里巴巴开源的 Web Walker 项目是一个旨在提升检索增强生成(RAG)多维信息检索能力的项目,由阿里巴巴通义实验室和东南大学联合开发。
该项目的核心目标是通过模拟人类网页导航行为,解决传统搜索引擎在信息检索中只能进行浅层内容搜索的问题。
在线学习:
大型语言模型(LLM)通常具有固定的知识库,无法实时更新信息。
官网:传送门
尽管检索增强生成(RAG)可以通过搜索引擎获取最新信息,但传统搜索引擎的横向搜索方式限制了对复杂、多层次信息的深层挖掘能力。因此,Web Walker项目提出了一个新任务——Web Traversal,即系统性地遍历网页以获取隐藏在子页面中的信息。
Web Walker项目的核心内容
- Web Walker QA数据集:这是一个用于评估LLM网页遍历能力的基准数据集,包含680个来自四种真实场景(会议、组织、教育、游戏)的查询,覆盖中英两种语言。数据集分为单源和多源两种类型,并根据信息所在的深度分为简单、中等和困难三个难度级别。
- Web Walker框架:采用多智能体框架,包括一个探测代理(explorer agent)和一个裁判代理(critic agent)。探测代理模拟人类在网页中点击按钮和跳转页面的过程,而裁判代理则负责存储搜索过程中的信息,并判断何时停止探索。
Web Walker项目的开源为研究者和开发者提供了一个强大的工具,用于提升LLM在复杂信息检索任务中的表现,同时也为RAG系统的进一步发展提供了新的思路。 |
|