鱼C论坛

 找回密码
 立即注册
查看: 34|回复: 5

[AI工作流] 「N8N流」自动抓取网站信息生成报告

[复制链接]
发表于 3 小时前 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
Xnip2025-10-26_18-52-05.png

整个工作流形成了一个高效的自动化抓取与文档生产链条:

  1. 手动启动 → 读取Excel → 分批抓取 → 延时控制 → Markdown生成 → 汇总输出 → 完成通知。
复制代码


一、工作流整体概述

该工作流的核心目标是批量抓取竞品网站内容并自动生成Markdown报告。

整个流程由多个模块(节点)组成,从Excel读取网址清单,自动分批、逐站抓取网页内容,生成对应Markdown文件,并在最后输出汇总报告。

它属于一个可扩展的自动化网页爬取与文档生成系统,主要适合竞品分析、网站信息采集或SEO数据整理场景。


二、流程结构与逻辑步骤

手动触发(Manual Trigger)

流程的起点由用户手动点击触发器启动,便于灵活控制任务开始时间。


读取Excel文件(Read/Write Files from Disk → 读取Excel文件)

从本地路径(如/tmp/官网链接整理.xlsx)读取网址列表。

每行包含网站名称与URL,是后续任务的输入源。


设置批处理配置(Set)

用于定义抓取任务参数,例如:

  • 每批处理的网站数量(batchSize)
  • 每批之间的延迟时间(delayBetweenBatches)
  • 抓取请求超时(requestTimeout)
  • 抓取API地址(firecrawlApiUrl)
  • 输出文件目录(outputDirectory)

分批处理(Code节点)

将Excel中的网址列表按batchSize分批打包,每个批次包含若干个网站对象。

生成结构示例:
  1. {
  2.   "batchNumber": 1,
  3.   "totalBatches": 5,
  4.   "websites": [
  5.     { "name": "FishC", "url": "https://fishc.com", "originalIndex": 0 }
  6.   ]
  7. }
复制代码


处理当前批次(SplitInBatches)

依次取出各个批次,准备执行逐批抓取。


批次间延迟(Wait)

根据配置延时执行,防止高频访问触发目标网站的反爬机制。


处理批次中的网站(SplitInBatches)

进一步将批次内的各个网站单独处理,为下一步抓取做准备。


提取网站信息(Code)

从当前批次中提取单个网站信息,并生成安全的Markdown文件名(去除特殊字符)。

输出格式包括:

  1. 网站名、URL

  2. 文件名(如:FishC_fishc_com.md)
复制代码

当前批次进度信息

请求间延迟(Wait)

每抓取一个网站前延迟2秒,以降低请求密度。


抓取网站内容(HTTP Request)

调用Firecrawl API,通过POST方式请求目标网站内容,参数包括:


抓取格式:markdown

只抓取主要内容(onlyMainContent: true)

最大等待时间与超时时间

处理抓取结果(Code)

判断抓取是否成功:

  • 成功 → 提取内容并生成Markdown正文;
  • 失败 → 记录错误信息。

输出Markdown结构示例:

  1. # 网站名
  2. ## 基本信息
  3. - URL: ...
  4. - 抓取状态: success
  5. ## 网站内容
  6. [正文内容]
  7. ---
  8. *此文档由n8n工作流自动生成*
复制代码

保存Markdown文件(WriteFile)

将抓取结果保存为本地Markdown文件。


记录进度(Code)

控制台输出处理状态,包括当前批次、文件名、内容长度和时间戳,方便监控运行。


生成汇总报告(Code)

将所有结果汇总为统计报告,包括:总网站数、成功数、失败数、成功率

成功与失败的网站清单


内容长度统计(平均、最大、最小)

输出为Markdown格式的报告文件。


保存汇总报告(WriteFile)

将上一步生成的报告写入本地文件。


完成通知(Code)

在控制台输出总结性日志,标明任务完成、文件保存位置和统计结果。


三、工作流下载

工作流:
游客,如果您要查看本帖隐藏内容请回复
[/hide]

在线课程:



评论区聊聊你的想法



                               
登录/注册后可看大图




如果有收获,别忘了评分


                               
登录/注册后可看大图


                               
登录/注册后可看大图
                                                                    
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2 小时前 | 显示全部楼层
收藏个,先
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2 小时前 | 显示全部楼层
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2 小时前 | 显示全部楼层
感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 半小时前 | 显示全部楼层
感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 28 分钟前 | 显示全部楼层
感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-10-26 22:42

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表