「N8N流」自动抓取网站信息生成报告
整个工作流形成了一个高效的自动化抓取与文档生产链条:
手动启动 → 读取Excel → 分批抓取 → 延时控制 → Markdown生成 → 汇总输出 → 完成通知。
一、工作流整体概述
该工作流的核心目标是批量抓取竞品网站内容并自动生成Markdown报告。
整个流程由多个模块(节点)组成,从Excel读取网址清单,自动分批、逐站抓取网页内容,生成对应Markdown文件,并在最后输出汇总报告。
它属于一个可扩展的自动化网页爬取与文档生成系统,主要适合竞品分析、网站信息采集或SEO数据整理场景。
二、流程结构与逻辑步骤
手动触发(Manual Trigger)
流程的起点由用户手动点击触发器启动,便于灵活控制任务开始时间。
读取Excel文件(Read/Write Files from Disk → 读取Excel文件)
从本地路径(如/tmp/官网链接整理.xlsx)读取网址列表。
每行包含网站名称与URL,是后续任务的输入源。
设置批处理配置(Set)
用于定义抓取任务参数,例如:
[*]每批处理的网站数量(batchSize)
[*]每批之间的延迟时间(delayBetweenBatches)
[*]抓取请求超时(requestTimeout)
[*]抓取API地址(firecrawlApiUrl)
[*]输出文件目录(outputDirectory)
分批处理(Code节点)
将Excel中的网址列表按batchSize分批打包,每个批次包含若干个网站对象。
生成结构示例:
{
"batchNumber": 1,
"totalBatches": 5,
"websites": [
{ "name": "FishC", "url": "https://fishc.com", "originalIndex": 0 }
]
}
处理当前批次(SplitInBatches)
依次取出各个批次,准备执行逐批抓取。
批次间延迟(Wait)
根据配置延时执行,防止高频访问触发目标网站的反爬机制。
处理批次中的网站(SplitInBatches)
进一步将批次内的各个网站单独处理,为下一步抓取做准备。
提取网站信息(Code)
从当前批次中提取单个网站信息,并生成安全的Markdown文件名(去除特殊字符)。
输出格式包括:
网站名、URL
文件名(如:FishC_fishc_com.md)
当前批次进度信息
请求间延迟(Wait)
每抓取一个网站前延迟2秒,以降低请求密度。
抓取网站内容(HTTP Request)
调用Firecrawl API,通过POST方式请求目标网站内容,参数包括:
抓取格式:markdown
只抓取主要内容(onlyMainContent: true)
最大等待时间与超时时间
处理抓取结果(Code)
判断抓取是否成功:
[*]成功 → 提取内容并生成Markdown正文;
[*]失败 → 记录错误信息。
输出Markdown结构示例:
# 网站名
## 基本信息
- URL: ...
- 抓取状态: success
## 网站内容
[正文内容]
---
*此文档由n8n工作流自动生成*
保存Markdown文件(WriteFile)
将抓取结果保存为本地Markdown文件。
记录进度(Code)
控制台输出处理状态,包括当前批次、文件名、内容长度和时间戳,方便监控运行。
生成汇总报告(Code)
将所有结果汇总为统计报告,包括:总网站数、成功数、失败数、成功率
成功与失败的网站清单
内容长度统计(平均、最大、最小)
输出为Markdown格式的报告文件。
保存汇总报告(WriteFile)
将上一步生成的报告写入本地文件。
完成通知(Code)
在控制台输出总结性日志,标明任务完成、文件保存位置和统计结果。
三、工作流下载
工作流:**** Hidden Message *****
在线课程:
https://www.bilibili.com/video/BV1GxxkzdEeS
评论区聊聊你的想法吧{:10_330:}
https://xxx.ilovefishc.com/forum/202505/12/120451wiv7viv5iebupbbr.png
>>万能兑换C币许愿池<<
如果有收获,别忘了评分{:10_281:} :
https://xxx.ilovefishc.com/forum/202011/20/092334ggd6inlzfisfrdir.png.thumb.jpg
https://xxx.ilovefishc.com/forum/202505/21/111710rvxgdn90vaub5gag.gif 收藏个,先 lscp 发表于 2025-10-26 20:03
收藏个,先
{:10_288:}{:13_438:}{:10_288:}{:13_438:}{:10_288:}{:13_438:} 感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意{:10_275:} 感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意{:10_275:} 感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意{:10_275:} 感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意{:10_275:} xubiebbl 发表于 2025-10-26 22:14
感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意
{:10_288:}{:13_438:}{:10_288:}{:13_438:}{:10_288:}{:13_438:} Clay_Chow 发表于 2025-10-27 06:06
感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意
{:10_288:}{:13_438:}{:10_288:}{:13_438:}{:10_288:}{:13_438:} 感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意{:10_275:} 感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意{:10_275:} 粒粒粒子 发表于 2025-10-28 11:39
感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意
{:10_288:}{:13_438:}{:10_288:}{:13_438:}{:10_288:}{:13_438:} yinda_peng 发表于 2025-10-28 11:51
感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意
{:13_450:}鱼C有你更精彩{:10_288:} 感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意{:10_275:} 感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意{:10_275:} 感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意{:10_275:} 感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意{:10_275:} 感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意{:10_275:} 感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意{:10_275:} 感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意{:10_275:}
页:
[1]