不二如是 发表于 2025-10-26 19:04:50

「N8N流」自动抓取网站信息生成报告



整个工作流形成了一个高效的自动化抓取与文档生产链条:

手动启动 → 读取Excel → 分批抓取 → 延时控制 → Markdown生成 → 汇总输出 → 完成通知。

一、工作流整体概述

该工作流的核心目标是批量抓取竞品网站内容并自动生成Markdown报告。

整个流程由多个模块(节点)组成,从Excel读取网址清单,自动分批、逐站抓取网页内容,生成对应Markdown文件,并在最后输出汇总报告。

它属于一个可扩展的自动化网页爬取与文档生成系统,主要适合竞品分析、网站信息采集或SEO数据整理场景。


二、流程结构与逻辑步骤

手动触发(Manual Trigger)

流程的起点由用户手动点击触发器启动,便于灵活控制任务开始时间。


读取Excel文件(Read/Write Files from Disk → 读取Excel文件)

从本地路径(如/tmp/官网链接整理.xlsx)读取网址列表。

每行包含网站名称与URL,是后续任务的输入源。


设置批处理配置(Set)

用于定义抓取任务参数,例如:


[*]每批处理的网站数量(batchSize)
[*]每批之间的延迟时间(delayBetweenBatches)
[*]抓取请求超时(requestTimeout)
[*]抓取API地址(firecrawlApiUrl)
[*]输出文件目录(outputDirectory)

分批处理(Code节点)

将Excel中的网址列表按batchSize分批打包,每个批次包含若干个网站对象。

生成结构示例:
{
"batchNumber": 1,
"totalBatches": 5,
"websites": [
    { "name": "FishC", "url": "https://fishc.com", "originalIndex": 0 }
]
}

处理当前批次(SplitInBatches)

依次取出各个批次,准备执行逐批抓取。


批次间延迟(Wait)

根据配置延时执行,防止高频访问触发目标网站的反爬机制。


处理批次中的网站(SplitInBatches)

进一步将批次内的各个网站单独处理,为下一步抓取做准备。


提取网站信息(Code)

从当前批次中提取单个网站信息,并生成安全的Markdown文件名(去除特殊字符)。

输出格式包括:

网站名、URL

文件名(如:FishC_fishc_com.md)
当前批次进度信息

请求间延迟(Wait)

每抓取一个网站前延迟2秒,以降低请求密度。


抓取网站内容(HTTP Request)

调用Firecrawl API,通过POST方式请求目标网站内容,参数包括:


抓取格式:markdown

只抓取主要内容(onlyMainContent: true)

最大等待时间与超时时间

处理抓取结果(Code)

判断抓取是否成功:


[*]成功 → 提取内容并生成Markdown正文;
[*]失败 → 记录错误信息。

输出Markdown结构示例:

# 网站名
## 基本信息
- URL: ...
- 抓取状态: success
## 网站内容
[正文内容]
---
*此文档由n8n工作流自动生成*

保存Markdown文件(WriteFile)

将抓取结果保存为本地Markdown文件。


记录进度(Code)

控制台输出处理状态,包括当前批次、文件名、内容长度和时间戳,方便监控运行。


生成汇总报告(Code)

将所有结果汇总为统计报告,包括:总网站数、成功数、失败数、成功率

成功与失败的网站清单


内容长度统计(平均、最大、最小)

输出为Markdown格式的报告文件。


保存汇总报告(WriteFile)

将上一步生成的报告写入本地文件。


完成通知(Code)

在控制台输出总结性日志,标明任务完成、文件保存位置和统计结果。


三、工作流下载

工作流:**** Hidden Message *****

在线课程:

https://www.bilibili.com/video/BV1GxxkzdEeS

评论区聊聊你的想法吧{:10_330:}

https://xxx.ilovefishc.com/forum/202505/12/120451wiv7viv5iebupbbr.png

>>万能兑换C币许愿池<<

如果有收获,别忘了评分{:10_281:} :

https://xxx.ilovefishc.com/forum/202011/20/092334ggd6inlzfisfrdir.png.thumb.jpg
https://xxx.ilovefishc.com/forum/202505/21/111710rvxgdn90vaub5gag.gif                                                                  

lscp 发表于 2025-10-26 20:03:13

收藏个,先

不二如是 发表于 2025-10-26 20:09:32

lscp 发表于 2025-10-26 20:03
收藏个,先

{:10_288:}{:13_438:}{:10_288:}{:13_438:}{:10_288:}{:13_438:}

不二如是 发表于 2025-10-26 20:09:52

感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意{:10_275:}

小甲鱼的二师兄 发表于 2025-10-26 22:03:13

感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意{:10_275:}

xubiebbl 发表于 2025-10-26 22:14:11

感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意{:10_275:}

Clay_Chow 发表于 2025-10-27 06:06:49

感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意{:10_275:}

不二如是 发表于 2025-10-27 08:33:07

xubiebbl 发表于 2025-10-26 22:14
感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意

{:10_288:}{:13_438:}{:10_288:}{:13_438:}{:10_288:}{:13_438:}

不二如是 发表于 2025-10-27 08:33:13

Clay_Chow 发表于 2025-10-27 06:06
感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意

{:10_288:}{:13_438:}{:10_288:}{:13_438:}{:10_288:}{:13_438:}

粒粒粒子 发表于 2025-10-28 11:39:50

感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意{:10_275:}

yinda_peng 发表于 2025-10-28 11:51:17

感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意{:10_275:}

不二如是 发表于 2025-10-28 12:09:34

粒粒粒子 发表于 2025-10-28 11:39
感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意

{:10_288:}{:13_438:}{:10_288:}{:13_438:}{:10_288:}{:13_438:}

不二如是 发表于 2025-10-28 12:09:40

yinda_peng 发表于 2025-10-28 11:51
感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意

{:13_450:}鱼C有你更精彩{:10_288:}

不二如是 发表于 2025-10-28 12:09:50

感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意{:10_275:}

不二如是 发表于 2025-10-28 12:09:56

感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意{:10_275:}

不二如是 发表于 2025-10-30 08:37:05

感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意{:10_275:}

不二如是 发表于 2025-11-1 09:50:19

感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意{:10_275:}

不二如是 发表于 7 天前

感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意{:10_275:}

不二如是 发表于 4 天前

感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意{:10_275:}

不二如是 发表于 4 小时前

感谢分享 朕又在鱼C发现宝藏N8N工作流啦!非常满意{:10_275:}
页: [1]
查看完整版本: 「N8N流」自动抓取网站信息生成报告