sym945 发表于 2021-9-24 10:30:51

python写一个爬虫,爬取一个反共网站的情报内容,将关键内容爬取出来并保存

本帖最后由 sym945 于 2021-9-24 10:42 编辑

情况是公安网警交给我们公司的一个任务,对一个反共黑客网站进行定时情报收集,目标是把该网站展示的攻克成果给爬取出来,当该博客再次更新攻克成果时候比较新的成果,将新成果记录下来,定时邮件发送给网监,因为公司其他人都有别的任务,目前剩下的人就我一个人看学过一些python,老大就把任务给我了,爬虫部分还没看,要边看边学,希望大佬提供一些帮助,已经爬取出关键内容了,因为目前爬取出打印出来的包含了标签还有内容,需要将<a>标签的链接还有内容给保存出来方便以后进行比较,代码如下图

<a>标签链接访问内容,如下图

要实现结果是把访问之后的页面进行截图,然后把网站中展示的内容给提取出来,发送邮件给网监,请问大佬们要怎么实现,有没有参考的知识资料
页: [1]
查看完整版本: python写一个爬虫,爬取一个反共网站的情报内容,将关键内容爬取出来并保存