83519489 发表于 2022-3-2 11:13:47

爬取网址去重

本帖最后由 83519489 于 2022-3-2 11:15 编辑

放了两年,知识完全变陌生了,想问下,爬取一个网站,网站的图片地址和标题地址都在一个标签下,元素名字完全相同,每次爬取下来就变成每次都获取两个相同网址了,图片和标题的链接都在一个标签下,元素完全相同,有办法可以爬取的时候直接筛选出来吗,感觉正则好像可以,不过代码有点长了,又或者爬取下来后直接进行一个去重,求个方法谢谢🙏

大马强 发表于 2022-3-2 11:21:59

根据文本特征用正则匹配吧,不如http .jpg .png
如果两者顺序可循,也可以用下标把它提取出来
页: [1]
查看完整版本: 爬取网址去重