爬取网址去重
本帖最后由 83519489 于 2022-3-2 11:15 编辑放了两年,知识完全变陌生了,想问下,爬取一个网站,网站的图片地址和标题地址都在一个标签下,元素名字完全相同,每次爬取下来就变成每次都获取两个相同网址了,图片和标题的链接都在一个标签下,元素完全相同,有办法可以爬取的时候直接筛选出来吗,感觉正则好像可以,不过代码有点长了,又或者爬取下来后直接进行一个去重,求个方法谢谢🙏 根据文本特征用正则匹配吧,不如http .jpg .png
如果两者顺序可循,也可以用下标把它提取出来
页:
[1]