鱼C论坛

 找回密码
 立即注册
查看: 1226|回复: 1

爬取网址去重

[复制链接]
发表于 2022-3-2 11:13:47 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 83519489 于 2022-3-2 11:15 编辑

放了两年,知识完全变陌生了,想问下,爬取一个网站,网站的图片地址和标题地址都在一个标签下,元素名字完全相同,每次爬取下来就变成每次都获取两个相同网址了,图片和标题的链接都在一个标签下,元素完全相同,有办法可以爬取的时候直接筛选出来吗,感觉正则好像可以,不过代码有点长了,又或者爬取下来后直接进行一个去重,求个方法谢谢🙏
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-3-2 11:21:59 | 显示全部楼层
根据文本特征用正则匹配吧,不如http .jpg .png
如果两者顺序可循,也可以用下标把它提取出来
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-10-6 12:32

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表