鱼C论坛

 找回密码
 立即注册
查看: 421|回复: 5

关于网页爬取,获取内容和网页审查元素不一样

[复制链接]
发表于 2020-4-10 16:02:19 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
https://www-engineeringvillage-c ... sageZone=nextrecord
在这个地址中,用浏览器审查元素可以看到<a href="mailto:ysun58@iphy.ac.cn" title="Sun, Yong Hao email" aria-label="Sun, Yong Hao email" class="emaillink"><span class="ss-mail"></span></a>这段内容,我想吧整个网页抓取下来筛选出里面的邮箱。
可是我用    req = urllib.request.Request('url')
                 req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36')
                 respunse = urllib.request.urlopen('url')
                 html = respunse.read().decode('utf-8')
                 print(html)
打印出来的代码里没有我想要的那一段内容。而在网页中这个邮箱是一个类似链接的信封按钮,要右键复制邮箱地址才能获取内容。我想知道python能不能实现爬取这个网站的邮箱。大致的方法是怎么样的。
谢谢大佬。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-4-10 16:53:05 | 显示全部楼层
点开链接是个登陆界面,你应该是已经登陆了再检查元素的吧
你要<a href="mailto:ysun58@iphy.ac.cn"这个链接?
建议看一下BeautifulSoup的使用方法,这个就是href属性,很容易就抓取下来了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-4-10 16:57:43 From FishC Mobile | 显示全部楼层
两点:
1,审查元素不等于可爬
2,涉及到登录的最好使用无头浏览器爬
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-4-10 17:32:56 | 显示全部楼层
审查元素中看到的代码有时并不等于网站的源代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-4-10 18:37:07 | 显示全部楼层
respunse = urllib.request.urlopen(req)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-4-10 20:18:46 | 显示全部楼层
用xpath "//a/@href".getall() 把所有链接搞下来成列表
然后轮询找带@的就可以了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-26 05:54

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表