鱼C论坛

 找回密码
 立即注册
查看: 1360|回复: 2

Python request返回的html和网页上审查元素看到的html不一样

[复制链接]
发表于 2021-8-30 22:50:00 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
随便爬取链家网二手房的信息,url = https://nj.lianjia.com/ershoufang/l1a1p1

用Chrome浏览器,右键审查,看到每个房源的信息在li标签下,该标签有个class="clear LOGCLICKDATA"

但是用BeautifulSoup筛选的时候,发现class_="clear LOGCLICKDATA"并没有筛选到东西,后来发现,request get到的html里面,class的值实际上是"clear LOGVIEWDATA LOGCLICKDATA"。右键网页查看源代码,发现class也是"clear LOGVIEWDATA LOGCLICKDATA"

为什么在网页上点审查,结果是不一样的呢?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-8-30 23:03:00 | 显示全部楼层
因为你看到的网页并不只是html,还有css,和js这两个部分
如果你一开始就打开开发者模式在element页面下看的话你会发现很多属性是会变的,所以爬取静态网页的话先大概看一下和源码一样吗?然后再去分析
有些网页甚至结构都和源码不一样
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-8-31 06:58:38 | 显示全部楼层
这时候就要考虑抓包了,小甲鱼的爬取网易云评论就是去抓包的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-13 13:41

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表