Python request返回的html和网页上审查元素看到的html不一样

huayanjian · 发表于 2021-8-30 22:50:00

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

随便爬取链家网二手房的信息，url = https://nj.lianjia.com/ershoufang/l1a1p1

用Chrome浏览器，右键审查，看到每个房源的信息在li标签下，该标签有个class="clear LOGCLICKDATA"

但是用BeautifulSoup筛选的时候，发现class_="clear LOGCLICKDATA"并没有筛选到东西，后来发现，request get到的html里面，class的值实际上是"clear LOGVIEWDATA LOGCLICKDATA"。右键网页查看源代码，发现class也是"clear LOGVIEWDATA LOGCLICKDATA"

为什么在网页上点审查，结果是不一样的呢？

白two · 发表于 2021-8-30 23:03:00

因为你看到的网页并不只是html，还有css，和js这两个部分
如果你一开始就打开开发者模式在element页面下看的话你会发现很多属性是会变的，所以爬取静态网页的话先大概看一下和源码一样吗？然后再去分析
有些网页甚至结构都和源码不一样

大马强 · 发表于 2021-8-31 06:58:38

这时候就要考虑抓包了，小甲鱼的爬取网易云评论就是去抓包的

账号		自动登录	找回密码
密码			立即注册

Python request返回的html和网页上审查元素看到的html不一样

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块