huayanjian 发表于 2021-8-30 22:50:00

Python request返回的html和网页上审查元素看到的html不一样

随便爬取链家网二手房的信息,url = https://nj.lianjia.com/ershoufang/l1a1p1

用Chrome浏览器,右键审查,看到每个房源的信息在li标签下,该标签有个class="clear LOGCLICKDATA"

但是用BeautifulSoup筛选的时候,发现class_="clear LOGCLICKDATA"并没有筛选到东西,后来发现,request get到的html里面,class的值实际上是"clear LOGVIEWDATA LOGCLICKDATA"。右键网页查看源代码,发现class也是"clear LOGVIEWDATA LOGCLICKDATA"

为什么在网页上点审查,结果是不一样的呢?

白two 发表于 2021-8-30 23:03:00

因为你看到的网页并不只是html,还有css,和js这两个部分
如果你一开始就打开开发者模式在element页面下看的话你会发现很多属性是会变的,所以爬取静态网页的话先大概看一下和源码一样吗?然后再去分析
有些网页甚至结构都和源码不一样

大马强 发表于 2021-8-31 06:58:38

这时候就要考虑抓包了,小甲鱼的爬取网易云评论就是去抓包的
页: [1]
查看完整版本: Python request返回的html和网页上审查元素看到的html不一样