Python request返回的html和网页上审查元素看到的html不一样
随便爬取链家网二手房的信息,url = https://nj.lianjia.com/ershoufang/l1a1p1用Chrome浏览器,右键审查,看到每个房源的信息在li标签下,该标签有个class="clear LOGCLICKDATA"
但是用BeautifulSoup筛选的时候,发现class_="clear LOGCLICKDATA"并没有筛选到东西,后来发现,request get到的html里面,class的值实际上是"clear LOGVIEWDATA LOGCLICKDATA"。右键网页查看源代码,发现class也是"clear LOGVIEWDATA LOGCLICKDATA"
为什么在网页上点审查,结果是不一样的呢? 因为你看到的网页并不只是html,还有css,和js这两个部分
如果你一开始就打开开发者模式在element页面下看的话你会发现很多属性是会变的,所以爬取静态网页的话先大概看一下和源码一样吗?然后再去分析
有些网页甚至结构都和源码不一样 这时候就要考虑抓包了,小甲鱼的爬取网易云评论就是去抓包的
页:
[1]