爬取内容与原网页代码不同,内容有缺失
网页地址 http://www.qqxoo.com/main.html?qqid=20050606很正常啊,网页源码和审查元素里的代码又不会全部一模一样。 本帖最后由 MSK 于 2018-2-22 17:50 编辑
有的网页是动态加载的, 所以你爬到的只是静态的html代码而已, 你要的东西没有在这个html文件里
小甲鱼名言
如果你要的东西没有在这个文件里, 那么他一定在另一个文件里
{:10_256:} 本帖最后由 kwty 于 2018-2-22 18:03 编辑
°蓝鲤歌蓝 发表于 2018-2-22 17:47
很正常啊,网页源码和审查元素里的代码又不会全部一模一样。
审查元素里的代码和爬到的不一样,这应该是异步加载 kwty 发表于 2018-2-22 18:01
审查元素里的代码和爬到的不一样,这应该是异步加载
我知道啊,js动态内容的代码一般不会出现在源码里。 本帖最后由 kwty 于 2018-2-22 18:09 编辑
°蓝鲤歌蓝 发表于 2018-2-22 18:05
我知道啊,js动态内容的代码一般不会出现在源码里。
怎么解决呀,审查元素里有呀,js动态内容用审查元素看不到吧 kwty 发表于 2018-2-22 18:06
怎么解决呀
1.去他的js文件里找,如果是 json格式的数据还可以转换成Python字典。
2.用selenium爬。
其他方法我就不知道了。 selenium支持Python3吗? “Python爬虫从入门到放弃”里面有的
页:
[1]