爬取内容与原网页代码不同，内容有缺失,萌新交流区,萌新训练营,鱼C论坛

kwty 发表于 2018-2-22 17:38:52

网页地址 http://www.qqxoo.com/main.html?qqid=20050606

°蓝鲤歌蓝 发表于 2018-2-22 17:47:54

很正常啊，网页源码和审查元素里的代码又不会全部一模一样。

MSK 发表于 2018-2-22 17:49:20

本帖最后由 MSK 于 2018-2-22 17:50 编辑

有的网页是动态加载的, 所以你爬到的只是静态的html代码而已, 你要的东西没有在这个html文件里
小甲鱼名言
如果你要的东西没有在这个文件里, 那么他一定在另一个文件里
{:10_256:}

kwty 发表于 2018-2-22 18:01:56

本帖最后由 kwty 于 2018-2-22 18:03 编辑

°蓝鲤歌蓝发表于 2018-2-22 17:47
很正常啊，网页源码和审查元素里的代码又不会全部一模一样。

审查元素里的代码和爬到的不一样，这应该是异步加载

°蓝鲤歌蓝 发表于 2018-2-22 18:05:48

kwty 发表于 2018-2-22 18:01
审查元素里的代码和爬到的不一样，这应该是异步加载

我知道啊，js动态内容的代码一般不会出现在源码里。

kwty 发表于 2018-2-22 18:06:36

本帖最后由 kwty 于 2018-2-22 18:09 编辑

°蓝鲤歌蓝发表于 2018-2-22 18:05
我知道啊，js动态内容的代码一般不会出现在源码里。

怎么解决呀，审查元素里有呀，js动态内容用审查元素看不到吧

°蓝鲤歌蓝 发表于 2018-2-22 18:08:19

kwty 发表于 2018-2-22 18:06
怎么解决呀

1.去他的js文件里找，如果是 json格式的数据还可以转换成Python字典。
2.用selenium爬。
其他方法我就不知道了。

lapo_Mu 发表于 2018-2-22 19:05:35

selenium支持Python3吗？

lapo_Mu 发表于 2018-2-22 19:07:56

“Python爬虫从入门到放弃”里面有的

页: [1]

鱼C论坛's Archiver