鱼C论坛

 找回密码
 立即注册
查看: 6182|回复: 8

爬取内容与原网页代码不同,内容有缺失

[复制链接]
发表于 2018-2-22 17:38:52 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
网页地址 http://www.qqxoo.com/main.html?qqid=20050606
保存2.jpg
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-2-22 17:47:54 | 显示全部楼层
很正常啊,网页源码和审查元素里的代码又不会全部一模一样。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-2-22 17:49:20 | 显示全部楼层
本帖最后由 MSK 于 2018-2-22 17:50 编辑

有的网页是动态加载的, 所以你爬到的只是静态的html代码而已, 你要的东西没有在这个html文件里
小甲鱼名言
如果你要的东西没有在这个文件里, 那么他一定在另一个文件里

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-2-22 18:01:56 | 显示全部楼层
本帖最后由 kwty 于 2018-2-22 18:03 编辑
°蓝鲤歌蓝 发表于 2018-2-22 17:47
很正常啊,网页源码和审查元素里的代码又不会全部一模一样。


审查元素里的代码和爬到的不一样,这应该是异步加载
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-2-22 18:05:48 | 显示全部楼层
kwty 发表于 2018-2-22 18:01
审查元素里的代码和爬到的不一样,这应该是异步加载

我知道啊,js动态内容的代码一般不会出现在源码里。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-2-22 18:06:36 | 显示全部楼层
本帖最后由 kwty 于 2018-2-22 18:09 编辑
°蓝鲤歌蓝 发表于 2018-2-22 18:05
我知道啊,js动态内容的代码一般不会出现在源码里。


怎么解决呀,审查元素里有呀,js动态内容用审查元素看不到吧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-2-22 18:08:19 | 显示全部楼层

1.去他的js文件里找,如果是 json格式的数据还可以转换成Python字典。
2.用selenium爬。
其他方法我就不知道了。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-2-22 19:05:35 | 显示全部楼层
selenium支持Python3吗?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-2-22 19:07:56 | 显示全部楼层
“Python爬虫从入门到放弃”里面有的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-10-5 07:55

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表