[已解决]关于一个网页爬取的问题

瓦尔登湖的海水 · 发表于 2017-6-27 07:50:59

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

初次尝试python的网络爬虫，选择有规律性的口袋妖怪图鉴作为最初的练习对象。
但是在爬取如下网页时遇到问题：https://wiki.52poke.com/wiki/%E5%B0%8F%E7%81%AB%E9%BE%99
后面二进制的部分是从网站导航页爬取下来的。

url = 'https://wiki.52poke.com/wiki/%E5%B0%8F%E7%81%AB%E9%BE%99'
response = urllib.request.urlopen(url)
import chardet
chardet.detect(response.read())

输出结果是：{'confidence': 0.0, 'encoding': None, 'language': None}
整个爬取的网页内容无法识别。

同样的网站下，其导航页面却是能够识别编码的：url = 'https://wiki.52poke.com/zh/%E5%AE%9D%E5%8F%AF%E6%A2%A6%E5%88%97%E8%A1%A8%EF%BC%88%E6%8C%89%E5%85%A8%E5%9B%BD%E5%9B%BE%E9%89%B4%E7%BC%96%E5%8F%B7%EF%BC%89'

不知道这是怎么一回事？

最佳答案

月排行榜 / 总排行榜

和vvv

2017-6-27 09:43:11

本帖最后由和vvv 于 2017-6-27 09:56 编辑

这个问题好。

因为这个网站返回的页面是经过gzip压缩的，用浏览器打开时浏览器会先解压缩。而用爬虫怕是没有做，所以可以用gzip包解压：

import urllib.request
import gzip
import chardet
url = 'https://wiki.52poke.com/wiki/%E5%B0%8F%E7%81%AB%E9%BE%99'
response = gzip.decompress(urllib.request.urlopen(url).read())
print(chardet.detect(response))

复制代码

结果：

{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}

复制代码

还有一种方法是使用 requests库访问页面
类似的，我的笔记里有一个例子：http://bbs.fishc.com/forum.php?m ... p;extra=#pid2928007

跳转到最佳答案楼层

瓦尔登湖的海水 · 发表于 2017-6-27 09:02:35

又要自问自答了

干过好几次了。
这里又要根据网页设定request headers才行

和vvv · 发表于 2017-6-27 09:43:11

本帖最后由和vvv 于 2017-6-27 09:56 编辑

这个问题好。

因为这个网站返回的页面是经过gzip压缩的，用浏览器打开时浏览器会先解压缩。而用爬虫怕是没有做，所以可以用gzip包解压：

import urllib.request
import gzip
import chardet
url = 'https://wiki.52poke.com/wiki/%E5%B0%8F%E7%81%AB%E9%BE%99'
response = gzip.decompress(urllib.request.urlopen(url).read())
print(chardet.detect(response))

复制代码

结果：

{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}

复制代码

还有一种方法是使用 requests库访问页面
类似的，我的笔记里有一个例子：http://bbs.fishc.com/forum.php?m ... p;extra=#pid2928007

瓦尔登湖的海水 · 发表于 2017-6-27 19:27:51

和vvv 发表于 2017-6-27 09:43
这个问题好。

因为这个网站返回的页面是经过gzip压缩的，用浏览器打开时浏览器会先解压缩。而用爬虫怕是 ...

厉害，看来爬网页之前要好好深入分析要爬的网页呢。谢谢了
我后来用了自定义request headers解决这个问题，但是你这个更加精炼。

和vvv · 发表于 2017-6-27 19:32:57

多谢，方法很多，就看自己的喜欢了

whdd · 发表于 2018-9-19 15:17:09

学习

whdd · 发表于 2018-9-19 15:17:48

有点难掌握加油

GOD乌索普 · 发表于 2018-9-19 16:53:24

不懂

GOD乌索普 · 发表于 2018-9-19 16:53:55

。额，又没中

钱闻韬 · 发表于 2018-9-19 20:11:50

学习

钱闻韬 · 发表于 2018-9-19 20:12:20

学习

2418 · 发表于 2018-9-19 21:46:55

学习

学学看看 · 发表于 2018-9-21 13:20:30

提示: 作者被禁止或删除内容自动屏蔽

小小小菜菜菜 · 发表于 2018-12-20 10:07:01

来顶帖子得鱼币

账号		自动登录	找回密码
密码			立即注册

学学看看学学看看当前离线 UID 522173 日志相册贡献荣誉积分 588 狗仔卡头像被屏蔽	发表于 2018-9-21 13:20:30 \| 显示全部楼层回帖奖励 +2 鱼币提示: 作者被禁止或删除内容自动屏蔽
	小甲鱼最新课程 -> https://ilovefishc.com
	回复支持反对使用道具举报显身卡

[已解决]关于一个网页爬取的问题

马上注册，结交更多好友，享用更多功能^_^

回帖奖励 +2 鱼币

回帖奖励 +2 鱼币

回帖奖励 +2 鱼币

回帖奖励 +2 鱼币

回帖奖励 +2 鱼币

回帖奖励 +2 鱼币

回帖奖励 +2 鱼币

回帖奖励 +2 鱼币

回帖奖励 +2 鱼币

回帖奖励 +2 鱼币

浏览过的版块