鱼C论坛

 找回密码
 立即注册
查看: 2636|回复: 5

[已解决]萌新关于decode方面求助

[复制链接]
发表于 2020-3-3 21:30:29 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x

        问题描述:我在试图爬取某小说网站时出现了以下错误:
        UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte
        似乎是文本过大所引起的,之前查过那个网站的是‘utf-8’的形式,求问大佬如何解决,
最佳答案
2020-3-3 21:32:36
reponse.encoding=reponse.apparent_encoding
试一下
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-3-3 21:32:36 From FishC Mobile | 显示全部楼层    本楼为最佳答案   
reponse.encoding=reponse.apparent_encoding
试一下
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-3 21:40:13 | 显示全部楼层
wp231957 发表于 2020-3-3 21:32
reponse.encoding=reponse.apparent_encoding
试一下

回大佬,我解码方面的代码是这样的:
  1. def url_open(url):
  2.         ps=urllib.request.ProxyHandler({'http':random.choice(ip)})
  3.         opener=urllib.request.build_opener(ps)
  4.         rep = urllib.request.Request(url)
  5.         rep.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36')
  6.         html = response.read()
  7.         return html
  8. def find_list(url):
  9.     html=url_open(url).decode('utf-8')
复制代码

    是将reponse.read修改吗?(尝试中)
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-3 21:43:16 From FishC Mobile | 显示全部楼层
jingyangzhi 发表于 2020-3-3 21:40
回大佬,我解码方面的代码是这样的:
    是将reponse.read修改吗?(尝试中)

没用过urllib
另外,你的代理ip能正常用吗
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-3 21:54:14 | 显示全部楼层
wp231957 发表于 2020-3-3 21:43
没用过urllib
另外,你的代理ip能正常用吗

在另爬妹子图(贱笑)的爬虫中使用过几次,无异常,应该是可以使用的。。。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-3 22:08:38 | 显示全部楼层
wp231957 发表于 2020-3-3 21:43
没用过urllib
另外,你的代理ip能正常用吗

问题已经解决,发现是数据是通过gzip压缩过的....,经过解压已经成功解决,
但是在寻找答案过程中,发现requests库可以更快的解决问题,想问一下大佬,除了github,
国内那里可以获得这些第三方库?(在下vpn不好,根本带不动)
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-3-1 10:47

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表