鱼C论坛

 找回密码
 立即注册
查看: 1846|回复: 7

[已解决]关于decode

[复制链接]
发表于 2020-3-10 19:14:26 | 显示全部楼层 |阅读模式
10鱼币
视频刚看到http走代理,不知道为什么报错,我看那个网页也是用'utf-8'编码的呀
import urllib.request

url='http://www.google.com/'

proxysupport=urllib.request.ProxyHandler({'http':'http://127.0.0.1:1087'})

opener = urllib.request.build_opener(proxysupport)

urllib.request.install_opener(opener)

response = urllib.request.urlopen(url)

html=response.read().decode('utf-8')

print(html)
报错
Traceback (most recent call last):
  File "test35.py", line 13, in <module>
    html=response.read().decode('utf-8')
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xfc in position 7905: invalid start byte
最佳答案
2020-3-10 19:14:27
试试gbk?

最佳答案

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-3-10 19:14:27 | 显示全部楼层    本楼为最佳答案   
试试gbk?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-3-10 21:23:53 | 显示全部楼层

gbk是不报错,但是
(function(){google.spjs=false;google.snet=true;google.em=[];google.emw=false;google.pdt=0;})();(function(){var pmc='{\x22d\x22:{},\x22sb_he\x22:{\x22agen\x22:true,\x22cgen\x22:true,\x22client\x22:\x22heirloom-hp\x22,\x22dh\x22:true,\x22dhqt\x22:true,\x22ds\x22:\x22\x22,\x22ffql\x22:\x22de\x22,\x22fl\x22:true,\x22host\x22:\x22google.com\x22,\x22isbh\x22:28,\x22jsonp\x22:true,\x22lm\x22:true,\x22msgs\x22:{\x22cibl\x22:\x22Suche l鰏chen\x22,\x22dym\x22:\x22Meintest du:\x22,\x22lcky\x22:\x22Auf gut Gl點k!\x22,\x22lml\x22:\x22Weitere Informationen\x22,\x22oskt\x22:\x22Eingabetools\x22,\x22psrc\x22:\x22Diese Suchanfrage wurde aus deinem \\u003Ca href\x3d\\\x22/history\\\x22\\u003EWebprotokoll\\u003C/a\\u003E entfernt.\x22,\x22psrl\x22:\x22Entfernen\x22,\x22sbit\x22:\x22Bildersuche\x22,\x22srch\x22:\x22Google-Suche\x22},\x22ovr\x22:{},\x22pq\x22:\x22\x22,\x22refpd\x22:true,\x22rfs\x22:[],\x22sbpl\x22:16,\x22sbpr\x22:16,\x22scd\x22:10,\x22stok\x22:\x2211EHEL9WFqniC50_fM0ztRmz9Pc\x22,\x22uhde\x22:false}}';google.pmc=JSON.parse(pmc);})();</script>        </body></html>
输出的东西不像是对的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-3-10 21:24:32 | 显示全部楼层
walleeee 发表于 2020-3-10 21:23
gbk是不报错,但是
输出的东西不像是对的

这就是html代码鸭
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-3-10 21:36:53 | 显示全部楼层

这样的嘛,好的谢谢你,我还以为那些\x22什么的是没有decode成功的东西,还有想请教怎么正确判断该用gbk 还是utf-8还是别的什么呢,我看网页源代码有
<meta charset="UTF-8">
我才选用‘utf-8’的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-3-10 21:42:00 | 显示全部楼层
walleeee 发表于 2020-3-10 21:36
这样的嘛,好的谢谢你,我还以为那些\x22什么的是没有decode成功的东西,还有想请教怎么正确判断该用gbk  ...

能不能把网页地址发一下?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-3-10 21:46:22 | 显示全部楼层
qiuyouzhi 发表于 2020-3-10 21:42
能不能把网页地址发一下?
www.google.com
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-3-10 23:09:35 | 显示全部楼层
更正一下 www.google.com 用的是ISO-8859-1编码,这也许和我用的代理是欧洲那边的有关
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-24 16:32

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表