请问如何将gb2312的编码进行解码
网页有一部分为utf-8的编码,一部分为gb2312编码网页:https://www.tupianzj.com/meinv/mm/
这个网站就是 GB2312
Twilight6 发表于 2020-7-13 22:38
这个网站就是 GB2312
怎么解码gb2312,用urllib模块 传送门
static/image/hrline/1.gif
如果帮到你了,设置下最佳可好呀↗{:10_297:}
初探门槛 发表于 2020-7-13 22:39
怎么解码gb2312,用urllib模块
from urllib import request
url = 'https://www.tupianzj.com/meinv/mm/'
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}
req = request.Request(url,headers=headers)
res = request.urlopen(req)
html = res.read().decode('gbk')
print(html) 我进行了gb2312编码然后进行了解码但是他的文字还是乱码,其他都已经解码了 Hello. 发表于 2020-7-13 22:48
传送门
我进行了gb2312编码然后进行了解码但是他的文字还是乱码,其他都已经解码了 Twilight6 发表于 2020-7-13 22:53
gbk是通用解码吗 初探门槛 发表于 2020-7-13 23:16
gbk是通用解码吗
不是gbk 比 gb2312 收录的汉字多,gbk差不多2W 个汉字,而 gb2312才6K
页:
[1]