初探门槛 发表于 2020-7-13 22:37:08

请问如何将gb2312的编码进行解码

网页有一部分为utf-8的编码,一部分为gb2312编码
网页:https://www.tupianzj.com/meinv/mm/

Twilight6 发表于 2020-7-13 22:38:49





这个网站就是 GB2312

初探门槛 发表于 2020-7-13 22:39:41

Twilight6 发表于 2020-7-13 22:38
这个网站就是 GB2312

怎么解码gb2312,用urllib模块

Hello. 发表于 2020-7-13 22:48:17

传送门


static/image/hrline/1.gif


如果帮到你了,设置下最佳可好呀↗{:10_297:}

Twilight6 发表于 2020-7-13 22:53:03

初探门槛 发表于 2020-7-13 22:39
怎么解码gb2312,用urllib模块

from urllib import request

url = 'https://www.tupianzj.com/meinv/mm/'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}

req = request.Request(url,headers=headers)
res = request.urlopen(req)
html = res.read().decode('gbk')
print(html)

初探门槛 发表于 2020-7-13 23:00:30

我进行了gb2312编码然后进行了解码但是他的文字还是乱码,其他都已经解码了

初探门槛 发表于 2020-7-13 23:08:25

Hello. 发表于 2020-7-13 22:48
传送门




我进行了gb2312编码然后进行了解码但是他的文字还是乱码,其他都已经解码了

初探门槛 发表于 2020-7-13 23:16:03

Twilight6 发表于 2020-7-13 22:53


gbk是通用解码吗

Twilight6 发表于 2020-7-13 23:25:23

初探门槛 发表于 2020-7-13 23:16
gbk是通用解码吗

不是gbk 比 gb2312 收录的汉字多,gbk差不多2W 个汉字,而 gb2312才6K
页: [1]
查看完整版本: 请问如何将gb2312的编码进行解码