为什么Python编码是utf-8的形式我还能将其解码成utf-8而第二次就不行,Python交流,编程语言专区,鱼C论坛

风百默 发表于 2022-5-7 12:04:27

为什么Python编码是utf-8的形式我还能将其解码成utf-8而第二次就不行

还有第一次解码出的打印出来不是‘你好’，utf-8不是unicode一种实现形式吗？

isdkz 发表于 2022-5-7 12:04:28

风百默发表于 2022-5-7 12:23
我那sys库用的函数不是说明Python本身是utf-8的编码方式吗？为什么我还能用encode将字符转化成utf-8的 ...

字符串就是还没有编码过的呀，

python 那个默认 utf-8 指的是python解释器阅读代码时使用的默认编码方式

isdkz 发表于 2022-5-7 12:09:09

字符串才有编码的方法，你已经编码成字节串了，就不能再编码了，

字节串应该是解码，用 decode 方法

风百默 发表于 2022-5-7 12:23:29

isdkz 发表于 2022-5-7 12:09
字符串才有编码的方法，你已经编码成字节串了，就不能再编码了，

字节串应该是解码，用 decode 方法

我那sys库用的函数不是说明Python本身是utf-8的编码方式吗？为什么我还能用encode将字符转化成utf-8的形式

风百默 发表于 2022-5-7 12:38:49

isdkz 发表于 2022-5-7 12:25
字符串就是还没有编码过的呀，

python 那个默认 utf-8 指的是python解释器阅读代码时使用的默认编码方 ...

为什么不能用unicode编码。

isdkz 发表于 2022-5-7 12:43:02

风百默发表于 2022-5-7 12:38
为什么不能用unicode编码。

应该是 unicode-escape

Twilight6 发表于 2022-5-7 12:43:34

第一个 encode("utf-8") 是将字符串通过 utf-8 编码成二进制数据（bytes 对象）

而 decode 是将以某编码方式解码后返回字符串对象数据

风百默 发表于 2022-5-7 13:12:44

isdkz 发表于 2022-5-7 12:04
字符串就是还没有编码过的呀，

python 那个默认 utf-8 指的是python解释器阅读代码时使用的默认编码方 ...

大佬，python解释器是不是可以阅读utf-8的编码形式和没有编码的字符，其他编码形式都要转换为utf形式才能被阅读。？

isdkz 发表于 2022-5-7 13:16:34

风百默发表于 2022-5-7 13:12
大佬，python解释器是不是可以阅读utf-8的编码形式和没有编码的字符，其他编码形式都要转换为utf形式才能 ...

不是，如果你的源代码是其它编码格式的可以在代码开头加上 encoding，

假如你的代码用的是 gbk 编码就加上这句：
# -*- encoding: gbk -*-

风百默 发表于 2022-5-7 13:30:48

isdkz 发表于 2022-5-7 13:16
不是，如果你的源代码是其它编码格式的可以在代码开头加上 encoding，

假如你的代码用的是 gbk 编码就 ...

那大佬，在获取网页信息时，我怎么判断需不需要重新编码，比如这个
import urllib.request
import urllib.parse
import json
content = input('请输入要翻译的内容：')
url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
data = {}
data['i'] = content
data['from'] = 'AUTO'
data['to'] ='AUTO'
data['smartresult'] = 'dict'
data['client'] = 'fanyideskweb'
data['salt'] = '16518125282681'
data['sign'] = '6692eb68459b9c16e49b4c2fa6e51411'
data['lts'] = '1651812528268'
data['bv'] = '247811f9b7fd387f154bf67d8ebd44f3'
data['doctype'] = 'json'
data['version'] = '2.1'
data['keyfrom'] = 'fanyi.web'
data['action'] = 'FY_BY_CLICKBUTTION'
data = urllib.parse.urlencode(data).encode('utf-8')
response = urllib.request.urlopen(url,data)
html = response.read().decode('utf-8')
print(html)
target = json.loads(html)
print('翻译结果：%s'%(target['translateResult']['tgt']))

isdkz 发表于 2022-5-7 13:37:39

风百默发表于 2022-5-7 13:30
那大佬，在获取网页信息时，我怎么判断需不需要重新编码，比如这个
import urllib.request
import urll ...

import urllib.request
import urllib.parse
import json
content = input('请输入要翻译的内容：')
url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
data = {}
data['i'] = content
data['from'] = 'AUTO'
data['to'] ='AUTO'
data['smartresult'] = 'dict'
data['client'] = 'fanyideskweb'
data['salt'] = '16518125282681'
data['sign'] = '6692eb68459b9c16e49b4c2fa6e51411'
data['lts'] = '1651812528268'
data['bv'] = '247811f9b7fd387f154bf67d8ebd44f3'
data['doctype'] = 'json'
data['version'] = '2.1'
data['keyfrom'] = 'fanyi.web'
data['action'] = 'FY_BY_CLICKBUTTION'
data = urllib.parse.urlencode(data).encode('utf-8')
response = urllib.request.urlopen(url,data)
html = response.read().decode(response.headers.get_content_charset()) # 注意这里
print(html)
target = json.loads(html)
print('翻译结果：%s'%(target['translateResult']['tgt']))

风百默 发表于 2022-5-7 13:57:23

isdkz 发表于 2022-5-7 13:37

大佬我有点看不懂

isdkz 发表于 2022-5-7 14:02:51

风百默发表于 2022-5-7 13:57
大佬我有点看不懂

http 有个响应头是告诉客户端服务端所使用的编码的，

response.headers.get_content_charset() 可以通过相应头获取这个编码

风百默 发表于 2022-5-7 14:17:44

isdkz 发表于 2022-5-7 14:02
http 有个响应头是告诉客户端服务端所使用的编码的，

response.headers.get_content_charset() 可以通 ...

大佬就是我想问为什么第20行要用encode('utf-8')对其进行重新编码，它网页的编码形式不就是utf-8的形式吗？而且我怎么判断什么时候需要进行这操作？

isdkz 发表于 2022-5-7 14:19:25

风百默发表于 2022-5-7 14:17
大佬就是我想问为什么第20行要用encode('utf-8')对其进行重新编码，它网页的编码形式不就是utf-8的形式吗 ...

网页的编码形式不一定是 utf-8，这个是跟服务端的编码方式有关

风百默 发表于 2022-5-7 14:28:57

isdkz 发表于 2022-5-7 14:19
网页的编码形式不一定是 utf-8，这个是跟服务端的编码方式有关

但是在这个例子中是utf-8的编码形式，那第20行为什么还要用encode('utf-8')对其进行重新编码？

页: [1]

鱼C论坛's Archiver

为什么Python编码是utf-8的形式我还能将其解码成utf-8而第二次就不行