小甲鱼 发表于 2015-11-8 02:23:31

什么是编码?

什么是编码?

事实上计算机只认识 0 和 1,然而我们却可以通过计算机来显示文本,这就是靠编码实现的。编码其实就是约定的一个协议,比如 ASCII 编码约定了大写字母 A 对应十进制数 65,那么在读取一个字符串的时候,看到 65,计算机就知道这是大写字母 A 的意思。

由于计算机是美国人发明的,所以这个 ASCII 编码设计时只采用 1 个字节存储(事实上只用了 7 位,1 个字节有 8 位),包含了大小写英文字母、数字和一些符号。但是计算机在全世界普及之后,ASCII 编码就成了一个瓶颈,因为 1 个字节是完全不足以容纳各国语言的。

大家都知道英文只用 26 个字母就可以组成不同的单词,而汉字光常用字就有好几千个,至少需要 2 个字节才足以存放,所以后来中国制订了 GB2312 编码,用于对汉字进行编码。

然后日本为自己的文字制订了 Shift_JIS 编码,韩国为自己的文字制订了 Euc-kr 编码,一时之间,各国都制订了自己的标准。不难想象,不同的标准放在一起,就难免出现冲突。这也正是为什么最初的计算机总是容易看到乱码的现象。

为了解决这个问题,Unicode 编码应运而生。Unicode 组织的想法最初也很简单:创建一个足够大的编码,将所有国家的编码都加进来,进行统一标准。

没错,这样问题就解决了。但新的问题也出现了:如果你写的文本只包含英文和数字,那么用 Unicode 编码就显得特别浪费存储空间(用 ASCII 编码只占用一半的存储空间)。所以本着能省一点是一点的精神,Unicode 还创造出了多种实现方式。

比如常用的 UTF-8 编码就是 Unicode 的一种实现方式,它是可变长编码。简单地说,就是当你的文本是 ASCII 编码的字符时,它用 1 个字节存放;而当你的文本是其它 Unicode 字符的情况,它将按一定算法转换,每个字符使用 1~3 个字节存放。这样便实现了有效节省空间的目的。


復襍 发表于 2015-11-8 10:35:56

非常不错,懂了

wzy997991067 发表于 2015-11-10 17:51:11

非常不错,懂了

天也高云也淡 发表于 2015-11-13 14:02:13

终于明白了,谢谢!

Hime 发表于 2015-11-13 16:23:10

谢谢小甲鱼

wing1995 发表于 2015-11-16 19:49:27

小甲鱼2:23还在奋斗,真是辛苦了,简直是活生生的励志人物,原谅utf-8什么乱七八糟的各种charset也是unicode的一种实现形式,之前一直被decode和encode搞晕

一滴 发表于 2016-2-28 23:21:17

明白了,谢谢老师

alaleidaputao 发表于 2016-3-25 22:14:47

小甲鱼你真帅

cold2wind 发表于 2016-4-15 16:17:53

nice

python大法好 发表于 2016-6-14 23:39:21

这些人这么聪明,Unicode 是谁搞出来的啊

John_farmer 发表于 2016-6-15 08:32:46

秒懂!!!

始终 发表于 2016-6-22 10:23:59

看懂了!

叶小涛 发表于 2016-6-22 12:07:38

O(∩_∩)O谢谢科普

ultramodel 发表于 2016-6-27 15:17:25

言简意赅,学习了

青-山 发表于 2016-7-5 20:07:05

明白了UTF-8编码的意思了{:10_266:}

小印儿 发表于 2016-7-17 18:27:40

utf-8

梦想绘制者 发表于 2016-11-17 22:26:05

简洁明了啊!

xineyu 发表于 2016-11-20 10:26:16

科普了,谢谢!

YY杰 发表于 2016-11-28 13:36:40

明白了,谢谢老师

蛋炒饭妖妖 发表于 2016-11-29 17:25:35

很清楚~~~~
编码涉及到的东西太多了。

想请教,之前用2.7连注释就不能是中文,是不是就是因为他不支持中文编码?
页: [1] 2 3 4
查看完整版本: 什么是编码?