C语言是如何解决输入输出中文而不乱码的？,C\C++交流,编程语言专区,鱼C论坛

luvmdy 发表于 2018-8-20 20:34:47

C语言是如何解决输入输出中文而不乱码的？

本帖最后由 luvmdy 于 2018-8-20 20:36 编辑

都说数值型数据以补码形式存储，而ASCII码的范围只有0-127。在JAVA中，如果要用ISO-8859-1来解析编码范围在128-255之间的字符，就要用一个整形去存储一个byte型数据，然后再把整形强制转换为byte型就可以避免该字符被CPU当作补码而解析为负数的问题。如图：

现在回到C语言，如下图所示，output.txt里的内容是 “标准输出！”，编译并运行后屏幕的输出是 “标准输出！” + 换行 + “出错了！”（这是用文字来描述图片的内容{:10_266:} ）（图片截取自带你学C带你飞第60讲的第9分26秒）

我不理解的代码段是这段while循环。在第一次循环时，用一个整型ch接收被强制转换为整型的无符号型char（这里没什么毛病，正如开头说的如JAVA解决方案）。但是在purchar(ch)这一句我就看不懂了。假设output.txt里的字符是以GBK编码，假设“爱”的GBK编码为0xDD 0xFF，不管大小端存储，purchar(ch)这一句执行后，ch的值不是0x000000DD就是0x000000FF，那么这时候为什么ch不被解析成一个ASCII码或ISO-8859-1的字符呢？purchar(ch)这句话一次只输出一个字节，但是GBK汉字是两个字节呀。如果要输出汉字，那应该是定义一个字符数组ch[]，然后用printf("%s",ch)才对啊。

无符号整形 发表于 2018-8-20 20:36:43

可以使用wchar_t，顺便说一句，小端存储细节用户是不可见的。
这个我也是一知半解，应该是两个char一起读进去了。

luvmdy 发表于 2018-8-20 21:03:22

无符号整形发表于 2018-8-20 20:36
可以使用wchar_t，顺便说一句，小端存储细节用户是不可见的。
这个我也是一知半解，应该是两个char一起读 ...

用UE打开TXT文件不就可以看出字节序了吗？而且在存储时还可以选择带不带BOM还有大小端。为什么说小端存储细节用户不可见？

无符号整形 发表于 2018-8-20 21:04:43

luvmdy 发表于 2018-8-20 21:03
用UE打开TXT文件不就可以看出字节序了吗？而且在存储时还可以选择带不带BOM还有大小端。为什么说小端存储 ...

可是确实啊。
你可以试试读一读大端，看看数据是不是反过来的？

人造人 发表于 2018-8-20 23:17:00

本帖最后由人造人于 2018-8-20 23:27 编辑

purchar函数可以判断出当前字符是几个字节

例如在日语代码页中，如果第一个字节是 0x81 到 0x9F 范围，那就把当前这一个字符保存起来，然后直接返回，等到下一次调用purchar函数时，purchar函数就可以得到完整的两个字节，然后就可以输出了

人造人 发表于 2018-8-20 23:26:32

英文字符，每一次 purchar 都有输出
中文字符，第二次 purchar 才输出，purchar 需要等到完整的两个字节才输出

purchar可以通过前导字节判断出当前字符是一个字节还是两个字节

luvmdy 发表于 2018-8-21 01:16:19

人造人发表于 2018-8-20 23:26
英文字符，每一次 purchar 都有输出
中文字符，第二次 purchar 才输出，purchar 需要等到完整的两个字 ...

感谢解答，能附上你的出自微软的截图的链接吗。还有这个GIF动图是用什么软件做的啊，好666{:10_278:}

人造人 发表于 2018-8-21 12:33:08

luvmdy 发表于 2018-8-21 01:16
感谢解答，能附上你的出自微软的截图的链接吗。还有这个GIF动图是用什么软件做的啊，好666

https://msdn.microsoft.com/zh-cn/library/5z097dxa.aspx

人造人 发表于 2018-8-21 12:34:18

luvmdy 发表于 2018-8-21 01:16
感谢解答，能附上你的出自微软的截图的链接吗。还有这个GIF动图是用什么软件做的啊，好666

http://down.orsoon.com/Soft/13966.html

页: [1]

鱼C论坛's Archiver

C语言是如何解决输入输出中文而不乱码的？