luvmdy 发表于 2018-8-20 20:34:47

C语言是如何解决输入输出中文而不乱码的?

本帖最后由 luvmdy 于 2018-8-20 20:36 编辑

都说数值型数据以补码形式存储,而ASCII码的范围只有0-127。在JAVA中,如果要用ISO-8859-1来解析编码范围在128-255之间的字符,就要用一个整形去存储一个byte型数据,然后再把整形强制转换为byte型就可以避免该字符被CPU当作补码而解析为负数的问题。如图:


现在回到C语言,如下图所示,output.txt里的内容是 “标准输出!”,编译并运行后屏幕的输出是 “标准输出!” + 换行 + “出错了!”(这是用文字来描述图片的内容{:10_266:} )(图片截取自带你学C带你飞第60讲的第9分26秒)


我不理解的代码段是这段while循环。在第一次循环时,用一个整型ch接收被强制转换为整型的无符号型char(这里没什么毛病,正如开头说的如JAVA解决方案)。但是在purchar(ch)这一句我就看不懂了。假设output.txt里的字符是以GBK编码,假设“爱”的GBK编码为0xDD 0xFF,不管大小端存储,purchar(ch)这一句执行后,ch的值不是0x000000DD就是0x000000FF,那么这时候为什么ch不被解析成一个ASCII码或ISO-8859-1的字符呢?purchar(ch)这句话一次只输出一个字节,但是GBK汉字是两个字节呀。如果要输出汉字,那应该是定义一个字符数组ch[],然后用printf("%s",ch)才对啊。

无符号整形 发表于 2018-8-20 20:36:43

可以使用wchar_t,顺便说一句,小端存储细节用户是不可见的。
这个我也是一知半解,应该是两个char一起读进去了。

luvmdy 发表于 2018-8-20 21:03:22

无符号整形 发表于 2018-8-20 20:36
可以使用wchar_t,顺便说一句,小端存储细节用户是不可见的。
这个我也是一知半解,应该是两个char一起读 ...

用UE打开TXT文件不就可以看出字节序了吗?而且在存储时还可以选择带不带BOM还有大小端。为什么说小端存储细节用户不可见?

无符号整形 发表于 2018-8-20 21:04:43

luvmdy 发表于 2018-8-20 21:03
用UE打开TXT文件不就可以看出字节序了吗?而且在存储时还可以选择带不带BOM还有大小端。为什么说小端存储 ...

可是 确实啊。
你可以试试读一读大端,看看数据是不是反过来的?

人造人 发表于 2018-8-20 23:17:00

本帖最后由 人造人 于 2018-8-20 23:27 编辑




purchar函数可以判断出当前字符是几个字节

例如在日语代码页中,如果第一个字节是 0x81 到 0x9F 范围,那就把当前这一个字符保存起来,然后直接返回,等到下一次调用purchar函数时,purchar函数就可以得到完整的两个字节,然后就可以输出了

人造人 发表于 2018-8-20 23:26:32



英文字符,每一次 purchar 都有输出
中文字符,第二次 purchar 才输出,purchar 需要等到完整的两个字节才输出

purchar可以通过前导字节判断出当前字符是一个字节还是两个字节

luvmdy 发表于 2018-8-21 01:16:19

人造人 发表于 2018-8-20 23:26
英文字符,每一次 purchar 都有输出
中文字符,第二次 purchar 才输出,purchar 需要等到完整的两个字 ...

感谢解答,能附上你的出自微软的截图的链接吗。还有这个GIF动图是用什么软件做的啊,好666{:10_278:}

人造人 发表于 2018-8-21 12:33:08

luvmdy 发表于 2018-8-21 01:16
感谢解答,能附上你的出自微软的截图的链接吗。还有这个GIF动图是用什么软件做的啊,好666

https://msdn.microsoft.com/zh-cn/library/5z097dxa.aspx

人造人 发表于 2018-8-21 12:34:18

luvmdy 发表于 2018-8-21 01:16
感谢解答,能附上你的出自微软的截图的链接吗。还有这个GIF动图是用什么软件做的啊,好666

http://down.orsoon.com/Soft/13966.html
页: [1]
查看完整版本: C语言是如何解决输入输出中文而不乱码的?