鱼C论坛

 找回密码
 立即注册
查看: 1171|回复: 5

[已解决]测字符串个数(中文字符

[复制链接]
发表于 2020-12-17 10:09:34 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
小甲鱼课后作业:
用fgets函数输入字符,测字符个数个数

请问:
  1.   target += 2;
复制代码

什么意思呀,不是指向下两个字符吧;
而且我用Xcode复制代码运行的结果也不对



答案代码:
  1. #include <stdio.h>

  2. #define MAX 1024

  3. int main()
  4. {
  5.         char str[MAX];
  6.         char *target = str;
  7.         char ch;
  8.         int length = 0;

  9.         printf("请输入一个字符串:");
  10.         fgets(str, MAX, stdin);

  11.         while (1)
  12.         {
  13.                 ch = *target++;
  14.                 if (ch == '\0')
  15.                 {
  16.                         break;
  17.                 }
  18.                 if ((int)ch < 0)
  19.                 {
  20.                         target += 2;
  21.                 }
  22.                 length++;
  23.         }

  24.         printf("您总共输入了 %d 个字符!\n", length - 1);

  25.         return 0;
  26. }
复制代码
最佳答案
2020-12-17 10:48:34
本帖最后由 jackz007 于 2020-12-17 11:48 编辑

      在 Linux 系统下,中文字符采用 UTF-8 编码,每个中文字符占用 3 个字节,这一点与 Windows 不同,Windows 采用 GBK 编码,一个中文字符占用 2 个字节。
      在本例中,当 ch < 0 是指字符编码值大于 0x7f (127),对于 char 型的变量而言,就会成为负值,采用 utf-8 编码的汉字的 3 个字节都是负值。本例代码便是根据这个特点来区分中英、文字符,从而完成统计的。

     例如:"中国",GBK 编码为 D6 D0 B9 FA 一共占用了 4 个字节;UTF-8 编码为 E4 B8 AD E5 9B BD 总共占用了 6 个字节,而且,它们的共同特点是,几乎每个字节的编码都超过 7F(127),对于 signed char 来说,就是负值。
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-12-17 10:29:54 | 显示全部楼层
因为中文字符占两个字节,所以+=2
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-12-17 10:48:34 | 显示全部楼层    本楼为最佳答案   
本帖最后由 jackz007 于 2020-12-17 11:48 编辑

      在 Linux 系统下,中文字符采用 UTF-8 编码,每个中文字符占用 3 个字节,这一点与 Windows 不同,Windows 采用 GBK 编码,一个中文字符占用 2 个字节。
      在本例中,当 ch < 0 是指字符编码值大于 0x7f (127),对于 char 型的变量而言,就会成为负值,采用 utf-8 编码的汉字的 3 个字节都是负值。本例代码便是根据这个特点来区分中英、文字符,从而完成统计的。

     例如:"中国",GBK 编码为 D6 D0 B9 FA 一共占用了 4 个字节;UTF-8 编码为 E4 B8 AD E5 9B BD 总共占用了 6 个字节,而且,它们的共同特点是,几乎每个字节的编码都超过 7F(127),对于 signed char 来说,就是负值。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-12-17 11:21:25 | 显示全部楼层
我输入“我要自己编程序”,运行结果也只“您总共输入了 4 个字符”
这可能是我们的编译器采用的字符集的原因,VC++ 6.0 默认为窄字节编码,vs2005、vs2008、vs2010、vs2012、vs2013、vs2015、vs2017 等默认都是Unicode编码,当然可以进行工程的设置从而进行编码的转换,从vs2013开始,如果要让工程从默认的Unicode编码转到窄字节编码,需要安装vs2013的多字节补丁才行!
字符集.jpg
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-12-17 11:38:56 | 显示全部楼层
风过无痕1989 发表于 2020-12-17 11:21
我输入“我要自己编程序”,运行结果也只“您总共输入了 4 个字符”
这可能是我们的编译器采用的字符集的 ...

        字符编码属于系统底层 I/O,和操作系统架构相关,与软件无关。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-12-17 12:08:46 | 显示全部楼层
jackz007 发表于 2020-12-17 11:38
字符编码属于系统底层 I/O,和操作系统架构相关,与软件无关。

字符编码属于系统底层 I/O,但我们可以选择所使用的字符集
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-5-8 02:37

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表