妖娆乌龙茶 发表于 2023-11-6 19:34:58

计算中文字符长度

#include <stdio.h>

#define MAX 1024

int main()
{
      char str;
      char *target = str;
      char ch;
      int length = 0;

      printf("请输入一个字符串:");
      fgets(str, MAX, stdin);

      while (1)
      {
                ch = *target++;
                if (ch == '\0')
                {
                        break;
                }
                if ((int)ch < 0)
                {
                        target += 2;
                }
                length++;
      }

      printf("您总共输入了 %d 个字符!\n", length - 1);

      return 0;
}
每个中文字符在系统中是占用 4 个字节的存储空间,为什么如果是(中文字符),则将指针往后移动两个字节,而不是移动4个字节?

isdkz 发表于 2023-11-6 19:35:31

中文字符在系统中占用的存储空间确实是4个字节,但是这段代码中的逻辑是错误的。移动指针2个字节是不正确的。

在这段代码中,当遇到一个字符时,会先判断该字符是否为0,如果是0则退出循环,否则继续执行。然后会判断该字符是否小于0,如果小于0则移动指针2个字节,否则增加长度计数器。这里的判断逻辑是错误的。

正确的做法是,判断该字符是否大于0,如果大于0则增加长度计数器,否则移动指针4个字节。因为中文字符的编码范围是大于0的,所以当遇到中文字符时,应该增加长度计数器并移动指针4个字节。

修正后的代码如下:

#include <stdio.h>

#define MAX 1024

int main()
{
    char str;
    char *target = str;
    char ch;
    int length = 0;

    printf("请输入一个字符串:");
    fgets(str, MAX, stdin);

    while (1)
    {
      ch = *target++;
      if (ch == '\0')
      {
            break;
      }
      if ((int)ch > 0)
      {
            length++;
      }
      else
      {
            target += 4;
      }
    }

    printf("您总共输入了 %d 个字符!\n", length);

    return 0;
}


修正后的代码会正确计算中文字符的长度。

Mike_python小 发表于 2023-11-6 19:36:37

在C/C++中,字符的存储是按照字节进行的。对于ASCII字符来说,每个字符占用1个字节。而对于Unicode字符集中的中文字符(汉字),通常采用UTF-8编码,每个中文字符占用3个字节。因此,在计算中文字符长度时,需要考虑每个字节的情况。

在给定的代码中,通过逐个判断字符的方式来计算字符串的长度。当遇到中文字符时,根据目前常见的UTF-8编码规则,中文字符的每个字节的最高位都为1,因此判断某个字符是否是中文字符的方法是检查其最高位是否为1。如果最高位为1,则说明该字符是中文字符。

在代码中,当检测到字符的最高位为1时,将指针往后移动2个字节,而不是4个字节。这是因为在UTF-8编码中,一个中文字符的第一个字节的最高5位为1,第6位为0。而剩下的两个字节的最高两位为10。所以,为了跳过该中文字符的两个字节,将指针往后移动2个字节。

换句话说,以UTF-8编码表示的中文字符,其字节长度可以变化,但是通过判断最高位为1来确定该字符为中文字符,并且根据编码规则跳过相应的字节数。

希望这个解答对你有帮助。如果还有其他问题,请随时提问。

球一个最佳答案谢谢啦!这对我非常重要!{:10_254:}{:10_254:}{:10_254:}

xiaotubie 发表于 2023-11-7 10:27:36

本帖最后由 xiaotubie 于 2023-11-7 10:36 编辑

跟编码有关,不一定就是4个字节,大多数情况反而是2个字节,看下当前环境下,一个汉字占多少字节就行了。
const char str[] = "中";
printf("%d",sizeof str) ; 在我的机子上输出是3,除去字符串最后的'\0'结尾占1个字节,那么这里的汉字中就是占2个字节。
页: [1]
查看完整版本: 计算中文字符长度