计算中文字符长度
#include <stdio.h>#define MAX 1024
int main()
{
char str;
char *target = str;
char ch;
int length = 0;
printf("请输入一个字符串:");
fgets(str, MAX, stdin);
while (1)
{
ch = *target++;
if (ch == '\0')
{
break;
}
if ((int)ch < 0)
{
target += 2;
}
length++;
}
printf("您总共输入了 %d 个字符!\n", length - 1);
return 0;
}
每个中文字符在系统中是占用 4 个字节的存储空间,为什么如果是(中文字符),则将指针往后移动两个字节,而不是移动4个字节?
中文字符在系统中占用的存储空间确实是4个字节,但是这段代码中的逻辑是错误的。移动指针2个字节是不正确的。
在这段代码中,当遇到一个字符时,会先判断该字符是否为0,如果是0则退出循环,否则继续执行。然后会判断该字符是否小于0,如果小于0则移动指针2个字节,否则增加长度计数器。这里的判断逻辑是错误的。
正确的做法是,判断该字符是否大于0,如果大于0则增加长度计数器,否则移动指针4个字节。因为中文字符的编码范围是大于0的,所以当遇到中文字符时,应该增加长度计数器并移动指针4个字节。
修正后的代码如下:
#include <stdio.h>
#define MAX 1024
int main()
{
char str;
char *target = str;
char ch;
int length = 0;
printf("请输入一个字符串:");
fgets(str, MAX, stdin);
while (1)
{
ch = *target++;
if (ch == '\0')
{
break;
}
if ((int)ch > 0)
{
length++;
}
else
{
target += 4;
}
}
printf("您总共输入了 %d 个字符!\n", length);
return 0;
}
修正后的代码会正确计算中文字符的长度。 在C/C++中,字符的存储是按照字节进行的。对于ASCII字符来说,每个字符占用1个字节。而对于Unicode字符集中的中文字符(汉字),通常采用UTF-8编码,每个中文字符占用3个字节。因此,在计算中文字符长度时,需要考虑每个字节的情况。
在给定的代码中,通过逐个判断字符的方式来计算字符串的长度。当遇到中文字符时,根据目前常见的UTF-8编码规则,中文字符的每个字节的最高位都为1,因此判断某个字符是否是中文字符的方法是检查其最高位是否为1。如果最高位为1,则说明该字符是中文字符。
在代码中,当检测到字符的最高位为1时,将指针往后移动2个字节,而不是4个字节。这是因为在UTF-8编码中,一个中文字符的第一个字节的最高5位为1,第6位为0。而剩下的两个字节的最高两位为10。所以,为了跳过该中文字符的两个字节,将指针往后移动2个字节。
换句话说,以UTF-8编码表示的中文字符,其字节长度可以变化,但是通过判断最高位为1来确定该字符为中文字符,并且根据编码规则跳过相应的字节数。
希望这个解答对你有帮助。如果还有其他问题,请随时提问。
球一个最佳答案谢谢啦!这对我非常重要!{:10_254:}{:10_254:}{:10_254:} 本帖最后由 xiaotubie 于 2023-11-7 10:36 编辑
跟编码有关,不一定就是4个字节,大多数情况反而是2个字节,看下当前环境下,一个汉字占多少字节就行了。
const char str[] = "中";
printf("%d",sizeof str) ; 在我的机子上输出是3,除去字符串最后的'\0'结尾占1个字节,那么这里的汉字中就是占2个字节。
页:
[1]