|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
有大佬能解释一下中文字符的UTF-8编码的第一个字节的前三位是 1110,即大于等于224 是什么意思吗
- #include <stdio.h>
- #include <stdlib.h>
- #define MAX 1024
- int is_utf8_chinese(char ch) {
- // 判断是否为中文字符,中文字符的UTF-8编码范围是三个字节
- // 中文字符的UTF-8编码的第一个字节的前三位是 1110,即大于等于224
- return ((unsigned char)ch >= 224);
- }
- int main()
- {
- char str[MAX];
- char *target = str;
- char ch;
- int length = 0;
- printf("请输入一个字符串:");
- fgets(str, MAX, stdin);
- while (1)
- {
- ch = *target++;
- if (ch == '\0')
- {
- break;
- }
- if (is_utf8_chinese(ch))
- {
- target += 2; // 中文字符占用3个字节,所以移动指针2位
- }
- length++;
- }
- printf("您总共输入了 %d 个字符!\n", length - 1);
- system("pause");
- return 0;
- }
复制代码
在UTF-8编码中,单个字节的数据表示方式分别为:
· 对于ASCII码(0-127),UTF-8编码用一个字节表示,字节的最高位是0。
· 对于128到2047之间的字符,UTF-8编码用两个字节表示,字节的最高位是110和10。
· 对于2048到65535之间的字符,UTF-8编码用三个字节表示,字节的最高位是1110和10。
因此,“中文字符的UTF-8编码的第一个字节的前三位是 1110,即大于等于224”这句话,是因为在UTF-8编码中,中文字符的编码是用三个字节表示的,这三个字节的最高位是1110和10。当然,还需要注意的是,这个函数只检查了第一个字节是不是中文字符的开始字节,而没有检查后续的字节。
在您的代码中, is_utf8_chinese(char ch) 函数接收一个字符,将其转换为无符号字符,然后检查该字符是否大于等于224。如果是,那么它假设这个字符是UTF-8编码的中文字符的开始。这种方法可以在大多数情况下工作,但它不能保证字符确实是中文,因为其它一些非中文字符的UTF-8编码的第一个字节也可能大于等于224。
|
|