java 码点与代码单元的区分 及 代码单元的数量和码点的数量

来源:互联网 发布:刘姓取名知乎 编辑:程序博客网 时间:2024/06/05 21:49

java字符串由char值序列组成,char的数据类型是一个采用Unicode码点的代码单元。
即:char数据类型是一个代码单元
任意Unicode字符都是一个码点,大多数常用的Unicode码点由一个char代码单元组成,辅助字符码点由两个char代码单元组成。
代码单元的数量和码点的数量
1、代码单元数量(str.length()不是实际的字符串长度:辅助字符算两个):

String str="hello";        int n=str.length();        System.out.println(n);

2、码点数量(实际的字符的个数,辅助字符算一个):

       int m=str.codePointCount(0,str.length());        System.out.println(m);

codePointCount的用法:
codePointCount
int codePointCount(int beginIndex , int endIndex)
返回此 String 的指定文本范围中的 Unicode 代码点数。文本范围始于指定的 beginIndex,一直到索引 endIndex - 1 处的 char。因此,该文本范围的长度(用 char 表示)是 endIndex-beginIndex。该文本范围内每个未配对的代理项计为一个代码点。
常见的求整个字符串长度的用法:

String str="hello";        int n=str.codePointCount(0, str.length());        System.out.println(n);