如何区分四字节unicode和两字节unicode

来源:互联网 发布:苹果a1533支持什么网络 编辑:程序博客网 时间:2024/06/11 02:47

   最近遇到一个项目,需要对古文做检索,需要支持到方正超大字符集,也可以说是unicode 5.0。查阅相当多的资料,都不得其解,后来终于搜索到一句“其中第一个字的范围是:d800-dbff,第二个字的范围是:dc00-dfff”,赶紧采用正则匹配,果不其然,很容易区分出了四字节的汉字。将我的代码贴出来,希望对大家有用。