utf8编码转化为unicode的一个精彩函数

来源：互联网发布：linux mysql root提权编辑：程序博客网时间：2024/05/16 11:54

　UTF-8就是对unicode编码的一种实现， UTF-8的一个特别的好处是它与ISO-8859-1完全兼容。UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式如下：
　　　　　UCS-2编码(16进制)　　　　　　UTF-8 字节流(二进制)
　　　　　0000 - 007F　　　　　　　　　0xxxxxxx
　　　　　0080 - 07FF　　　　　　　　　110xxxxx 10xxxxxx
　　　　　0800 - FFFF　　　　　　　　　1110xxxx 10xxxxxx 10xxxxxx

//------------------------------------------------//
// function name: UCode
// input: const BYTE*& src

// output:
// return: WORD

// 0 -- 返回0的情形：1)是个ascii字符，且已经读到字符串尾了；2）它是个utf8多字节编码的，但里面的字符里的字节是非法的，//无效的。3）是它没涉及到的，即可能是用超过3byte编码的字符串，没处理过，可能会出现0。
// word--返回unicode的编码
// description: 获取编码，输入的utf8编码的第一个字节指针，输出为它的2byte unicode编码
//------------------------------------------------//