文件编码的判定(UTF8,UTF16),及转换
来源:互联网 发布:网络主播视频 编辑:程序博客网 时间:2024/05/22 03:16
1.首先根据BOM来判定
UTF-8的BOM: EF BB BF; 对应的十进制数值是:239 187 191 如果文件的开头三个字节与之相符则说明文件的编码是UTF8的
UTF-16LE的BOM: FF FE; 对应的十进制数值是: 255 254 如果文件的开头两个字节与之相符则说明对应的编码是UTF-16LE
UTF-16BE的BOM: FE FF ; 对应的十进制数值是:254 255 如果文件的开头两个字节与之相符则说明对应的编码是UTF-16BE
2.BOM不存在的情况判定
UTF-8的判定,根据内容判定
UTF-8的编码规则:
字符字节长度 标志字节 值
一字节长 0XXXXXXX
两字节长 110XXXXX 10XXXXXX
三字节长 1110XXXX 10XXXXXX 10XXXXXX
四字节长 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX
**标志字节判定用到的数据**
定义数组btHead 长度为4保存用来判定标志字节的十进制数值: 0,192, 224, 240
定义数组btBitAndValue 长度为4保存用来得到标志字节长度的十进制数值:128: 224, 240, 248
**值判定用到的数据**
定义变量btValueHead用来保存值得标志所对应的十进制数值:128
定义变量btFixValueAnd 保存用来取得值的标志的十进制数值:192
a.以字节方式读取文件中内容保存到字节数组中
b.对a中读取的文件内容做loop操作。
首先对当前的字节分别与btBitAndValue中的四个值进行位与操作,每次得到的值与btHead中的值比较,找到相等的值时可以根据当前的 值来判定字符的字节长度L。并执行下一个循环,在跳过b的操作次数(L - 1)次时在执行b操作
c.取得值的标志。 将此致的值与btFixValueAnd进行位与操作,将取得的值与btValueHead进行比较,如果相等则对下一个字节继续执行c操作,直到执行的次数是L-1次。如果不相等则说明不是UTF-8编码格式。
UTF-16的判定与UTF-8的判定类似只要知道编码规则就可以。
3. 文字Code的转换操作
转换操作用到的API:
多字节转宽字节:MultiByteToWideChar
宽字节转多字节:WideCharToMultiByte
MSDN有详细参数说明。
具体步骤: 首先判定要保存转换结果字符串的长度,相应参数设定成固定的值便可以得到。
其次,根据得到的长度分配存储变量
最后,进行转换。
注意分配的内存释放问题。
本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/yinzhiqing/archive/2009/11/18/4825789.aspx
- 文件编码的判定(UTF8,UTF16),及转换
- 文件编码的判定(UTF8,UTF16),及转换
- UTF8,UTF16的编码说明
- UTF8、UTF16 之间的转换
- ASCII uinicode UTF8 UTF16 编码的故事
- UTF8 与 UTF16 编码
- Unicode编码(UTF8/UTF16)
- 转 C++11与Unicode及使用标准库进行UTF-8、UTF-16、UCS2、UCS4/UTF-32编码转换 utf8转utf16 utf16转utf8
- ANSI UTF16 UTF8转换
- UTF8,UTF16,UTF32,UTF16-LE,UTF16-BE,GBK 之间的转换
- UTF8,UTF16,UTF32,UTF16-LE,UTF16-BE,GBK 之间的转换
- UTF8,UTF16,UTF32,UTF16-LE,UTF16-BE,GBK 之间的转换
- UTF8,UTF16,UTF32,UTF16-LE,UTF16-BE,GBK 之间的转换
- 字符编码ASCII、UNICODE与UTF8,UTF16的含义等
- 【Oracle】 Blob转Clob的字符UTF16转换UTF8问题
- wchar_t 转换UTF16编码
- Ansi,UTF8,UTF16,Unicode,ASCII编码
- (个人理解+转载)ANSI/ASCII/UTF8/UNICODE/GB2312/UCS-2/UTF16-文本的编码格式
- Socket程序从windows移植到linux下需要注意的
- js电子邮箱验证代码
- Microsoft Message Queuing介绍
- windows command
- 第一章 高频电路基本常识 第一部分
- 文件编码的判定(UTF8,UTF16),及转换
- 指定url,获取其源代码(html)放入本页,不分本域外域
- Oracle冷备份及恢复
- 映射集合(Mapping collections)
- 一个日历页面
- 集合中交集、移除的原来记录中已经删除的旧ID、 新增的原来记录中没有的ID、更新原有的记录
- 映像配置文件
- nutch导入到Eclipse总结
- jifen.