判断txt文件字符集
来源:互联网 发布:java scanner读取多行 编辑:程序博客网 时间:2024/06/05 19:50
在提取txt文件时,发现个别文件的文字出现乱码,很是烦恼。后发现问题与txt文件所用字符集有关,在提取文件内容之前先行判断文件所用字符集,根据字符集有针对性地提取,情况有所改善。
具体方法为,提取文件前四个字节,这四个字节提示txt所用的字符集,具体如下:
if ( first3Bytes[0] == (byte) 0xFF && first3Bytes[1] == (byte) 0xFE ) {
charset = "UTF-16LE";
}
//FEFF 开头,为UTF-16BE
else if ( first3Bytes[0] == (byte) 0xFE && first3Bytes[1] == (byte) 0xFF ) {
charset = "UTF-16BE";
}
//EFBBBF 开头,为UTF-8
else if ( first3Bytes[0] == (byte) 0xEF && first3Bytes[1] == (byte) 0xBB && first3Bytes[2] == (byte) 0xBF ) {
charset = "UTF-8";
}
//FFFE 开头,为unicode
else if(first3Bytes[0]==(byte)0xFF&&first3Bytes[1]==(byte)0xFE){
charset = "unicode";
}
//FEFF 开头,为unicode big endian
else if(first3Bytes[0]==(byte)0xFE&&first3Bytes[1]==(byte)0xFF){
charset="unicode big endian";
}
//其他情况默认为GBK编码
else{
charset="GBK";
}
这里,因为处理的文件大部分为中文,所以默认其他情况为GBK编码,也许不够严谨,但是可以处理大部分的情况。
- 判断txt文件字符集
- 文件字符集判断
- txt文件编码判断
- 收藏 java 如何判断txt的编码字符集
- Java 判断文件的字符集编码
- JAVA 判断TXT文件编码格式
- 判断txt文件的字符编码
- java 判断txt文件的编码格式
- java判断txt文件的编码格式
- txt文本字符集获取
- Excel Txt 字符集设置
- 批处理怎样判断一个txt文件是否为空?
- C# 判断txt文件是否存在的方法
- C#读txt文件并解析判断是否是double
- 如何判断一个txt文件的编码格式
- MFC对话框实现txt文件读写,及时间差判断
- 使用java判断TXT文件的编码格式
- 上传sftp,创建20171024目录,判断目录是否存在,复制文件,判断文件字符集
- nginx的perl cgi支持修改
- hdu1257最少拦截系统
- ListView添加底部按钮的方法
- 读取列名
- Windows下编译安装OpenEXR(x86版本)
- 判断txt文件字符集
- HDFS学习随笔
- 杭电46道DP总结
- c++中栈,队列的函数操作
- 编译vsftp sysdeputil.c出错的解决办法
- 袖珍版固定大小 内存池1(c语言)
- c/c++时间例子
- 【正则】超级无敌正则表达式
- Linq to Sql中的Skip、Take