判断txt文件字符集

来源：互联网发布：java scanner读取多行编辑：程序博客网时间：2024/06/05 19:50

在提取txt文件时，发现个别文件的文字出现乱码，很是烦恼。后发现问题与txt文件所用字符集有关，在提取文件内容之前先行判断文件所用字符集，根据字符集有针对性地提取，情况有所改善。

具体方法为，提取文件前四个字节，这四个字节提示txt所用的字符集，具体如下：

if ( first3Bytes[0] == (byte) 0xFF && first3Bytes[1] == (byte) 0xFE ) {
charset = "UTF-16LE";
}
//FEFF 开头，为UTF-16BE
else if ( first3Bytes[0] == (byte) 0xFE && first3Bytes[1] == (byte) 0xFF ) {
charset = "UTF-16BE";
}
//EFBBBF 开头，为UTF-8
else if ( first3Bytes[0] == (byte) 0xEF && first3Bytes[1] == (byte) 0xBB && first3Bytes[2] == (byte) 0xBF ) {
charset = "UTF-8";
}
//FFFE 开头，为unicode
else if(first3Bytes[0]==(byte)0xFF&&first3Bytes[1]==(byte)0xFE){
charset = "unicode";
}
//FEFF 开头，为unicode big endian
else if(first3Bytes[0]==(byte)0xFE&&first3Bytes[1]==(byte)0xFF){
charset="unicode big endian";
}
//其他情况默认为GBK编码
else{
charset="GBK";
}

这里，因为处理的文件大部分为中文，所以默认其他情况为GBK编码，也许不够严谨，但是可以处理大部分的情况。