windows java读取utf-8编码文件时出现第一个字符为未知字符"?" 的解决方案

来源：互联网发布：画图软件免费下载编辑：程序博客网时间：2024/05/17 21:07

个人作为笔记记录在csdn上，暂时也没有对其进行深入了解，只做出处理方案。

在windows 环境下，使用java文件流读取文本文件时，会出现第一个字符为未知字符"?" ,其他字符完整。而且第一个字符显示为？但是用equals比对发现并非是"?"号,google之，了解到bom编码标记。使用 16进制打印输出结果：

只要出现该头的16进制编码为这种字符便可以断定该文本文件的编码方式了。

bom编码标记：

bom全称是：byte order mark，汉语意思是标记字节顺序码。只是出现在：unicode字符集中，只有unicode字符集，存储时候，要求指定编码，如果不指定，windows还会用默认的：ANSI读取。常见的bom头是：

  UTF-8 ║ EF BB BF   UTF-16LE ║ FF FE (小尾）  UTF-16BE ║ FE FF （大尾）  UTF-32LE ║ FF FE 00 00   UTF-32BE ║ 00 00 FE FF

bom使用来标记编码方式的，本人编译环境为 1.6 ，通过官方给出的bug处理，导入两个处理unicode字符集的类来作为处理方式，尝试着用了一下，效果不好，头可以去掉未知符号，但是文本内容会出现大段的乱码。

我的处理方式

1.个人处理方式有点小白，但是不妨给各位一点参考：

public String readerFile(InputStream in) throws IOException {StringBuffer strBuff = new StringBuffer();String temp = null;BufferedReader reader = new BufferedReader(new InputStreamReader(in,Charset.forName("utf-8")));while ((temp = reader.readLine()) != null) {byte[] by = temp.getBytes();String header = Integer.toHexString(by[0]).toUpperCase();//判断是否拥有无法识别的字符if (header.equalsIgnoreCase("FFFFFFEF") || header.equalsIgnoreCase("3F")) {strBuff.append(temp.substring(1) + "\n");continue;}strBuff.append(temp + "\n");}reader.close();in.close();return strBuff.toString();}

如果有更好的解决方案请给我留言，万分感谢！

0 0