Java中的encoding以及reader API
来源:互联网 发布:软件开发收入确认 编辑:程序博客网 时间:2024/05/16 20:45
我们知道,Unicode是现在包含所有语言字符的编码方式,但是在日常学习和开发中,我们还是会接触到其他不同的encoding,比如GB18030, ISO-8859-1等。那么对于不同的encoding,Java读取文件时候是怎么样处理的呢?
首先,JVM有个属性设置default encoding,JVM在没有指定encoding的情况下会使用default encoding进行IO操作。
在eclipse里面,可以在Properties一栏对单个Java文件或者整个项目进行Text file encoding的设置。这个设置,一方面告诉eclipse当前Java文件的encoding以便进行compile;另一方面也是启动JVM以后的IO操作等的 default encoding。
可以用如下方法得到default encoding:
Charset def = Charset.defaultCharset();System.out.println("defaultCharset == "+def);
defaultCharset == ISO-8859-1
可以在JVM启动的时候加上参数告诉JVM default encoding是什么,方法是 –Dfile.encoding = XXXX
当JVM以default encoding启动程序后,根据文件本身的encoding和default encoding会产生多种结果,如下表 (注:这里的文件内容都是不超过ASCII的 codepoint,所以除了UTF 8 with BOM的文件多了BOM头,其他的内容都相同;因为如果有非ASCII的字符出现,根据编码的规则,不同encoding读取肯定有问题)
encodingASCII
文件UTF8
文件UTF 8 with BOM 文件UTF8OKOKOK, read (EF BB BF)
后面parse有可能引起问题GB18030OKOKException
defaultCharset == GB18030
sun.io.MalformedInputException
at sun.io.ByteToCharGB18030.convert(ByteToCharGB18030.java:171)
at sun.nio.cs.StreamDecoder$ConverterSD.convertInto(StreamDecoder.java:314)
at sun.nio.cs.StreamDecoder$ConverterSD.implRead(StreamDecoder.java:364)
at sun.nio.cs.StreamDecoder.read(StreamDecoder.java:250)
at java.io.InputStreamReader.read(InputStreamReader.java:212)
at java.io.BufferedReader.fill(BufferedReader.java:157)
at java.io.BufferedReader.readLine(BufferedReader.java:320)
at java.io.BufferedReader.readLine(BufferedReader.java:383)
at TestRead.main(TestRead.java:35)ISO-8859-1OKOKCan read, but read wrongly
(EF BB BF)
(C3 AF C2 BB C2 BF)
所以,读UTF8 with BOM必须声明为UTF8的encoding,并且对读到的BOM头EF BB BF自行进行处理。因为Java本身(1.6之前)并不会忽略掉BOM
See: (http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=4508058) UTF-8 encoding does not recognize initial BOM
Question 1: 在ISO-8859-1的情况下读UTF8 with BOM,发现readline()会读成(EF BB BF) ->
(C3 AF C2 BB C2 BF),但是用read() 却可以读出前三个char: EF BB BF。事实上,这两个函数都会调用InputStream的read 方法,也就是有decode产生
encodingReadline()Read()UTF8OK read (EF BB BF)
后面parse有可能引起问题OK, read the three bytes of BOM:
EF BB BFGB18030Exception
defaultCharset == GB18030
sun.io.MalformedInputException
at sun.io.ByteToCharGB18030.convert(ByteToCharGB18030.java:171)
at sun.nio.cs.StreamDecoder$ConverterSD.convertInto(StreamDecoder.java:314)
at sun.nio.cs.StreamDecoder$ConverterSD.implRead(StreamDecoder.java:364)
at sun.nio.cs.StreamDecoder.read(StreamDecoder.java:250)
at java.io.InputStreamReader.read(InputStreamReader.java:212)
at java.io.BufferedReader.fill(BufferedReader.java:157)
at java.io.BufferedReader.readLine(BufferedReader.java:320)
at java.io.BufferedReader.readLine(BufferedReader.java:383)
at TestRead.main(TestRead.java:35)Exception
defaultCharset == GB18030
sun.io.MalformedInputException
at sun.io.ByteToCharGB18030.convert(ByteToCharGB18030.java:171)
at sun.nio.cs.StreamDecoder$ConverterSD.convertInto(StreamDecoder.java:314)
at sun.nio.cs.StreamDecoder$ConverterSD.implRead(StreamDecoder.java:364)
at sun.nio.cs.StreamDecoder.read(StreamDecoder.java:250)
at java.io.InputStreamReader.read(InputStreamReader.java:212)
at java.io.BufferedReader.fill(BufferedReader.java:157)
at java.io.BufferedReader.readLine(BufferedReader.java:320)
at java.io.BufferedReader.readLine(BufferedReader.java:383)
at TestRead.main(TestRead.java:35)ISO-8859-1Can read, but read wrongly
(EF BB BF) ->
(C3 AF C2 BB C2 BF)OK, read the three bytes of BOM:
EF BB BF
读写XML 文件的利器JDOM 本身可以处理BOM(有无BOM都可以handle),所以对于UTF8 with BOM,送给Jdom是没有问题的
- Java中的encoding以及reader API
- java中的InputStream、OutputStream以及Reader、Writer
- Transfer-Encoding详解以及erlang中的实现
- Java中的字符流Reader和Writer
- java中的file.encoding属性到底是什么?
- java encoding
- JAVA encoding
- Java encoding
- java encoding
- Java Encoding
- 根据BOM获得实际encoding返回相应Reader
- java servlet 源代码以及API
- java中的API
- Java中的常用API
- Hadoop中的Java api
- java io InputStream Reader
- java io InputStream Reader
- java inputstream--reader
- 今天,你喷香水了吗?
- Phone6分辨率与适配
- Codeforces 468B Two Sets 并查集
- PCB行业推行精益生产 争取最大效益化的理念
- cocos2d/cocos/platform/CCGLViewProtocol.h
- Java中的encoding以及reader API
- 《UNIX环境高级编程》读书笔记之进程关系
- iis +php 不显示php错误问题
- Struts2开发步骤
- C语言字符串处理函数收集
- FastCGI
- 两个Datalist嵌套如何绑定子Datalist
- 变长结构体
- TCP UDP 区别总结