【13】编码、解码与乱码

来源：互联网发布：算法交易软件编辑：程序博客网时间：2024/04/30 04:56

编码、解码与乱码

乱码产生的根本原因就是，数据的编码和解码所使用的码表不一致。
数据编码后是以字节数组的形式保存在磁盘或者在网络中传输，当数据接收端不知道数据发送端所使用的码表时会使用本地定义的码表来解码。当两者不一致时，就有可能产生乱码！
在上面的码表中，我们知道ISO8859-1、UTF-8、GBK等其实是对ASCII码表的扩展，所以保存在磁盘或者在网络中传输的ASCII码表中定义字符（26个拉丁字母、阿拉伯数字和英文标点符号）是不会出现乱码的。而中文字符，在ASCII码表和ISO8859-1中用一个字节是无法表示出来的，而在GBK中是用两个字节表示，在UTF-8是用三个字节表示，这种不同就是乱码的深层原因。

一串用码表1编码的数据，被码表2解码后产生一串乱码，问如何获取可识别的内容?

1.将乱码用码表2重新编码成字节数组；

2.用码表1解码数据。即str=newString(str.getBytes(“码表2”),”码表1”);

2005年1月发布的RFC3986[1]，强制所有新的URI必须对未保留字符不加以百分号编码；其它字符要先转换为UTF-8字节序列,然后对其字节值使用百分号编码。此前的URI不受此标准的影响；

URI所允许的字符分作保留与未保留。保留字符是那些具有特殊含义的字符.例如,斜线字符用于URL(或者更一般的,URI)不同部分的分界符.未保留字符没有这些特殊含义.百分号编码把保留字符表示为特殊字符序列。上述情形随URI与URI的不同版本规格会有轻微的变化。

 ! * ' ( ) ; : @ & = + $ , / ? # [ ]

 A B C D E F G H I J K L M N O P Q R S T U V W X Y Z   a b c d e f g h i j k l m n o p q r s t u v w x y z  0 1 2 3 4 5 6 7 8 9 - _ . ~

如果没有指定封装Request对象的编码格式，Servlet默认使用ISO8859-1编码，会导致中文乱码；
对于Request实体（来自POST请求）的内容，可以使用setCharacterEncoding(“utf-8”)指定编码的码表；
```
//原码中的对该方法的解释Overrides the name of the character encoding used in the body of this request.
```
对于Request头部（来自GET请求）的内容，不能通过setCharacterEncoding(“utf-8”)来解决乱码问题。只能通过转码newString(str.getBytes("iso8859-1"),"utf-8");或者使用URL解码URLDecoder.decode(“字符串”)的方式解决

如果没有指定封装Response对象的编码格式，Servlet默认使用ISO8859-1编码，会导致中文乱码；
可以使用setCharacterEncoding(“utf-8”)来指定Servlet编码时使用UTF-8，但是这样做浏览器不知道该用什么码表来解码服务器的响应；
使用setContentType(“text/html;charset=utf-8”)可以既可以指定Servlet编码是使用UTF-8，也可以告诉浏览器解码时使用UTF-8。

1 1