Java编码问题

来源:互联网 发布:数据库中的substring 编辑:程序博客网 时间:2024/05/16 05:27

编码基础知识

常用的编码简介

简单介绍一下常用的编码规则,为后边的章节做一个准备。在这里,我们根据编码规则的特点,把所有的编码分成三类:

分类编码标准说明单字节字符编码ISO-8859-1最简单的编码规则,每一个字节直接作为一个 UNICODE 字符。比如,[0xD6, 0xD0] 这两个字节,通过 iso-8859-1 转化为字符串时,将直接得到 [0x00D6, 0x00D0] 两个 UNICODE 字符,即 "ÖÐ"。

反之,将 UNICODE 字符串通过 iso-8859-1 转化为字节串时,只能正常转化 0~255 范围的字符。ANSI 编码GB2312,
BIG5,
Shift_JIS,
ISO-8859-2 ……把 UNICODE 字符串通过 ANSI 编码转化为“字节串”时,根据各自编码的规定,一个 UNICODE 字符可能转化成一个字节或多个字节。

反之,将字节串转化成字符串时,也可能多个字节转化成一个字符。比如,[0xD6, 0xD0] 这两个字节,通过 GB2312 转化为字符串时,将得到 [0x4E2D] 一个字符,即 '中' 字。

“ANSI 编码”的特点:
1. 这些“ANSI 编码标准”都只能处理各自语言范围之内的 UNICODE 字符。
2. “UNICODE 字符”与“转换出来的字节”之间的关系是人为规定的。
UNICODE 编码
UTF-8,
UTF-16, UnicodeBig ……与“ANSI 编码”类似的,把字符串通过 UNICODE 编码转化成“字节串”时,一个 UNICODE 字符可能转化成一个字节或多个字节。

与“ANSI 编码”不同的是:
1. 这些“UNICODE 编码”能够处理所有的 UNICODE 字符。
2. “UNICODE 字符”与“转换出来的字节”之间是可以通过计算得到的。


Java字节流-字符串函数

byte[] getBytes(String name)  throwsJMSException    Returns the byte array value with the specified name.


常用的UTF-8转GBK编码字符串的方式 
        String str = "中文";
        String str1 = new String(str.getBytes("UTF-8"),"GBK");
        String str2 = new String(str1.getBytes("GBK"),"UTF-8");
        System.out.println(str +"  " + str1 + "  " + str2); //str1 === str2 ok

乱码问题

如何识别乱码是如何造成的(乱码的初始编码方式?应该使用什么编码格式进行解码?)
0 0
原创粉丝点击