Java编码问题

来源：互联网发布：数据库中的substring 编辑：程序博客网时间：2024/05/16 05:27

编码基础知识

常用的编码简介

简单介绍一下常用的编码规则，为后边的章节做一个准备。在这里，我们根据编码规则的特点，把所有的编码分成三类：

分类编码标准说明单字节字符编码ISO-8859-1最简单的编码规则，每一个字节直接作为一个 UNICODE 字符。比如，[0xD6, 0xD0] 这两个字节，通过 iso-8859-1 转化为字符串时，将直接得到 [0x00D6, 0x00D0] 两个 UNICODE 字符，即 "ÖÐ"。

反之，将 UNICODE 字符串通过 iso-8859-1 转化为字节串时，只能正常转化 0~255 范围的字符。ANSI 编码GB2312,
BIG5,
Shift_JIS,
ISO-8859-2 ……把 UNICODE 字符串通过 ANSI 编码转化为“字节串”时，根据各自编码的规定，一个 UNICODE 字符可能转化成一个字节或多个字节。

反之，将字节串转化成字符串时，也可能多个字节转化成一个字符。比如，[0xD6, 0xD0] 这两个字节，通过 GB2312 转化为字符串时，将得到 [0x4E2D] 一个字符，即 '中' 字。

“ANSI 编码”的特点：
1. 这些“ANSI 编码标准”都只能处理各自语言范围之内的 UNICODE 字符。
2. “UNICODE 字符”与“转换出来的字节”之间的关系是人为规定的。

UNICODE 编码

UTF-8,
UTF-16, UnicodeBig ……与“ANSI 编码”类似的，把字符串通过 UNICODE 编码转化成“字节串”时，一个 UNICODE 字符可能转化成一个字节或多个字节。

与“ANSI 编码”不同的是：
1. 这些“UNICODE 编码”能够处理所有的 UNICODE 字符。
2. “UNICODE 字符”与“转换出来的字节”之间是可以通过计算得到的。

Java字节流-字符串函数

byte[] getBytes(String name) throwsJMSException Returns the byte array value with the specified name.

常用的UTF-8转GBK编码字符串的方式

String str = "中文";
String str1 = new String(str.getBytes("UTF-8"),"GBK");
String str2 = new String(str1.getBytes("GBK"),"UTF-8");
System.out.println(str +" " + str1 + " " + str2); //str1 === str2 ok

乱码问题

如何识别乱码是如何造成的（乱码的初始编码方式？应该使用什么编码格式进行解码？）

0 0