Java编码学习

来源:互联网 发布:英雄无敌3mac随机地图 编辑:程序博客网 时间:2024/06/09 17:27

<span style="font-family: 'Microsoft YaHei'; background-color: rgb(255, 255, 255);"><span style="font-size:14px;">参考文章:http://www.ibm.com/developerworks/cn/java/j-lo-chinesecoding/</span></span>

前提:

  • Java使用Unicode字符集编码,即utf-16。
  • Java中一个char是两个字节
  • 编码:从字符转换为字节,从char[ ]到byte[ ]
  • 解码:从字节转换为字符,从byte[ ]到char[ ]
  • Java中进行编码和解码时使用的是Charset类,该类中CharsetEncoder的Encode方法实现编码,decode实现解码
  • Java中需要编码解码的情况:
    • I/O操作
    • String到内存
    • Java web(有待进一步学习)
String到内存——重点:getBytes( )方法
import java.io.IOException;import java.io.StringReader;public class EncodeCompare {public static void main(String[] args) throws IOException {char a = '中';System.out.println("this is from char:");System.out.println((int)a);System.out.println(Integer.toHexString(a));StringReader strReader = new StringReader("中");int b = strReader.read();System.out.println("this is from reader:");System.out.println(b);System.out.println(Integer.toHexString(b));String c = "中";byte[] result = c.getBytes("gb2312");System.out.println("this is from string:");for(int i = 0; i < result.length; i ++)System.out.println(result[i]);}}
实际输出:
this is from char:200134e2dthis is from reader:200134e2dthis is from string:-42-48
最后字符串获取字节数组的过程在内存中经历了哪几个阶段呢?
  1. 在内存中加载程序:此阶段,字符按照Java的编码方式,在内存中表示为0x4e2d,占用了两个字节
  2. 编码转换:查找gb2312里,char到byte的码表,得到与0x4e2d对应的字节,结果为0xd6d0
  3. 将得到的结果赋给byte数组
程序的第一段,验证了char字符是按照utf-16的编码进行编码,因为对字符串按“utf-16”获得字节数组,得到的结果是0x4e2d;
程序的第二段,是为了检验,字符流中的read方法返回的int值是怎么得来的,通过对比结果可以得出,int值是该字符按utf-16得到的字节的十进制值。

0 0