[转]Java中字符串在不同字符编码中所占字节数

来源：互联网发布：淘宝频繁退货会怎样编辑：程序博客网时间：2024/05/16 10:41

Java中字符串所占的字节数和字符编码密切相关。

Java编码实际上可以涉及这几个方面的知识：IDE的编码，操作系统默认编码，Java字符编码。

例如：我们使用eclipse编写Java程序时，可以在工程属性中设置Java程序的编码，若不设置，则程序的编码默认是操作系统的编码，这里设置的编码即为代码文件的编码；或者我们使用vim编写Java程序时，可以设置系统的环境变量LANG，例如 zh_CN.UTF-8，zh_CN.GB18030等，此时，代码文件的编码就是LANG所指定的编码。这就是IDE的编码，IDE的编码很重要，例如一个Java代码文件是UTF-8编码的，而你的IDE是GB18030编码，则显示就会出现乱码了。

Java中字符的编码是指Java中的字符串所采取的编码，例如有下面一段程序，用于计算字符串所占字节数，运行在Windows 7上：

[java] view plaincopy

public class Charset {

public static void main(String[] args) {

// TODO Auto-generated method stub

String msg = "中国abc";

System.out.println(msg);

int len = msg.getBytes().length;//按操作系统默认编码来编码

System.out.println(len);

try{

len = msg.getBytes("GB2312").length;//输出7

System.out.println("GB2312: "+len);

len = msg.getBytes("GBK").length;//输出7

System.out.println("GBK: "+len);

len = msg.getBytes("GB18030").length;//输出7, 2*2+3,一个汉字占2字节,一个英文字母一个字节

System.out.println("GB18030: "+len);

len = msg.getBytes("UTF-8").length;//输出9, 2*3+3=9,一个汉字占3字节,一个英文字母一个字节.

System.out.println("UTF-8: "+len);

len = msg.getBytes("UTF-16").length;//输出12

System.out.println("UTF-16: "+len);

len = msg.getBytes("UTF-32").length;//输出20

System.out.println("UTF-32: "+len);

len = msg.getBytes("Unicode").length;//输出12

System.out.println("Unicode: "+len);

} catch ( java.io.UnsupportedEncodingException e)

{

System.out.println(e.getMessage().toString());

}

[java] view plaincopy

public class Charset {

public static void main(String[] args) {

// TODO Auto-generated method stub

String msg = "中国abc";

System.out.println(msg);

int len = msg.getBytes().length;//按操作系统默认编码来编码

System.out.println(len);

try{

len = msg.getBytes("GB2312").length;//输出7

System.out.println("GB2312: "+len);

len = msg.getBytes("GBK").length;//输出7

System.out.println("GBK: "+len);

len = msg.getBytes("GB18030").length;//输出7, 2*2+3,一个汉字占2字节,一个英文字母一个字节

System.out.println("GB18030: "+len);

len = msg.getBytes("UTF-8").length;//输出9, 2*3+3=9,一个汉字占3字节,一个英文字母一个字节.

System.out.println("UTF-8: "+len);

len = msg.getBytes("UTF-16").length;//输出12

System.out.println("UTF-16: "+len);

len = msg.getBytes("UTF-32").length;//输出20

System.out.println("UTF-32: "+len);

len = msg.getBytes("Unicode").length;//输出12

System.out.println("Unicode: "+len);

} catch ( java.io.UnsupportedEncodingException e)

{

System.out.println(e.getMessage().toString());

}

程序输出是：

中国abc

GB2312: 7

GBK: 7

GB18030: 7

UTF-8: 9

UTF-16: 12

UTF-32: 20

Unicode: 12

分析：

len = msg.getBytes().length

的值是7，这是因为Windows 7操作系统字符编码是GBK（GB2312或GBK或GB18030）

阅读全文

0 0