[转]Java中字符串在不同字符编码中所占字节数

来源:互联网 发布:淘宝频繁退货会怎样 编辑:程序博客网 时间:2024/05/16 10:41
Java中字符串所占的字节数和字符编码密切相关。
Java编码实际上可以涉及这几个方面的知识:IDE的编码,操作系统默认编码,Java字符编码。
例如:我们使用eclipse编写Java程序时,可以在工程属性中设置Java程序的编码,若不设置,则程序的编码默认是操作系统的编码,这里设置的编码即为代码文件的编码;或者我们使用vim编写Java程序时,可以设置系统的环境变量LANG,例如 zh_CN.UTF-8,zh_CN.GB18030等,此时,代码文件的编码就是LANG所指定的编码。这就是IDE的编码,IDE的编码很重要,例如一个Java代码文件是UTF-8编码的,而你的IDE是GB18030编码,则显示就会出现乱码了。
Java中字符的编码是指Java中的字符串所采取的编码,例如有下面一段程序,用于计算字符串所占字节数,运行在Windows 7上:
 
[java] view plaincopy 
public class Charset {  
  
        public static void main(String[] args) {  
                // TODO Auto-generated method stub   
                String msg = "中国abc";  
                System.out.println(msg);  
                int len = msg.getBytes().length;//按操作系统默认编码来编码   
                System.out.println(len);  
                try{  
                        len = msg.getBytes("GB2312").length;//输出7   
                        System.out.println("GB2312: "+len);  
                        len = msg.getBytes("GBK").length;//输出7   
                        System.out.println("GBK: "+len);  
                        len = msg.getBytes("GB18030").length;//输出7, 2*2+3,一个汉字占2字节,一个英文字母一个字节   
                        System.out.println("GB18030: "+len);  
                        len = msg.getBytes("UTF-8").length;//输出9, 2*3+3=9,一个汉字占3字节,一个英文字母一个字节.   
                        System.out.println("UTF-8: "+len);  
                        len = msg.getBytes("UTF-16").length;//输出12   
                        System.out.println("UTF-16: "+len);  
                        len = msg.getBytes("UTF-32").length;//输出20   
                        System.out.println("UTF-32: "+len);  
                        len = msg.getBytes("Unicode").length;//输出12   
                        System.out.println("Unicode: "+len);  
                } catch ( java.io.UnsupportedEncodingException e)  
                {  
                        System.out.println(e.getMessage().toString());  
                }  
        }  
  
}  
[java] view plaincopy 
public class Charset {  
  
        public static void main(String[] args) {  
                // TODO Auto-generated method stub  
                String msg = "中国abc";  
                System.out.println(msg);  
                int len = msg.getBytes().length;//按操作系统默认编码来编码  
                System.out.println(len);  
                try{  
                        len = msg.getBytes("GB2312").length;//输出7  
                        System.out.println("GB2312: "+len);  
                        len = msg.getBytes("GBK").length;//输出7  
                        System.out.println("GBK: "+len);  
                        len = msg.getBytes("GB18030").length;//输出7, 2*2+3,一个汉字占2字节,一个英文字母一个字节  
                        System.out.println("GB18030: "+len);  
                        len = msg.getBytes("UTF-8").length;//输出9, 2*3+3=9,一个汉字占3字节,一个英文字母一个字节.  
                        System.out.println("UTF-8: "+len);  
                        len = msg.getBytes("UTF-16").length;//输出12  
                        System.out.println("UTF-16: "+len);  
                        len = msg.getBytes("UTF-32").length;//输出20  
                        System.out.println("UTF-32: "+len);  
                        len = msg.getBytes("Unicode").length;//输出12  
                        System.out.println("Unicode: "+len);  
                } catch ( java.io.UnsupportedEncodingException e)  
                {  
                        System.out.println(e.getMessage().toString());  
                }  
        }  
  
}  
 
程序输出是:
中国abc
7
GB2312: 7
GBK: 7
GB18030: 7
UTF-8: 9
UTF-16: 12
UTF-32: 20
Unicode: 12
分析:
len = msg.getBytes().length
的值是7,这是因为Windows 7操作系统字符编码是GBK(GB2312或GBK或GB18030)
阅读全文
0 0