ASCII,Unicode,UTF-8

来源:互联网 发布:淘宝监管记录怎么消除 编辑:程序博客网 时间:2024/06/05 23:52

单字节编码:典型的是ASCII编码,只用了一个字节编码

ASCII:一共规定了128个字符的编码,只用了一个字节(8bit)的后面7位,最高位统一规定为0.

ISO-8859-1:ASCII 编码的扩展,但也是单字节编码,最多能够表示256个字符

双字节编码:典型的是我们自己使用的GB2312,以及扩展后的GBK标准。

多字节编码:就是多个字节表示一个字符


UNICODE:两个字节几乎可以编码地球上的所有文字,因此被称为统一码,万国码,使用不同的字符代表不同的字


但如果ASCII码用UNICODE来编码,并不是很高效,浪费了一个字节的存储,为了解决这个问题,出现了一些中间格式的字符集,它们被称为通用转换格式,即UTF.常见的UTF格式有UTF-8


UTF-8:一种针对unicode的可变长度字符编码,又称万国码。使用1-6个字节编码UNICODE


所以Text  t="程序"  t.getLength()     6     Text 是针对UTF-8序列的Writable类。返回是字节数

        String str="程序"  str.length()   2     String中length方法返回的是字符的个数,getbytes方法返回是字节数   

java中一个UTF-8中文字符使用3个字节存储



原创粉丝点击