Unicode也是一种字符编码方法,容纳65536个字符

来源:互联网 发布:html5 json 数据解析 编辑:程序博客网 时间:2024/06/01 08:42

Unicode也是一种字符编码方法,容纳65536个字符

标签: css常用字体   css 常用字体   myeclipse常用字体  
转自: http://blog.csdn.net/autumn20080101/article/details/8515256


Unicode也是一种字符编码方法,它占用两个字节(0000H—FFFFH,容纳65536个字符,这完全可以容纳全世界所有语言文字的编码。

中国人常用汉字单字个数有多少

     这个问题没有准确的答案,只能是在某个范围内的统计数字。国家有关机构作了统计,发布了有关文件。分为常用字表和次常用字表。大约是2500到7000之间。 在社会生活中,不同的行业,部门,不同职业的人所需要的用字量是不同的,在学校教育的不同阶段,也需要规定不同量的识字标准。因此,汉字的字量标准就不能只有一个,而应该有不同的层次和类别。就用字来讲,首先应该区分常用字和通用字。 按现在一般的理解, 常用字就是经常使用的,阅读报刊书籍必须掌握的字,但“经常使用”也只是个模糊的概念,因此在不同的历史时期,根据不同的需要,常用字的概念的内涵也时有变化,即使是同样的内涵,其所收字的数量也会不同。 通用字的范围比常用字大,它是指一定时期出版印刷,辞书编撰和汉字信息处理所需要使用的汉字。现代汉语通用字则是指现代所需要使用的汉字,它不包括很生僻的,专门用于汉语的用字,也不包括专业用字。根据对文字资料的统计,从商朝到现代,一般使用的汉字数量没有显著的变化,可能一直在五六千左右。近年来指定的具有通用字表性质的汉字标准,基本上维持了这一数目。如《印刷通用汉字字形表》收字6196个,国家标准《信息交换用汉字编码字符表》收字6763个。根据近年来实际使用的情况,国家语委在1988年研制的《现代汉语通用字表》,收字7000个。

python--ASCII和UNICODE字符串的区别

标签: android chinese input   linux chinese input  
转自: http://wait_miracle.iteye.com/blog/2003206

import osprint "Input your Chinese name:"s=raw_input("Press enter to be continued  ");print "Your name is  : " +s;l=len(s)print "Length of your Chinese name in asc codes is:"+str(l);a=unicode(s,"GBK")l=len(a)print "I'm sorry we should use unicode char!Characters number of your Chinese \name in unicode is:"+str(l);

 

 

运行结果:

Input your Chinese name:Press enter to be continued  王二毛Your name is  : 王二毛Length of your Chinese name in asc codes is:6I'm sorry we should use unicode char!Characters number of your Chinese name in unicode is:3

js URL编码方法的比较

标签: android 字符串编码   c#字符编码格式   ios 字符串编码  
转自: http://blog.csdn.net/phptripper/article/details/4293795

javascrīpt中存在几种对URL字符串进行编码的方法 :escape(),encodeURI(),以及encodeURIComponent()。这几种编码所起的作用各不相同。 

escape() 方法:

采用ISO Latin字符集对指定的字符串进行编码。所有的空格符、标点符号、特殊字符以及其他非ASCII字符都将被转化成%xx格式的字符编码(xx等于该字符在字符集表里面的编码的16进制数字)。比如,空格符对应的编码是%20。

不会被此方法编码的字符:@ * / +

encodeURI() 方法:

把URI字符串采用UTF-8编码格式转化成escape格式的字符串。

不会被此方法编码的字符:! @ # $& * ( ) = : / ; ? + '

encodeURIComponent() 方法:

把URI字符串采用UTF-8编码格式转化成escape格式的字符串。与encodeURI()相比,这个方法将对更多的字符进行编码,比如 / 等字符。所以如果字符串里面包含了URI的几个部分的话,不能用这个方法来进行编码,否则 / 字符被编码之后URL将显示错误。

不会被此方法编码的字符:! * ( ) '

因此,对于中文字符串来说,如果不希望把字符串编码格式转化成UTF-8格式的(比如原页面和目标页面的charset是一致的时候),只需要使用escape。如果你的页面是GB2312或者其他的编码,而接受参数的页面是UTF-8编码的,就要采用encodeURI或者encodeURIComponent。

另外,encodeURI/encodeURIComponent是在javascrīpt1.5之后引进的,escape则在javascrīpt1.0版本就有。

0 0
原创粉丝点击