字符集与编码

来源:互联网 发布:js大于0的整数 编辑:程序博客网 时间:2024/05/29 09:48
  • ASCII
  • ASCII的扩展(DBCS, MBCS)
    • ISO-8859-1 【欧洲使用】
    • GB2312:常见汉字与符号,一级汉字拼音序 【最早的国标,包含了2312个常用汉字】
    • GBK:繁体字
    • GB18030:少数民族字符
    • BIG5/JIS…

 

  • 常见的编码与字节
    • 单字节:ASCII/ISO-8859-1
    • 双字节:GB2312/UTF-16
    • 变字节:UTF-8/UTF-7

 

 

  • 实际例子,以 汉字 "中" 为例:
  • 示例:中(GB:D6D0,U:E4B8AD)

 

汉字在传输过程中,会进行再编码,对于特殊字符,如"《","\",中文等都会以 "%"的形式来进行再编码。

网页中的再编码:

  • GB2312再编码:%D6%D0
    http://www.baidu.com/s?wd=%D6%D0&tn=16site_pg 还原:D6D0 代表为 "中"
  • UTF8再编码: %E4%B8%AD
    http://www.baidu.com/s?wd=%E4%B8%AD&&tn=16site_pg&ie=utf-8
  • 说明: 百度的数据传输使用两个字节的GBK编码,这样传输速率会更高。

     

    在编码语言中的应用:

    JS中—再编码

    encodeURI : 无论数据传递过来是什么编码,全部转成UTF-8编码

    encodeURIComponent : 针对 还有 "/","<"等 特殊字符的编码来进行 utf-8编码的转换。

     

    JS---解码

    decodeURI : 将进行再编码的字符进行解码--- 主要针对没有包含有 特殊字符的字符类型。

    decodeURIComponent : 针对 还有 "/","<"等 特殊字符的编码来进行 utf-8编码的转换。

             

 

 

encodeURIComponent:

 

 

 

 

  • 文本编码的查看:

               判断一个文本文件是使用什么编码: 可以查看文字的字节序(使用UltraEdit 转换成十六进制来查看)

 

  • BOM(Byte Order Mark)
  • FEFF:Big-endian
  • FFFE:Little-endian
  • EF BB BF:UTF-8

 

 

记事本中来修改编码格式.

 

ANSI形式

在windows下的ANSI: 这种字符类型,意思就是说与操作系统的字符编码相一致,如在中文的windows版本中,它的编码默认为GBK编码。

0 0