unicode 的utf-8 和GBK
来源:互联网 发布:龙之信条saber捏脸数据 编辑:程序博客网 时间:2024/05/22 09:40
1. 区别
GBK的文字编码是双字节来表示的,即不论中、英文字符均使用双字节来表示,只不过为区分中文,将其最高位都定成1。
至于UTF-8编码则是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码。对于英文字符较多的网站则用UTF-8节省空间。
2. UTF-8
Unicode符号范围 | UTF-8编码方式
(十六进制) | (二进制)--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
UTF-8是unicode的实现方式,其他实现方式还包括UTF-16和UTF-32,。
1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。
2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。
在Windows平台下,有一个最简单的转化方法,就是使用内置的记事本小程序Notepad.exe。打开文件后,点击“文件”菜单中的“另存为”命令。
里面有四个选项:ANSI,Unicode,Unicode big endian 和 UTF-8。
1)ANSI是默认的编码方式。对于英文文件是ASCII编码,对于简体中文文件是GB2312编码(只针对Windows简体中文版,如果是繁体中文版会采用Big5码)。
2)Unicode编码指的是UCS-2编码方式,即直接用两个字节存入字符的Unicode码。这个选项用的little endian格式。
3)Unicode big endian编码与上一个选项相对应。我在下一节会解释little endian和big endian的涵义。
4)UTF-8编码,也就是上一节谈到的编码方法。
选择完”编码方式“后,点击”保存“按钮,文件的编码方式就立刻转换好了。
- unicode 的utf-8 和GBK
- unicode,gbk和UTF-8
- unicode UTF-8 GBK GB2312 之间的区别和关系
- UTF-8,GBK, GB2312,和Unicode的关系解析
- Python中GBK, UTF-8和Unicode的编码问题
- Python中GBK, UTF-8和Unicode的编码问题
- utf-8,unicode,gbk编码的来源和区别
- 字符编码Unicode UTF-8 GBK的不同和转换
- unicode、GBK、UTF-8
- ASCII、Unicode、GBK和UTF-8
- gbk, unicode, utf-8的关系
- gbk, unicode, utf-8的关系
- GBK,UTF-8,Unicode的区别
- UNICODE, GBK, UTF-8编码的转换
- unicode Ascii gbk字符集和utf-8 utf-16编码
- gbk, gb2312,big5,unicode,utf-8,utf-16的区别
- gbk, gb2312,big5,unicode,utf-8,utf-16的区别
- gbk, gb2312,big5,unicode,utf-8,utf-16的区别
- 开启从Lotus 邮件系统到Exchange 系统的转移篇章-POC过程-Exchange 2010 架构扩展及安装!
- 总结--快速幂
- 随笔-关于离职
- Centos5.4下编译安装php5.4.0
- 【小白的java成长系列】——linux下的java环境变量设置
- unicode 的utf-8 和GBK
- WPA破解原理简要——无线网络破解续
- poj2029
- printf 格式
- Linux环境下提升普通用户权限(sudo)
- 如何拿53kf的会员信息
- Android 触摸屏手势识别程序
- Visual Stdio 的的常用快捷键
- 谷歌实习生,只要大二的妹子