字符编码笔记
来源:互联网 发布:linux永久设置密码 编辑:程序博客网 时间:2024/06/06 15:44
计算机内部所有的信息都表示一个二进制的字符串,每一个二进制位有0和1两种状态。一个字节(byte)占8比特(bit),相当于一个字节可以表示256种不同的状态。
ASCII码:
上世纪60年代美国制定,根据英语字符与二进制位的关系做的一套规范。ASCII码一共规定了128个字符的编码,这128个符号只占用了一个字节的后7位,最前面的一位统一规定为0,比如大写的字母A是65(二进制01000001)。ASCII的最大缺点是只能显示26个基本拉丁字母、阿拉伯数字和英文标点符号。
Unicode:
为了使国际间信息交流更加方便,国际组织制定了Unicode字符集,为各种语言中的每一个字符设定了统一并且唯一的数字编号,以满足跨语言、跨平台进行文本转换、处理的要求。
在Unicode被采用后,计算机存放字符串时,改为存放每个字符在Unicode字符集中的序号。目前计算机一般使用2个字节(16位)来存放一个序号,因此,这种方式存放的字符也被称为宽字节字符。
Unicode是字符集,UTF-32/UTF-16/UTF-8是三种字符编码方案。
注:Unicode不是编码方式,而是字符集
UTF-8:
UTF-8是在互联网上使用最广的一种Unicode的实现方式,它是一种变长的编码方式,它可以使用1-4个字节表示一个符号,可以根据不同的符号而变化字节长度。在UTF-8编码中原本只需要一个字节的ASCII字符,仍然只占一个字节。而像中文及日语这样的复杂字符就需要2到3个字节来存储。
3个字节的UTF-8十六进制的编码一定是E开头的
2个字节的UTF-8十六进制的编码一定是以C或D开头的
1个字节的UTF-8十六进制的编码一定是比8小的数字开头的
base64编码
Base64是网络上常见的用于传输8bit字节代码的编码方式之一,可用于在HTTP环境下传递较长的标识信息。
js实现多种编码转换
// window.btoa将ascii字符串或二进制数据转换成一个base64编码过的字符串,window.atob用来将base64编码过的数据进行解码var str = 'javascript';window.btoa(str)//转码结果 "amF2YXNjcmlwdA=="window.atob("amF2YXNjcmlwdA==")//解码结果 "javascript"// 因为ASCII码不支持中文,所以针对中文类的Unicode字符集来讲,需要使用// decodeURIComponent() 与encodeURIComponent()来进行转换,encodeURIComponent能将中文字符编码成ASCII字符序列var str = "China,中国";window.btoa(window.encodeURIComponent(str))//"Q2hpbmElRUYlQkMlOEMlRTQlQjglQUQlRTUlOUIlQkQ="window.decodeURIComponent(window.atob('Q2hpbmElRUYlQkMlOEMlRTQlQjglQUQlRTUlOUIlQkQ='))//"China,中国"// 获得字符的Unicode码"a".charCodeAt(0) //返回97// 获得Unicode码对应的字符String.fromCharCode(97) //返回“a”
自定义Base64转换方法
var Base64 = { // 转码表 table: [ 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '+', '/' ], UTF16ToUTF8: function (str) { var res = [], len = str.length; for (var i = 0; i < len; i++) { var code = str.charCodeAt(i); if (code > 0x0000 && code <= 0x007F) { // 单字节,这里并不考虑0x0000,因为它是空字节 // U+00000000 – U+0000007F 0xxxxxxx res.push(str.charAt(i)); } else if (code >= 0x0080 && code <= 0x07FF) { // 双字节 // U+00000080 – U+000007FF 110xxxxx 10xxxxxx // 110xxxxx var byte1 = 0xC0 | ((code >> 6) & 0x1F); // 10xxxxxx var byte2 = 0x80 | (code & 0x3F); res.push( String.fromCharCode(byte1), String.fromCharCode(byte2) ); } else if (code >= 0x0800 && code <= 0xFFFF) { // 三字节 // U+00000800 – U+0000FFFF 1110xxxx 10xxxxxx 10xxxxxx // 1110xxxx var byte1 = 0xE0 | ((code >> 12) & 0x0F); // 10xxxxxx var byte2 = 0x80 | ((code >> 6) & 0x3F); // 10xxxxxx var byte3 = 0x80 | (code & 0x3F); res.push( String.fromCharCode(byte1), String.fromCharCode(byte2), String.fromCharCode(byte3) ); } else if (code >= 0x00010000 && code <= 0x001FFFFF) { // 四字节 // U+00010000 – U+001FFFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx } else if (code >= 0x00200000 && code <= 0x03FFFFFF) { // 五字节 // U+00200000 – U+03FFFFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx } else /** if (code >= 0x04000000 && code <= 0x7FFFFFFF)*/ { // 六字节 // U+04000000 – U+7FFFFFFF 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx } } return res.join(''); }, UTF8ToUTF16: function (str) { var res = [], len = str.length; var i = 0; for (var i = 0; i < len; i++) { var code = str.charCodeAt(i); // 对第一个字节进行判断 if (((code >> 7) & 0xFF) == 0x0) { // 单字节 // 0xxxxxxx res.push(str.charAt(i)); } else if (((code >> 5) & 0xFF) == 0x6) { // 双字节 // 110xxxxx 10xxxxxx var code2 = str.charCodeAt(++i); var byte1 = (code & 0x1F) << 6; var byte2 = code2 & 0x3F; var utf16 = byte1 | byte2; res.push(String.fromCharCode(utf16)); } else if (((code >> 4) & 0xFF) == 0xE) { // 三字节 // 1110xxxx 10xxxxxx 10xxxxxx var code2 = str.charCodeAt(++i); var code3 = str.charCodeAt(++i); var byte1 = (code << 4) | ((code2 >> 2) & 0x0F); var byte2 = ((code2 & 0x03) << 6) | (code3 & 0x3F); utf16 = ((byte1 & 0x00FF) << 8) | byte2 res.push(String.fromCharCode(utf16)); } else if (((code >> 3) & 0xFF) == 0x1E) { // 四字节 // 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx } else if (((code >> 2) & 0xFF) == 0x3E) { // 五字节 // 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx } else /** if (((code >> 1) & 0xFF) == 0x7E)*/ { // 六字节 // 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx } } return res.join(''); }, encode: function (str) { if (!str) { return ''; } var utf8 = this.UTF16ToUTF8(str); // 转成UTF8 var i = 0; // 遍历索引 var len = utf8.length; var res = []; while (i < len) { var c1 = utf8.charCodeAt(i++) & 0xFF; res.push(this.table[c1 >> 2]); // 需要补2个= if (i == len) { res.push(this.table[(c1 & 0x3) << 4]); res.push('=='); break; } var c2 = utf8.charCodeAt(i++); // 需要补1个= if (i == len) { res.push(this.table[((c1 & 0x3) << 4) | ((c2 >> 4) & 0x0F)]); res.push(this.table[(c2 & 0x0F) << 2]); res.push('='); break; } var c3 = utf8.charCodeAt(i++); res.push(this.table[((c1 & 0x3) << 4) | ((c2 >> 4) & 0x0F)]); res.push(this.table[((c2 & 0x0F) << 2) | ((c3 & 0xC0) >> 6)]); res.push(this.table[c3 & 0x3F]); } return res.join(''); }, decode: function (str) { if (!str) { return ''; } var len = str.length; var i = 0; var res = []; while (i < len) { code1 = this.table.indexOf(str.charAt(i++)); code2 = this.table.indexOf(str.charAt(i++)); code3 = this.table.indexOf(str.charAt(i++)); code4 = this.table.indexOf(str.charAt(i++)); c1 = (code1 << 2) | (code2 >> 4); c2 = ((code2 & 0xF) << 4) | (code3 >> 2); c3 = ((code3 & 0x3) << 6) | code4; res.push(String.fromCharCode(c1)); if (code3 != 64) { res.push(String.fromCharCode(c2)); } if (code4 != 64) { res.push(String.fromCharCode(c3)); } }// return this.UTF8ToUTF16(res.join('')); return res; } };
关于Node端编解码:
参照此文
- 字符编码笔记
- [转]字符编码笔记
- emacs 字符编码 笔记
- 字符编码笔记
- 字符编码学习笔记
- 字符编码笔记
- 字符编码笔记
- 字符编码学习笔记
- 字符编码笔记
- 字符编码--笔记
- 经典入门--字符编码笔记
- 字符编码和数据类型笔记
- 【学习笔记】--Struts字符编码过滤器
- java web笔记(字符编码)
- 【JAVA IO】_字符编码笔记
- 【JAVA IO】_字符编码笔记
- Python 字符编码小笔记(备忘录)
- 【JAVA IO】_字符编码笔记
- Android 强大的滚动控件 RecyclerView
- Json格式化输出
- Bean property 'xxx' is not writable or has an invalid setter method
- Hardwood Species UVA
- 深入浅出Redis任务队列
- 字符编码笔记
- jsday11补充二(弹来弹去的广告 关键是Interval计时和来回判断)
- C++实现的线程池
- 主席树 两篇
- poj1456 Supermarket
- pandas中Groupby的使用(三)-根据dtype对列进行分组
- Bagging与随机森林算法原理小结(详解)
- Retrofit
- D3系列第一弹——绘制饼图