字符编码笔记

来源:互联网 发布:linux永久设置密码 编辑:程序博客网 时间:2024/06/06 15:44

计算机内部所有的信息都表示一个二进制的字符串,每一个二进制位有0和1两种状态。一个字节(byte)占8比特(bit),相当于一个字节可以表示256种不同的状态。

ASCII码:

上世纪60年代美国制定,根据英语字符与二进制位的关系做的一套规范。ASCII码一共规定了128个字符的编码,这128个符号只占用了一个字节的后7位,最前面的一位统一规定为0,比如大写的字母A是65(二进制01000001)。ASCII的最大缺点是只能显示26个基本拉丁字母、阿拉伯数字和英文标点符号。

Unicode:

为了使国际间信息交流更加方便,国际组织制定了Unicode字符集,为各种语言中的每一个字符设定了统一并且唯一的数字编号,以满足跨语言、跨平台进行文本转换、处理的要求。
在Unicode被采用后,计算机存放字符串时,改为存放每个字符在Unicode字符集中的序号。目前计算机一般使用2个字节(16位)来存放一个序号,因此,这种方式存放的字符也被称为宽字节字符。
Unicode是字符集,UTF-32/UTF-16/UTF-8是三种字符编码方案。
注:Unicode不是编码方式,而是字符集

UTF-8:

UTF-8是在互联网上使用最广的一种Unicode的实现方式,它是一种变长的编码方式,它可以使用1-4个字节表示一个符号,可以根据不同的符号而变化字节长度。在UTF-8编码中原本只需要一个字节的ASCII字符,仍然只占一个字节。而像中文及日语这样的复杂字符就需要2到3个字节来存储。

3个字节的UTF-8十六进制的编码一定是E开头的
2个字节的UTF-8十六进制的编码一定是以C或D开头的
1个字节的UTF-8十六进制的编码一定是比8小的数字开头的

base64编码

Base64是网络上常见的用于传输8bit字节代码的编码方式之一,可用于在HTTP环境下传递较长的标识信息。

js实现多种编码转换

// window.btoa将ascii字符串或二进制数据转换成一个base64编码过的字符串,window.atob用来将base64编码过的数据进行解码var str = 'javascript';window.btoa(str)//转码结果 "amF2YXNjcmlwdA=="window.atob("amF2YXNjcmlwdA==")//解码结果 "javascript"// 因为ASCII码不支持中文,所以针对中文类的Unicode字符集来讲,需要使用// decodeURIComponent() 与encodeURIComponent()来进行转换,encodeURIComponent能将中文字符编码成ASCII字符序列var str = "China,中国";window.btoa(window.encodeURIComponent(str))//"Q2hpbmElRUYlQkMlOEMlRTQlQjglQUQlRTUlOUIlQkQ="window.decodeURIComponent(window.atob('Q2hpbmElRUYlQkMlOEMlRTQlQjglQUQlRTUlOUIlQkQ='))//"China,中国"// 获得字符的Unicode码"a".charCodeAt(0) //返回97// 获得Unicode码对应的字符String.fromCharCode(97) //返回“a”

自定义Base64转换方法

    var Base64 = {        // 转码表        table: [            'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H',            'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P',            'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X',            'Y', 'Z', 'a', 'b', 'c', 'd', 'e', 'f',            'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n',            'o', 'p', 'q', 'r', 's', 't', 'u', 'v',            'w', 'x', 'y', 'z', '0', '1', '2', '3',            '4', '5', '6', '7', '8', '9', '+', '/'        ],        UTF16ToUTF8: function (str) {            var res = [], len = str.length;            for (var i = 0; i < len; i++) {                var code = str.charCodeAt(i);                if (code > 0x0000 && code <= 0x007F) {                    // 单字节,这里并不考虑0x0000,因为它是空字节                    // U+00000000 – U+0000007F  0xxxxxxx                    res.push(str.charAt(i));                } else if (code >= 0x0080 && code <= 0x07FF) {                    // 双字节                    // U+00000080 – U+000007FF  110xxxxx 10xxxxxx                    // 110xxxxx                    var byte1 = 0xC0 | ((code >> 6) & 0x1F);                    // 10xxxxxx                    var byte2 = 0x80 | (code & 0x3F);                    res.push(                        String.fromCharCode(byte1),                        String.fromCharCode(byte2)                    );                } else if (code >= 0x0800 && code <= 0xFFFF) {                    // 三字节                    // U+00000800 – U+0000FFFF  1110xxxx 10xxxxxx 10xxxxxx                    // 1110xxxx                    var byte1 = 0xE0 | ((code >> 12) & 0x0F);                    // 10xxxxxx                    var byte2 = 0x80 | ((code >> 6) & 0x3F);                    // 10xxxxxx                    var byte3 = 0x80 | (code & 0x3F);                    res.push(                        String.fromCharCode(byte1),                        String.fromCharCode(byte2),                        String.fromCharCode(byte3)                    );                } else if (code >= 0x00010000 && code <= 0x001FFFFF) {                    // 四字节                    // U+00010000 – U+001FFFFF  11110xxx 10xxxxxx 10xxxxxx 10xxxxxx                } else if (code >= 0x00200000 && code <= 0x03FFFFFF) {                    // 五字节                    // U+00200000 – U+03FFFFFF  111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx                } else /** if (code >= 0x04000000 && code <= 0x7FFFFFFF)*/ {                    // 六字节                    // U+04000000 – U+7FFFFFFF  1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx                }            }            return res.join('');        },        UTF8ToUTF16: function (str) {            var res = [], len = str.length;            var i = 0;            for (var i = 0; i < len; i++) {                var code = str.charCodeAt(i);                // 对第一个字节进行判断                if (((code >> 7) & 0xFF) == 0x0) {                    // 单字节                    // 0xxxxxxx                    res.push(str.charAt(i));                } else if (((code >> 5) & 0xFF) == 0x6) {                    // 双字节                    // 110xxxxx 10xxxxxx                    var code2 = str.charCodeAt(++i);                    var byte1 = (code & 0x1F) << 6;                    var byte2 = code2 & 0x3F;                    var utf16 = byte1 | byte2;                    res.push(String.fromCharCode(utf16));                } else if (((code >> 4) & 0xFF) == 0xE) {                    // 三字节                    // 1110xxxx 10xxxxxx 10xxxxxx                    var code2 = str.charCodeAt(++i);                    var code3 = str.charCodeAt(++i);                    var byte1 = (code << 4) | ((code2 >> 2) & 0x0F);                    var byte2 = ((code2 & 0x03) << 6) | (code3 & 0x3F);                    utf16 = ((byte1 & 0x00FF) << 8) | byte2                    res.push(String.fromCharCode(utf16));                } else if (((code >> 3) & 0xFF) == 0x1E) {                    // 四字节                    // 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx                } else if (((code >> 2) & 0xFF) == 0x3E) {                    // 五字节                    // 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx                } else /** if (((code >> 1) & 0xFF) == 0x7E)*/ {                    // 六字节                    // 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx                }            }            return res.join('');        },        encode: function (str) {            if (!str) {                return '';            }            var utf8 = this.UTF16ToUTF8(str); // 转成UTF8            var i = 0; // 遍历索引            var len = utf8.length;            var res = [];            while (i < len) {                var c1 = utf8.charCodeAt(i++) & 0xFF;                res.push(this.table[c1 >> 2]);                // 需要补2个=                if (i == len) {                    res.push(this.table[(c1 & 0x3) << 4]);                    res.push('==');                    break;                }                var c2 = utf8.charCodeAt(i++);                // 需要补1个=                if (i == len) {                    res.push(this.table[((c1 & 0x3) << 4) | ((c2 >> 4) & 0x0F)]);                    res.push(this.table[(c2 & 0x0F) << 2]);                    res.push('=');                    break;                }                var c3 = utf8.charCodeAt(i++);                res.push(this.table[((c1 & 0x3) << 4) | ((c2 >> 4) & 0x0F)]);                res.push(this.table[((c2 & 0x0F) << 2) | ((c3 & 0xC0) >> 6)]);                res.push(this.table[c3 & 0x3F]);            }            return res.join('');        },        decode: function (str) {            if (!str) {                return '';            }            var len = str.length;            var i = 0;            var res = [];            while (i < len) {                code1 = this.table.indexOf(str.charAt(i++));                code2 = this.table.indexOf(str.charAt(i++));                code3 = this.table.indexOf(str.charAt(i++));                code4 = this.table.indexOf(str.charAt(i++));                c1 = (code1 << 2) | (code2 >> 4);                c2 = ((code2 & 0xF) << 4) | (code3 >> 2);                c3 = ((code3 & 0x3) << 6) | code4;                res.push(String.fromCharCode(c1));                if (code3 != 64) {                    res.push(String.fromCharCode(c2));                }                if (code4 != 64) {                    res.push(String.fromCharCode(c3));                }            }//            return this.UTF8ToUTF16(res.join(''));            return res;        }    };

关于Node端编解码:
参照此文