字符集与字符编码

来源:互联网 发布:淘宝测男女的试纸准吗 编辑:程序博客网 时间:2024/04/29 17:37


字符集(charset):是一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。

常用字符集

ASCII:英语字符集,1字节,前127是英文+数字,127-255是特殊符号

GBXXXX(GB2312,GB18030):天朝字符集,2字节,包含ASCII前127位

BIG5:天朝繁体字符集

GBK:中文字符集(编码与GBXXXX不同),2字节,包含ASCII前127位

Unicode:统一码,4字节(对应编码UTF-32/UTF-16/UTF-8),包含ASCII前127位,汉字在unicode中的范围0X4E00到0x9FA5


字符编码(Character Encoding):字符集与数字系统的对应关系

常用编码

ISO-8859-1单字节编码

GBK 双字节编码

UTF-8 变长字节编码方式

UTF-32(Unicode)固定四字节