GB2312/GBK/GB18030转UTF8全攻略(v0.3 非最终版本 )

来源:互联网 发布:建筑软件手机版 编辑:程序博客网 时间:2024/06/06 01:34

要说明的是,由中文的locale转UTF8是一个痛苦的过程,经过这个过程,你会得到一些东西,但也会失去一些东西;你会得到一些便利,但也会带来一些麻烦。

首先介绍一下GB编码格式和UNICODE编码格式。所谓“GB”,也就是国标,国家标准的意思(非国际标准)。最早的国家文字编码标准是GB2312,包括一级字库和二级字库,一级字库包含2312个汉字,也就是最常用的汉字。GB2312包含的文字大约有5000多个,据说是以涵盖《毛主席语录》所有汉字为标准的。这个标准是目前在中国大陆使用最广文字编码。GBK是后来在GB2312的基础再加入了许多汉字,更为完善,可以说基本包含现代汉语的所有文字。GB18030是新出台的国家标准,向下兼容GBK和GB2312,这也是目前中国政府强制执行的标准,所有在中国上市的操作系统都必须支持此编码。这个编码不仅包含简体和繁体汉字,还包含了日韩文字和少数民族的文字。而UNICODE是国际标准,是为了统一世界上无数的编码而设计的,是ASCII码的传承。也就是说它包含ASCII码以及世界各地各种文字的编码。在中文方面,其涵盖了GBK编码的中文字符。UNICODE按照存储空间的不同又分为UTF-8/UTF-16/UTF-32等等。现在使用最广的是UTF-8。 值得注意的是,并不是说我用了某种编码,此编码支持的文字都能显示。这还依赖于系统所用字体。到目前为止,还没有一款能够真正支持GB18030和UTF8标准所有字符的字体(工程太浩瀚了)。

使用UTF-8的好处:
1、国际化。UNICODE是一个趋势,有点“世界大同”的意思。比如大陆人和台湾人交流,他们用BIG5我们用GBK,文档就不能交互了。这样如果大家都用UNICODE,交流就没有障碍了。
2、现在很多国际化的软件、网站等都是用UNICODE作为编码方式,这样就不用为各地方不同的编码方式考虑兼容问题。比如QT程序,比如XML脚本,电骡,都是UNICODE编码的。amarok打算在其1.4版本中取消对其它编码的支持,只支持UNICODE了。
3、WindowsXP等主流操作系统都支持UNICODE。WindowsXP这点做得很好,即支持GB18030,又支持UNICODE,这样就不用害怕UNICODE的文件在Windows下无法识别。

使用UTF-8带来的麻烦:
1、在中国还不普及。GB2312在中国可算是根深蒂固,它为中国的计算机和通信事业做出了卓越的贡献。现在大多数FTP、MP3、文本文档、网页都是GB系列的编码,如果使用UTF-8的locale,就会出现乱码,要进行转换。
2、中国政府在推GB18030,好像对UNICODE并不是很感冒。
3、UNICODE支持的中文不如GB18030多。
4、Linux下部分软件不支持UNICODE,特别是控制台下的(比如我们伟大的文件管理器Midnight Commander,还有中文终端zhcon)。

默认编码是UNICODE的Linux发行版有(我所知道的,不多,不好意思啊): Fedora、Mandriva
默认支持GB18030的Linux发行版:红旗、Magic

因此转不转LOCALE你得自己考虑清楚,好在转LOCALE是可逆的,转了后觉得不爽还可以转回来。

转locale主要要做的几件事情:设置LOCALE相关变量和环境、转文件名编码、转文本文件编码、转mp3的ID3。下面我就一一介绍转换方法。

1、设置LOCALE相关变量和环境对于ArchLinux来说,只需要更改/etc/rc.conf中LOCALE字段的值为zh_CN.utf8即可。其它发行版可以修改引导脚本,添加一句 export LANG=zh_CN.utf8

2、转文件名编码对于Linux的文件系统,如ext3、reiserfs等,原来在GB系列环境下的中文文件名需要转换成utf8编码。可以用convmv这个软件进行转换。命令格式如下: convmv -f gb2312 -t utf8 -r --notest * 执行这个命令之前需要考虑清楚,回车按下去之后你的所有文件名都变成utf8存储了。当然,你也可以变回来: convmv -f utf8 -t gb2312 --notest * 对于windows文件系统,如vfat和ntfs,只需要在挂载时加入utf8参数即可,命令如下: mount /dev/hda1 /mnt/hda1 -o utf8 或者 mount /dev/hda1 /mnt/hda1 -o iocharset=utf8

3、转文本文件编码可以使用这个命令--iconv。命令格式如下: iconv -f gb2312 -t utf8 文件名

4、转mp3的id3 这是一个最痛苦的过程。网络上下载的mp3编码方式千奇百怪,什么都有。有ASCII的、有GBK的、有BIG5的、有UNICODE。而且mp3的id3还有许多版本,有ID3v1的,ID3v2.3的,ID3v2.4的。还有同时拥有ID3v1和id3v2的,晕吧。其中只有ID3v2.4支持UNICODE,我们要做的工作就是将所有乱七八糟的编码全部转换成ID3v2.4 UTF-8。论坛中有人写了一个Linux下的脚本,依赖mutagen的,在本文的附件可以下载。运行: find MY_MUSIC_DIR/ -type f -exec id3iconv -e GBK --remove-v1 {} + 可以进行转换。据说easytag、eyeD3、id3iconv也可以转,但是我实际使用效果都不怎么样。因此这个工作也可以在Windows下完成。Windows下推荐两个软件可以很好的实现此功能的:convertz和千千静听。convertz是专门转码的工具,显得更专业一些。千千可以用其批量改id3的功能进行更改,但是不太稳定,容易崩溃。

5、Midnight Commander 转了locale之后,我们最大的损失就是Midnight Commander了。这个损失让我至今郁闷不已。因为在Linux我已经习惯了控制台下的mc作为文件管理器了。有一个比较差强人意的解决方案,那就是重新编译mc,加入utf8补丁。在Archlinux的AUR中有mc-utf8的PKGBUILD,这个包依赖slang-utf8,也就是打过utf8补丁的slang,在AUR也可以找到。两个软件分别编译后就可以使用mc了,比原来GB2312下的中文支持还好些,但是启动速度奇慢,我也不知道是什么原因。

6、wine 转了locale后,wine加载程序超慢。原因是wine会按照locale去查找字体,由于没有UTF8的字体,它就会挨个编码去找字体,导致运行缓慢。如果你不幸已经运行了wine程序,整个系统大概就会像蜗牛一般了吧。不要着急,在控制台下输入 killall wineserver 即可杀死wine程序。解决方法是,运行wine程序时加上env参数,如这样: env LANG=zh_CN wine 程序.exe

7、Opera字体变得模糊 Opera字体模糊的原因有许多,如果是因为转变LOCALE导致的,那解决方法就是将“语言”选项设置为 zh-cn 即可。

8、与windows共享中文文件名文件的方法:首先,挂载windows共享目录应该使用如下命令:
smbmount //192.168.0.1/share /mnt/smb -o iocharset=utf8,codepage=cp936,username=user,password=1234
其次,让windows访问共享文件需要设置samba服务器。修改smb.conf文件,将这几个字段这么设置:
dos charset = cp936
display charset = UTF8
unix charset = UTF8

原创粉丝点击