使用iconv进行GBK到BIG5编码转/简繁转换遇到的问题
来源:互联网 发布:手机魔音软件下载 编辑:程序博客网 时间:2024/06/11 21:34
Linux操作系统中的iconv命令/函数可以将一种已知的字符集文件转换成另一种已知的字符集文件。
在使用它进行GBK到BIG5的编码转换时,遇到"iconv:illeagal input sequence at positon xx ”的错误。
有个一个文本文件gbk.txt,只有四个汉字,内容如下:
喜欢德芙
使用下面的命令,在shell中进行转换
iconv -f gbk -t big5 gbk.txt -o big5.txt
失败报错
iconv:illeagal input sequence at positon 2
根据错误提示,是由于“欢”字导致转换失败的。
其GBK编码为BBB6,对应的繁体“歡”,GBK编码为9A67,BIG5编码为C577。
iconv在进行编码转换时输入GBK编码为BBB6的“欢”,其在BIG5中没有对应的编码,会导致转换失败。
如果是对GBK编码为9A67的“歡”进行到BIG5的转换,则会成功转换为C577。
创建gbk_1.txt,内容如下
喜歡德芙
执行
iconv -f gbk -t big5 gbk_1.txt -o big5.txt
可以成功的通过iconv完成到big5的编码转换。
对于GB2312,它是GBK的子集,“欢”字在GB2312中的编码与GBK中相同都为BBB6。因为GB2312中不包含“歡”字,所以将“欢”字的源编码指定为GB2312,可以成功转换为BIG5编码。执行
iconv -f gb2312 -t big5 gbk.txt -o big5.txt
繁简转换则是一个更为复杂的问题,包括GB2312到BIG5的转换、GBK内部简繁之间的转换,还存在一个简体字对应多个繁体字情况,例如
干字对应三个汉字:(干)涉,(乾)燥,(幹)部
后字对应两个汉字:(後)面,皇(后)
结论:
1、 GB2312中的字符可以转换到BIG5;
2、 GBK中同时存在简繁体的汉字,简体字向BIG5转换不会成功;
3、 GBK到BIG5的编码转换不等价于简繁转换,GBK中也有繁体字;
4、 简->繁困难,繁->简容易;
中文编码转换的可行性
GBK->Unicode,Big5-Unicode (总是OK)Unicode->GBK (当里面仅包含英文及简体时OK)Unicode->BIG5 (当里面仅包含英文及繁体时OK)GBK->Big5 (基本上不行,除非某些字没有特别的简体字)GBK->Big5是汉字的简繁转换GB2312->BIG5(多数OK)
另附GBK繁简转换码表
下载地址:
http://download.csdn.net/detail/littlefang/8460263
参考
http://zhidao.baidu.com/question/162366537.html 中tobyliu415的回答
《一个简化字对应两个或多个繁体字的情况》http://wenku.baidu.com/link?url=vhQELM2h2-x_1yDoyf8hB1Rf6O638anAy5x07IpE783FHNUTen8HyqG7DIhMcH4sh7i5kDvouOC-Xo4oBnqkW6nlkBIWPMfNst7bjqOPeWG
BIG5内码表 http://www.me.tnu.edu.tw/~me006/vb/tutor/r05/index.htm
《GBK,BIG5等字符集编码范围的具体说明》 http://www.cnblogs.com/chenwenbiao/archive/2011/09/16/2178372.html
《iconv遇到无法转码的字符时中断内容丢失及解决方法》http://www.zoneself.org/2012/02/21/content_653.html
- 使用iconv进行GBK到BIG5编码转/简繁转换遇到的问题
- linux下使用iconv转换编码:UTF8转GBK
- gbk转utf-8 iconv 编码转换
- CVCode简繁转换的扩展:GBK与Big5转换
- php关于使用iconv(...)函数对字符进行中文转换时,遇到的一个问题
- 在自己的工程中使用iconv进行编码转换
- 在自己的工程中使用iconv进行编码转换
- iconv编码转换的使用
- Android NDK使用Iconv进行编码转换
- delphi 编码转换 unicode gbk big5
- Delphi 编码转换 Unicode gbk big5
- delphi 编码转换 unicode gbk big5
- iconv转换编码格式 gbk utf-8
- PHP iconv()字符编码转换的问题
- 汉字的unicode、GB、GBK、BIG5编码
- php的汉字转换: GBK->Big5
- PhpNewsReader---不使用iconv进行字符编码转换
- Linux中使用iconv命令对文件进行编码转换
- 协同程序
- oracle数据库,当字段值数据过长,截取前几位,然后省略号表示,实例如下。
- smartsvn学习(-)
- 关于synchronized是否能保证可见性。
- AJAX使用反射调用指定类的方法
- 使用iconv进行GBK到BIG5编码转/简繁转换遇到的问题
- 老mac笔记本更换SSD固态硬盘启动失败的解决办法
- Java开发工具IntelliJ IDEA创建Andriod项目
- 4.Struts2_使用XxxAware接口获取web资源
- Android onMeasure、Measure、measureChild、measureChildren 一些简要说明
- poj1157做题心得
- 内存管理(Core Foundation object和Objective - C转换)__bridge,__bridge_retained和__bridge_transfer
- Iocomp包含组件介绍(三)
- smartsvn学习(一)Xcode下svn客户端使用指南