简体繁体的转换,好难啊!(可怜白发生)

来源:互联网 发布:什么越狱软件好 编辑:程序博客网 时间:2024/04/29 09:28

2009-02-27 10:49

如果要将大陆现行的简体字,转换为繁体字,用电脑编写个转换器,真的很困难啊,因为很多字,并不可以一对一的转。比如:辛弃疾的词“可怜白发生”(简体有歧义,繁体则没有,这也是简体的不足之处),类似的还有好多。

“白发生”可以转写为“白髮生——生了白髮”,也可以转写为“白發生——白白地發生了”;

(以下转自http://blog.sina.com.cn/s/blog_4bbb74a50100bwa0.html

繁体和简体的字形差异造成很大困难

众所周知,中华人民共和国推行了半个世纪的簡化字,台湾和香港至今并没有采用。“繁体字”是中国大陆对传统汉字字体的称呼,这个称呼在香港、澳门等地区也较常使用;而在台湾被称作“正体字”。按中国官方的分类,简化字是规范汉字,繁体字则属于非规范汉字。联合国等国际组织、以及新加坡、马来西亚等随同中华人民共和国采用简化字。

在中文电脑技术中,中国大陆和港台采用不同的“字符集”:简体中文则通常使用国标码字符集或其扩充版本,国家标准扩展码 (GBK) 等由中国政府正式颁发的字符集;中国大陆的繁体中文通常使用 BIG5 编码以及台湾省官方发布的 CNS14649字符集。

通常把中国大陆的中文用户叫做“简体中文用户”,把中国香港及台湾地区的中文用户叫做“繁体中文用户”。

对中华人民共和国《现代汉语通用字表》内的7千多个通用字,和台湾地区的《常用国字标准字体表》(繁体字)进行字形比较的结果是:两表所收相同的字有4786个,字形不同(即中国大陆使用简化字、香港和台湾地区使用繁体字)的有1474字,约占总表的三分之一(31 %)!

再有,《简化字总表》第一表里面的350个简化字(不作简化偏旁用)里面,字形相差甚远、看不出关联性的字,如“出[齣]”(一出昆曲和一齣昆曲)、“丛[叢]”(花丛和花叢)等有90多个,约占此表的四分之一(25.7%)!

此外,对于古典文献的阅读者和研究者说来,古籍印刷的繁体字本跟简体字本在字形上的显著差异,也实在令人头疼。例如简体字《后汉书》跟古字—繁体字《後漢書》三个字竟然完全不同了!

可见,字形差异是“简体中文用户”和“繁体中文用户”在阅读中文内容时感觉困难的根本原因。

“简体繁体编码转换”的方式亟待改进!

目前解决的办法就是通过“简体繁体变换字表”加以“繁简编码转换”。

然而这单纯利用编码转换方式来进行“简体繁体变换”,通常是“一个简体对一个繁体”变换,而实际上往往出现“一对多”或“多对一”的复杂情况;在有不同的意义和不同的“上下文”的时候,所变换的字形应该不一样的。

这就产生的上面所述的繁体字“醜”的简体字是“丑”、而“丑”用作干支的时候却不是“醜”仍是“丑”的一对二的情况。

这些情况不在少数,屡见不鲜。

根本原因在于:简体繁体并非一一对应的!具体的复杂情况,只有各别处理,而绝不能简单按照“一一对应”地进行简体繁体互换!

“一个简体对多个繁体”的简化字,例如“云”,在表示“古汉语动词、助词(例:‘人云亦云’、‘岁云暮也’)”时,才对应繁体字形“云”;在其它义项中(如云雾、云雨、风云、云中君)则对应繁体字形“雲”。

又如“面”字,在表示“食物、粉末”义时,对应的繁体字形是“麵”(麵粉、白麵、莜麦麵);在表示其它义项时,对应繁体字形“面”(面子、表面、面面俱到);

再如“适”字,在作古代人名用字时,对应繁体字形“适”(如南宫适,但“胡适、胡适之”应该转为胡適、胡適之,因为他取名采用了“適者生存”的典故),在其它义项则对应繁体字形“適”(合適、適可而止、適者生存)。

简体字“发”字,在表示动词义(如“发生”)及量词义(如“一发炮弹”)时对应繁体字形“發”;在表示“头发、发肤”之义时,对应繁体字形“髮”。

简体字“胡”,在“胡子”、“络腮胡”这一义项中对应繁体字形“鬍”;在“胡涂”这一义项中对应繁体字形“糊”;在“胡同”这一双音词中对应繁体字“衚衕”;在其它义项则对应繁体字形“胡”。

又如:“卜”对应两个繁体字形“蔔”和“卜”,它只在出现于“萝卜”一词时才对应繁体字形“蔔”,其它情况都对应繁体字形“卜”。

再如:“秋”和“千”都只在“秋千”一词中分别对应繁体字形“鞦”和“韆”;在其它义项,则仍对应繁体字形“秋(秋天)”和“千(千百)”。

……

回忆30年前国家有关负责部门召集会议,讨论制定“简体繁体变换字表”的时候,王选老师和我曾多次提出:必须根据“繁体简体并非一一对应”的实际情况,依其特殊性(如上下文语境)各别解决“编码转换”方式,就是要分类分层次地区别对待;不应该简单采取“繁体简体一一对应”的变换字表。可惜,我们的意见没有得到应有的重视。以至于后来经常闹出笑话来,引发简体繁体汉字转换的误会、误解。于是,多年以前我们就开始跟从周有光先生做了“现代汉字学”的一些探讨,并希望理论结合实践,好好解决中文信息处理的“简体繁体转换”问题。

 

原创粉丝点击