SYSTRAN翻译系统的工作原理
来源:互联网 发布:java 支付宝订单查询 编辑:程序博客网 时间:2024/05/21 20:26
同GAT一样,SYSTRAN的主要部分仍然是一个庞大的双语词典库,里面不仅收进了源语言和目标语言的等值词语,而且包含着原文分析与译文合成过程中需要用到的语法和语义信息。词典库里首先是两部分别容纳单字条目和多字条目的双语词典,从这两部词典里又派生出以下几部词典:
(1)由介词、连词、不规则动词词形、习语中的头两个词等成分组成的高频词典;
(2)把习语和复合名词作为词汇单位处理的”有限语义词典”(Limited Semantics Dictionary)
(3)处理语义相容性与配价的”条件有限语义词典”(Conditional Limited Semantics Dictionary);
(4)分成词根和词尾(英语例外)两部分的主词典。
SYSTRAN的翻译过程可分为5个阶段,即原文输入、主词典查阅、句法分析、转换(Transfer)和译文合成。
输入程序负责装入原文,并在高频词典中查找其中的每一个词。在第二个阶段—— 主词典查阅阶段,机器对高频词典中未查到的词按字母顺序排序,在主词典的词根部分继续进行查找,查到的词回过头来再按原文的词序排列好。如果原文是用俄语或法语等形态变化丰富的语言写成的,那么在进入正式的句法分析阶段以前还要进行形态分析。
原文的句法分析由7个“工作循环”组成:
(1)通过检查相邻词的语法范畴区分同形异义词(homograph)(SYSTRAN为英语确定了83种不同的同形异义词);
(2)通过查找有限语义词典,找出复合词(如blast furnace“高炉”);
(3)通过查找段落标记、连词、关系代词等(亦即基本的短语结构分析),找出词组和短语;
(4)以自右向左扫描的方式,粗线条地分辨句法关系,如形容词与动词的一致、名词对动词的支配、名词与名词的同位排列等;
(5)找出由相连的形容词或名词构成的短语中的并列结构,利用语义标记确定可以接受的连接关系,例如在英语短语smog pollution control中,可以接受的连接关系是smog与pollution,而不是smog与control;
(6)通过首先搜寻限定动词、再搜寻限定动词前尚未被标记为“宾语”或“修饰成分”的名词的方式,找出主语和谓语;
(7)通过首先自右向左搜寻介词、再自左向右搜寻与其相关的名词短语的方式,分辨介词结构。
转换程序包括3个部分:
(1)参考有限语义词典,搜寻在某些情况下有习语译法的词语,例如英语的agree在用被动语态时译成法语的convenir,而在其他情况下则被译成être d’accord;
(2)根据支配介词以及受介词支配的词所带的语义信息翻译介词;
(3)解决余下的歧义问题。一般来说,这要通过特殊词语词典中所载明的测验来进行。
在翻译的最后一个阶段,SYSTRAN的译文合成程序查出原文词语的目标语等值成分,对动词词形和形容词词尾做必要的修正,并重新按排词序(如把英语中形容词在前、名词在后的词序变换成法语的名词在前、形容词在后的词序),从而产生译文。
- SYSTRAN翻译系统的工作原理
- 翻译:浏览器内部的工作原理
- 【翻译】LoadRunner工作原理
- 聊天系统的工作原理
- 系统栈的工作原理
- 系统栈的工作原理
- 系统栈的工作原理
- 系统栈的工作原理
- 系统栈的工作原理
- 系统栈的工作原理
- NAT(地址翻译)的相关概念及其工作原理
- NAT(地址翻译)的相关概念及其工作原理
- 【翻译】Java中HashMap的工作原理浅析
- 图书查询系统的工作原理
- Android系统Recovery模式的工作原理
- Android系统Recovery模式的工作原理
- windows系统的启动工作原理
- Linux系统IP路由的工作原理
- 记录:java的静态元素相关的小内容
- C#高手博客集锦。。。
- 小细节:css文件的导入,关于link type="textcss"的解析
- 责任 欲望 坚持 前瞻 + 创新 = 持续的青年领导力/有朝气的青年领导力
- Android多媒体学习十一:实现仿百度图片查看功能
- SYSTRAN翻译系统的工作原理
- android 权威论坛 集锦。。。
- 递归删除文件和目录
- iphone开发使用NSThread和NSInvocationOperation实现多线程
- 布局管理器——总结
- API Demo MulitiRes 学习
- myeclipse中的classpath
- 关于完美主义和拖沓症
- Swing——用户界面设计