SYSTRAN翻译系统的工作原理

来源：互联网发布：java 支付宝订单查询编辑：程序博客网时间：2024/05/21 20:26

与其前身GAT相比，SYSTRAN在语言学基础方面没有多少改进，但在计算技术方面则有显著的进步，这主要是指它的模块化程序设计而言。该系统主要有两类程序，即系统程序和翻译程序。系统程序是一些控制与实用程序，用汇编代码写成，与特定的语言无关。翻译程序被分成许多阶段，每个阶段都单独有自己的程序模块。用于源语言分析和目标语言合成的翻译程序在一定程度上独立于原文和译文所用的具体语言，这种模块化的设计使开发人员能够方便地引入新的分析技术，修改翻译过程的任何一部分，而不太至于破坏系统的整体效能。

同GAT一样，SYSTRAN的主要部分仍然是一个庞大的双语词典库，里面不仅收进了源语言和目标语言的等值词语，而且包含着原文分析与译文合成过程中需要用到的语法和语义信息。词典库里首先是两部分别容纳单字条目和多字条目的双语词典，从这两部词典里又派生出以下几部词典：

（1）由介词、连词、不规则动词词形、习语中的头两个词等成分组成的高频词典；

（2）把习语和复合名词作为词汇单位处理的”有限语义词典”（Limited Semantics Dictionary）

（3）处理语义相容性与配价的”条件有限语义词典”（Conditional Limited Semantics Dictionary）；

（4）分成词根和词尾（英语例外）两部分的主词典。

SYSTRAN的翻译过程可分为5个阶段，即原文输入、主词典查阅、句法分析、转换（Transfer）和译文合成。

输入程序负责装入原文，并在高频词典中查找其中的每一个词。在第二个阶段—— 主词典查阅阶段，机器对高频词典中未查到的词按字母顺序排序，在主词典的词根部分继续进行查找，查到的词回过头来再按原文的词序排列好。如果原文是用俄语或法语等形态变化丰富的语言写成的，那么在进入正式的句法分析阶段以前还要进行形态分析。

原文的句法分析由7个“工作循环”组成：

（1）通过检查相邻词的语法范畴区分同形异义词（homograph）（SYSTRAN为英语确定了83种不同的同形异义词）；

（2）通过查找有限语义词典，找出复合词（如blast furnace“高炉”）；

（3）通过查找段落标记、连词、关系代词等（亦即基本的短语结构分析），找出词组和短语；

（4）以自右向左扫描的方式，粗线条地分辨句法关系，如形容词与动词的一致、名词对动词的支配、名词与名词的同位排列等；

（5）找出由相连的形容词或名词构成的短语中的并列结构，利用语义标记确定可以接受的连接关系，例如在英语短语smog pollution control中，可以接受的连接关系是smog与pollution，而不是smog与control；

（6）通过首先搜寻限定动词、再搜寻限定动词前尚未被标记为“宾语”或“修饰成分”的名词的方式，找出主语和谓语；

（7）通过首先自右向左搜寻介词、再自左向右搜寻与其相关的名词短语的方式，分辨介词结构。

转换程序包括3个部分：

（1）参考有限语义词典，搜寻在某些情况下有习语译法的词语，例如英语的agree在用被动语态时译成法语的convenir，而在其他情况下则被译成être d’accord；

（2）根据支配介词以及受介词支配的词所带的语义信息翻译介词；

（3）解决余下的歧义问题。一般来说，这要通过特殊词语词典中所载明的测验来进行。

在翻译的最后一个阶段，SYSTRAN的译文合成程序查出原文词语的目标语等值成分，对动词词形和形容词词尾做必要的修正，并重新按排词序（如把英语中形容词在前、名词在后的词序变换成法语的名词在前、形容词在后的词序），从而产生译文。