【转】中医英语语料库建设理论与实践

来源:互联网 发布:印花软件 编辑:程序博客网 时间:2024/04/25 23:48

http://www.oktranslation.com/Cms/Article.aspx?ArticleID=10645

 

谈谈中医英语语料库建设中的理论与实践问题
汪腊萍
上海师范大学外国语学院


摘要:随着中医药对外翻译工作的深入开展及中医英语名词术语英语翻译国际标准化研究的稳步推进,中医英语语料库的建设已经被提到了议事日程。本文分析了建立中医英语语料库的目的,论证了选取语料应遵从代表性、均衡性、结构合理性和取样随机性原则的重要意义,并从语料标注和检索软件的选择方面阐明了建立中医英语语料库可能遇到的一些理论与实践问题。
关键词:中医英语 语料库 理论 实践


1. 问题的提出
近年来,随着中医药对外翻译工作的深入开展及中医英语名词术语英语翻译国际标准化研究的稳步推进,中医英语语料库的建设已经被提到了议事日程。目前在全国不少中医院校和科研单位,一批中医英语翻译工作者已经开始着手研究中医英语语料库的建设问题,提出了不少合理的意见、设想和建议。有些研究工作已经有了实质性的进展。从现有的报道来看,有些地方的中医英语语料库建设已经进入到了具体实施阶段,有些甚至已经初具规模。这当然是令人鼓舞的发展,值得庆贺。

语料库的建设是一个系统工程,绝不是一蹴而就的。其中涉及到诸多技术操作、语料收集和文本分析等重要环节,稍有疏忽,便会暗伏隐患。笔者长期从事英语语言的语料库语言学研究,对中医英语语料库的建设也极为关注。从目前已经发表的一些研究文章来看,中医英语语料库建设还有很长的路要走,还有许多棘手的问题有待解决。目前的进展还是比较基础的,可以说是“万里长征刚刚迈出第一步”。

为了使中医英语语料库在今后的建设中能统筹兼顾,立足实际,科学推进,现根据语料库语言学的基本原理并结合笔者的长期研究,对中医英语语料库建设所涉及的理论与实践问题提出一管之见,供研究者参考,不妥之处,敬请专家学者批评指正。

2. 中医英语语料库建设应遵循的基本原则
语料库的建设必须遵循一定的原则。中医英语翻译虽然是一个独特的学术领域,但其语料库建设与其他专业语料库一样,必须按照明确的建库目的、选取有代表性的语料、兼顾深度和广度的平衡等原则构建语料库。否则,便会陷入无序状态,失却实际操作和应用价值。

下面试对语料库建设的一般原则、程序和方法加以分析介绍,以期为中医英语语料库的建设提供必要的理论指导。

2.1. 建立语料库的目的
建立中医英语语料库的目的,就是为了更好地研究中医英语的文化、语义和文法特点,以便能较完整地观察中医英语的表达特点,较系统地统计中医英语的表现形式,更好地建立中医术语的规范标准,进一步完善中医英语的理论体系,为中医药和中国文化的对外交流奠定语言基础。

所谓中医英语,就是英语语言在中医药对外翻译与交流过程中逐渐形成的一种特殊表达体系,是ESP家族中的一个新成员(李照国,1999)。按照这一定义,中医英语描述的主体应是中医的理论与实践,而描述的语言则是英语。要建立中医英语语料库,首先须根据建库目的来对其加以界定。根据不同的目的, 语料库可以分为:通用语料库、专用语料库、监控语料库、口语语料库、学生英语语料库和平行语料库(杨惠中,2002 )。中医英语这个确定的主题和内容决定了中医英语语料库是一个专门用途语料库,应该收集尽可能包含与中医理论与实践相关的各个领域的语料,这样才能建立满足研究要求的语料库,从各个方面全面阐释中医英语的特点、查询语言特征、检验语言设想、统计词项频率、共现上下文语境、进行纵横项对比分析。

研究者可以利用这一语料库,通过大量的语言实例更客观、全面地显示中医英语的特点和内在规律,研究这一领域内的语言规则系统,在定量分析的基础上进行定性分析,揭示中医英语的语言特点,为中医英语翻译的标准化研究提供客观、真实、大量、检索便捷的语言素材。

2.2. 语料的代表性和均衡性
就学科特质而言,中医英语语料库具有专门用途语料库的基本特点,因此在收集语料时更要注意语料的代表性和均衡性。语料库的代表性是指在该语料库上获得的分析结果可以概括成为这种语言整体或制定部分的特性(Leech, 1998 )。一个样本不足以代表一种特定的体裁或者主题,然而由大量各类样本组成的、有一定语言规模的语料库可以成为一种语言的代表。在建设中医英语语料库的过程中,我们收集的语料应该最大限度地涵盖与建库用途相关的内容,而且还要尽最大可能代表该语料设计时需要反应的总体, 要充分考虑所收集的语料是否能够真正代表中医英语。

中医英语是描述中医理论和实践的规范英语,因而其语料应包括中国古典文籍的英文翻译文本、国内中医文献的英文翻译文本、西方中医英语文本和一定量的中医英语口语翻译转换文本。在建设中医英语语料库的过程中,语料应包括各个领域内的中医理论与实践,如针灸学,方剂学,外科学等等。处于计算机时代的今天,我们可以通过可靠的网站、电子扫描、电子光盘、手工输入等手段收集来自各个方面的语料,如经典著作、权威教材、期刊文章等。

建立语料库要考虑的另一个问题就是均衡问题(Sinclair, 1991),即使专门语料库也不可能避免均衡问题。从理论上讲,只有当语料由一个历史时期中出版的每一件作品组成、由一个作家的全部作品组成、或者由其他的文本总体组成,平衡问题才可以得以回避。但是,实际操作并非如此。也不必如此。因为其一,一个历史时期中出版的每一件作品、或一个作家的全部作品并非都有英文译本;其二,并非每一件作品都可称得上是典型、甚至合格的中医文本。因此在收集资料时,一定要在慎重分析和考察的基础上,对所有具有代表性的医著译本根据历史时期、医学领域、代表人物等等方面确定一定的抽取比例,然后在进行随即抽样。

在建设中医英语语料库之初,我们就要先确立收集哪些领域的语料,以及各个领域语料的比例、口语与书面语的比例、以及口语和书面语内部的比例,等等。在收集中医英语语料库文本的过程中,要注意不同历史时期的文本、不同作者的文本、不同医学领域的文本等等因素的均衡性,还要考虑到口语与书面语的平衡以及其内部的平衡。

大多数早期语料库都偏爱书面语文本,对它们赋予很高的权值,甚至只采集书面语。即使在规模较大的通用语料库,如British National Corpus 中,口语也只占有较小的比例。中医英语现在正处于发展期,书面语是主要的交际方式。但是,建立中医英语语料库的目的是要能全面地阐释中医英语,因而包括一部分口语语料显得尤为重要。中国已建成的口语语料库有《中国学习者英语口语语料库》,其语料来源是全国大学英语考试口语考试部分的实景音像资料。语料涵盖口语考试的三部分内容:教师 - 学生型会晤、学生 - 学生型自由讨论、教师-学生型讨论。由于考试形式限定主题的即兴发言,《中国学习者英语口语语料库》所涵盖的主题比较少,因而在展示学生实际水平方面存在着一定的局限性。鉴于此种情况,在收集中医英语语料库口语资料之前,就要设立好各个中医医学领域的比例,然后收集说英语的中医大夫、带英语留学生的中医大夫或其翻译人员的英语口语,再转换成文本资料。

2.3. 语料的结构合理性和取样随机性
中医英语这一特定的研究领域决定了其语料库中的语料必然主要来自于翻译资料,因而会出现汉语古籍英译资料、中医典籍和文献英译资料、西方中医英语语料,等等。保持中西方所占语料比例的均衡是十分必要的。从理论上讲,我们应尽力做到中西语料应该在数量上相等,结构上相同。但是由于中医理论和实践主要源于中国,实际存在的语料分布情况是由中国人翻译的中医英文语料远远多于西方人写的中医英文语料。因此,在无法达到数量上完全一致的要求时,中西方文字的涉及范围和领域应基本一致。所建语料库是一个可监控语料库,随着中医英语的不断发展,逐渐扩充其覆盖的各个方面。

从某种意义上讲,语料库库容越大,越能全面的反应其语言特点。中医英语的范围十分广泛,从经典著作到教材到期刊到口语资料,我们不可能囊括所有的内容,加之经济、技术等各个方面的原因,我们不可能将中医英语语料库建成无限大,因而我们在建设中医英语语料库之时,就要确定好库容的初步规模。

在把握好采集语料代表性和随机性的基础上,一般以最少 1 千万词次为宜。

语料的取样是建设语料库的保障。在取样过程中,在均衡性和代表性原则的指导下,避免人工的主观选择,采取随机取样原则,以确保所选取的语料能代表中医英语这样一个无限大的总体。

2.4. 语料的整理和标注
对于选定的语料,要标注最基本的背景信息,如语料的作者、译者、时代、标题、字数、来源、分类、文体、语体等参数。对于语料,必须进行标记和整理以方便检索使用。我们可以采用汉语中医语料库的标准标记方法,如对某一类病情采用“病名标识位+科别位+专科别+病名序号位+后缀位”的标记方法(刘耀,周扬,2004 )。

虽然所建成的生语料库可以进行多种语言研究,但是熟语料库(标注后的语料库)从许多方面更便于检索。熟语料库是指对生语料库的内容进行标注,包括词性标注和句法标注。许多大型的语料库都有自己的标注工具和分析工具,中医英语是比较规范的语言,在词性标注方面我们完全可以借用其他语料库的标注和检索工具来标注中医英语语料库。熟中医英语语料库可以提供针对高频词汇、词汇搭配、词块、句法、语用、语篇等多个方面进行研究的原始资料,实现对中医英语进行更细致的描述和更准确的认识。

2.5. 语料库的分析工具
在检索软件方面,大型语料库也有自己开发的检索软件,但是这些软件常常是专门为某个语料库而设计的,不能用于别的语料库。目前所使用的大众语料库检索工具中,由Mike Scott 开发的WordSmith Tools5.0是一套常用的文本检索软件。在分析中医英语语料库时,我们可以使用这个工具。

WordSmith Tools 5.0 主要具备三大功能:检索、词表和主题词。检索功能是最常见、最主要的功能,其主要作用是查询和统计某个或某些词汇或短语在制定文本中出现的频数。WordSmith可以进行简单检索、高级检索和基于文件的检索。简单检索的目的是在文本中检索某个或某些词汇或短语的出现频率,不考虑检索词的语境。高级检索是指在检索过程中对检索词所出现的语境,包括语境跨度和共现词,加以进一步的限定,目的是查找满足一定语境条件的检索词。

中医英语在词汇方面具有很多鲜明的特点,如普通英语词汇特殊化、借用西医用语、通过仿造法生成新词语、通过构词法产生新词汇、借用中医语言等特点(李照国,1999)。通过检索词,可以为中医英语的词汇特点以及其翻译提供规范化研究。利用检索功能,可以在众多同一所指的多个表述中找到最常用的表达方法,为中医英语术语标准化提供事实上的依据。

词表功能所反映的是创建语料库中词汇使用频率以及所有文本的总体特征。词表功能列出的不仅是单词也可以是词块。通过统计中医英语语料库中出现的高频词汇和核心词汇,可以为编撰中医英语方面的教科书以及词典等提供有力的素材。而主题词功能是研究文本内容和文本语言特征差异的重要手段,主题词指频率显著高于或者低于参照语料库中对应词频率的词汇。通过主题词功能,可以把观察语料库中的词频与参照语料库中的词频进行比较,从而确定这个语料库与参照语料库之间用词等方面存在的差异,为研究观察语料库的篇章特点提供很好的数据。

以上理论和方法的综合运用和有机结合,必将为中医英语语料库的建设在翻译以及词汇、句法、语篇等的分析并论证等方面提供便利。

3. 结论
中医英语语料库建设是一个新生事物,自然有一个从理论研究到实践操作、从不甚完善到比较完善这样一个发展过程。在这个过程中,如果我们能按照一定的科学原则和方法规范我们的实践,指导我们的研究,更新我们的思维,开阔我们的视野,那么我们的研究就会有则(原则)可循,有法(方法)可依,我们的实践就会方向明确,推进有序。能如此,则中医幸甚,中医译事幸甚,中医英语语料库建设幸甚!

有人曾认为中医翻译是个世界难题。然而,经过中外译者的不懈努力,这个世界难题正在变成一个世界议题。通过国际间的不断交流、合作和研讨,共识不断形成,进展不断加快。仅仅在30年前,人们还在为中医的“心火”、“肾水”等概念的翻译而大伤脑筋。然而,现在我们不但有了中医基本名词术语英语翻译的国家标准,而且有了国际标准。这个发展可谓神速。之所以神速,是因为世界人民需要,国际交流需要。

随着中医走向世界步伐的加快和中医英语翻译研究的深入开展,中医英语语料库的建设已成为各方关注的热点问题。在中医走向世界的历史进程中,中医语料库的建设必将发挥夯实基础、坚实桥梁的作用。

具有这样重要作用的系统工程,必然吸引越来越多的研究人员投入其中,也必然会因此而大大加快其发展的步伐。在这个过程中,如果我们能按照科学的理论和方法扎实推进,则必然会收到事半功倍的效果。这也是笔者不揣浅陋,撰写本文的基本出发点。

(摘自2008世纪翻译大会论文集)

原创粉丝点击