基于文本内容理解的中医药数据基础研究——中医药文献语料库的建设

来源:互联网 发布:js数组中查找指定元素 编辑:程序博客网 时间:2024/04/29 18:35

http://journal.shouxi.net/html/qikan/zgyx/zgzyyxxzz/20079149/zyyxxx/20100108093937831_500494.html

【关键词】  中医药文献;语料库;中文信息库

“中医药文献语料库系统”是汉语语料库建设中的一个分支,是在北京大学计算机语言所开发的“汉语文本切分与词性标注工具”的基础上,利用中医药专业切分词典再次加工而成,是为面向中医药文本内容理解的需要而设计研制的。其中中医药文献语料库是该系统中的基础数据,本语料库根据内容属性分为20个子目,每个子目下又各有细分类,共计四级分类。目前已经部分完成自动分词和词性自动标注的处理工作。

  1  中医药文献语料库的定位

  现代语料库一般可以分为以下4种类型[1]。

  1.1  异质型语料库(Heterogeneous Corpus)
异质型语料库广泛收集和存储各种文字语料,所选语料按其原貌存储。如英国牛津大学计算中心建立的OTA文本档案库。

  1.2  同质型语料库(Homogeneous Corpus)

  同质型语料库选取具有同一属性的语料。例如专门收集与军事有关的文本的美国TIPSTER语料库。国内开发的同质型语料库如国家“七五”重点项目新华社的“新闻语料库”、北京大学计算语言学研究所与富士通公司合作开发的“人民日报语料库”、香港城市大学语言资讯研究中心的中文五地区共时语料库(Linguistic Variety in Chinese Communities)。

  1.3  系统性语料库(Systematic Corpus)

  系统性语料库依据事前确定的选材原则和比例选取语料,这类语料库强调语料选取的系统性、均匀性、合理性和代表性,目的是真实反映一个特定语种或特定范围的语言事实全貌。例如英国BNC语料库、美国布朗大学的BROWN语料库。国内目前开发比较成熟的系统型语料库主要有国家语言文字工作委员会语用所的“现代汉语语料库”、北京语言大学的“现代汉语研究语料库系统”、北京语言大学与香港理工大学合作的“现代汉语语料库”、北京语言大学与清华大学合作的“现代汉语语料库”、清华大学中文系的“清华TH语料库”、中国台湾中央研究院的“平衡语料库”。

  1.4  专用性语料库(Specialized Corpus)

  专用性语料库专门服务于某个特定目的。例如美国卡耐基-梅隆大学为研究儿童心理语言学而建立的CHILDES语料库、为珍藏人文科学重要著作和资料而建立的美国北美人文科学语料库等。

  中医药文献语料库从类型上属于专用性语料库,在语料的收集和处理上,注重语料的专业性、系统性、合理性和代表性。尽可能全面地囊概所有的中医学学科门类,收集相关的中医药专业文献,选择各学科中具有代表性的文献。

  2  中医药文献语料库的设计原则

  中医药文献语料库是专用性语料库,研制开发的主要目的是为了实现中医药文本内容的理解,是建立在北京大学计算语言学研究所的“大规模现代汉语基本标注语料库”基础之上的。因此,在语料收集和加工处理的过程中立足中医药文献的特点,主要参考了“现代汉语语料库加工——词语切分与词性标注规范与手册”[2]。

  为保证语料的系统性与合理性,中医药文献语料库在设计过程中坚持了以下4个方面的平衡:语体之间的平衡;语料在时间分布上的平衡;母本数量与样本数量的平衡;一般著作与经典著作的平衡。力图使语料库成为一个由时间轴、空间轴、学科轴和风格轴构成的四维模型。

  3  中医药文献语料库的结构

  中医药文献语料库以内容作为语料分布的基本原则,分为20大类,每个大类下面又分若干不等的小类。

  语料分布分类情况:中医基础理论、藏象学说、气血津液、经络与腧穴、病因、病机、体质、中医诊法、辨证、辨病、中药、方剂、伤寒与温病、症状、病证、治则治法、著作、人物、机构、地理。

  4  中医药文献语料库的规模

  语料库的规模问题主要从语料库的总规模和每个样本的规模两个层面上考虑。

  自从20世纪60年代美国布朗大学开发的布朗当代美国英语标准语料库(Brown University Standard Corpus of Present-day American English)以来,随着计算机存储容量和处理技术的不断发展,语料库的规模呈几何级数不断扩大。计算语言学界提出了大规模真实文本语料库的概念。从理论上讲,语料库规模过小,覆盖率太低,不足以说明问题,要保证语料库的科学性与合理性,其规模要达到足够大的数量级,语料库规模越大才越能接近自然语言的真实面目。语料库的规模达到一定程度,就能够覆盖绝大多数语言规律。但语料库的规模不可能无限制地扩大下去,总要有个相对的限度,否则语料库就会失去有效控制。

  语料库规模的大小并没有一个绝对的标准,但根据以上语料库语言学的理论,并参考目前国内语料库的规模,中医药文献语料库所依据的文献约1万册,从中抽取了20种样本作为前期开发试验。

  5  中医药文献语料库的工作流程

  构建语料库的第一步是语料搜集,可以利用“中医药古文献保障系统”的电子文档形式的文献资源,或者通过扫描获得电子文档,进行语料搜集。第二步是语料的切词及标记,利用切分词典作为切词标记的前处理,切分词典与自动切分软件相结合,大幅提高了切词标记程序的正确性、客观性,减少其后人力校正的负担。第三步是人工检验,结合中医词典与中医专业知识提供使用者参考来做出正确的判断,完成切词、词类的编修工作。未经加工的语料库只能算作生语料库,应用价值有限。为更有效地利用语料库,从中挖掘所蕴含的中医药知识,必须对语料库进行不同层次的标注,进行自动分词和词性的自动标注,从而生成初级的中医药语料库。

  实施中医药文献的自动切分与标注,需要一个高性能的切分标注软件。目前,北京大学计算语言所开发的通用领域语料的分词与词性标注工具,无论是切分还是标注,其精度都已经达到了国内领先水平。但是,语言信息处理系统也需要专业知识的配合,特别是实现中医药文献有效切分与标注,必须在构建大型中医药专业词典的同时,再根据中医药文献的不同类型的行文风格进行提取归纳,对软件结构及部分规则加以修改,因此,这是一个反复叠加的过程,即:切分-提取-再切分-再提取[3]。与以往的人工标引工作相比,现在采用的全自动标引方法较为客观,避免因人而异产生的歧义,而且极大地减少了工作量。受技术水平的制约,对误切分和误标注的部分,主要采取人工干预的方式进行后期处理。

  6  中医药文献语料库的功能与应用

  6.1  统计

  未经加工的生语料库可以提供基于字符串的检索,例如字频统计等;词性标注语料库可以提供基于词和词性的统计,例如词频统计、词类统计、词长统计、词类共现频率统计等。

  6.2  检索

  目前可以实现的检索方式主要有两种:简单例句检索和上下文关键词检索。简单例句检索是基于字符串的检索,目前采用的是我们自己研制的单句检索软件,可以检索出含有特定连续字符串的所有语句,单独生成一个含有检索结果的文本文件,例如检索出所有含有中医药名词“大黄”的例句。

  6.3  在中医药数字信息化方面的应用

  中医药语言知识库(包括机器词典、语料库、句法规则库等)是实现计算机对中医药古文献文本内容的理解的基础,从而为实现知识发现、人工智能、机器翻译、语义检索等提供数据基础,而其中建设中医药语料库与中医药词典是基础中的基础。在中医药语料库的基础上,可以进行大量的研究工作,如:各种中医专业词典的编撰;为实现中医药语义检索、建立中医本体、非相关文献知识发现等的研究工作提供数据基础;资源共享或转让等。知识表示、知识获取、知识运用是构成人工智能的三大部分。构建中医药文献语料库的目的就在于让计算机能够理解中医药的文本语言,从而为最终实现更加灵活的检索中医药文献知识,以及根据大量的数据进行知识发现奠定基础。我们在未来的3年,将对约1万种中医药文献的非结构化的知识进行结构化处理,让计算机能理解这些专业的中医药文献知识,从而逐步实现中医药文献知识的信息化。
  

【参考文献】
    [1] 冯志伟.中国语料库研究的历史与现状[EB/OL].http://cslp.comp. nus.edu.sg/cgi-win/journal/paper.exe,2006-08-08.

  [2] 俞士汶.现代汉语语料库加工——词语切分与词性标注规范与手册[EB/OL].http://www.icl.pku.edu.cn/icl_groups/corpus/coprus-annotation.htm,2006-06-10.

  [3] 刘 耀,段慧明.非相关文献知识发现的数据基础研究——以中医药古文献语言知识库的构建为例[J].情报杂志,2006,25(9):104-107.

原创粉丝点击