知识相关度的计量研究—以“国共合作”本体为例

来源:互联网 发布:hadoop java home 编辑:程序博客网 时间:2024/06/04 18:06

知识相关度的计量研究以“国共合作”本体为例

马费成,罗志成,曾杰

(武汉大学信息资源研究中心,武汉430072)

 

摘要:本体是表示知识相关性的工具之一。但是本体的若干缺陷限制了其在相关性表示中的应用。对此,本文基于一个大型的领域本体“国共合作”历史领域本体,开展了知识相关度的计量实验。该实验计算了若干种计算语言学的相似度度量方法与真人判断结果的相关系数,进而比较了各种方法在知识相关度量方面的效果。同时,结果表明此类度量方法能够弥补本体在表示相关性时的缺陷。

关键词:知识相关性,“国共合作”本体,语义度量

 

Quantitative Study of Knowledge Relevance—Taking GGHZ Ontology for Example

Ma Feicheng, Luo Zhicheng, Zeng Jie

(Center for Studies of information ResourcesWuhan University , Wuhan 430072 )

 

Abstract: Ontology is one of the tools that express the relevance of the knowledge. However, several defects restricted their application in the knowledge relevance. Based on large domain ontology - GGHZ (GuoMingDang - GongChanDang Cooperation) history domain ontology, this paper describes a measurement experiment of knowledge relatedness. The experiment measures the correlation coefficient of some computational linguistics methods and the similarity of human judge, and then compares measurement’s effectiveness of various methods in the knowledge related. These results also show that the relatedness measurements can make up the defects of ontology while expressing knowledge relevancy.

Keywords: Knowledge Relevance, GGHZ Ontology, Semantic Measurement

 

1、引言

       知识相关性是情报学中重要的研究领域之一。布鲁克斯从波普尔三个世界理论出发,提出情报学的任务是分析和组织客观知识[1]。而马费成教授认为情报在知识系统中的相关性,对情报的组织、存储、检索具有特殊的意义[2]。知识相关性并不仅停留于理论,而且是以各种知识系统表现出来,譬如说本体。作为一种重要的知识表示方式,本体 (Ontology)已经在知识表示、语义网、信息检索等相关领域得到了广泛关注和深入研究,被广泛应用以解决通信、异构环境互操作和系统工程中的知识重用和共享、知识获取和系统集成等问题[3]

但是,中文领域自动建库技术尚不成熟,领域本体的构建对领域专家的依赖性比较强,由此带来了领域本体构建的偶然性和主观性。现有研究没有提出有效的方法来弥补这种偶然性和主观性所带来的本体精确度的降低。另外,目前国内学者提出了多种本体检索结果的排序方法[4][5],但这些算法的提出都是建立在一些小型的本体之上的,并没有在大型的本体上进行有效的验证。

基于此,本研究在“国共合作”大型领域本体中开展了知识相关度的计量实验。该实验将计算语言学中的相似度度量方法引入到本体领域,计算了各种度量方法与真人判断结果的相关系数。实验结果表明计算语言学的度量方法能够比较准确地反映概念之间的相关程度,也为优化本体检索结果排序提供了可能。同时,采用实验中所采用的相关度度量方法,引用外部资源或者直接以现有本体库为计算对象,可以检验本体的准确性,提高本体构建的精确性。

 

2、本体在表示知识相关方面存在的问题

当人们判断知识的相关度的时候,主要关注三个问题:第一个是知识是否相关,第二个是知识相关程度的大小,第三个是知识之间是什么样的关系。在检索领域研究的相关,主要是关注前面两个问题,即是否相关和多大程度相关。本体作为一种知识表示的方法,更关注于第一个问题和第三个问题,即是否相关和何种相关。笔者认为,这种差别是检索相关性和知识相关性之间的重要差异之一。

本体能够描述知识单元之间的关系,这是本体的优势所在。但是,本体技术尚存在着若干缺陷:

(1)本体是一种昂贵的资源。开发一个本体需要相关的专家参与,时间紧张并仔细斟酌语言。一旦开发出一个本体,更新本体又需要精力。因为这些困难,目前开展的很多研究都仅仅是基于某个领域的一个很小的本体库开展的实验,说服力也相对减弱。

(2)不可能存在完美的本体,使得部分相关性无法表示。本体的应用优势在于它能为人们提供精确的知识。但是人类知识极为复杂性,这使得人们无法开发一个完美的本体,甚至接近完美也不可能。然而,只有当知识间的关系在本体内明确的标出后,本体的推理方法才能正确识别这种语义相关。例如说,某些单词间存在特殊的关系,猫和老鼠,医生和手术刀等等。这些单词之间并没有属性间相似,但是猫总是捕食老鼠,医生总是用手术刀作切口。例如说,如果本体中没有标出医生与手术刀之间的主体-器械关系,那么本体方法无法识别出医生和手术刀是相关的。这实际上与人们的愿望相违背,从而说明单纯的推理方式存在缺陷。

(3)单纯的推理方法无法实现对结果的排序。推理机总是依据一定的规则得到相应的结果,但是却无法对多个结果进行相关度的排序。

如果愿意投入足够的时间与精力,那么本体的第一个缺陷是可以解决的。但是,第二个缺陷是本体的固有缺陷,需要方法上的创新才能部分解决。我们有必要回到第一个问题和第二个问题,即是否相关和多少相关。第三个方法则只能用量化的方法来解决。在计算语言学领域,学者已经提出了多种方法来判断概念之间的相似度[6][7]。那么,能否采用若干计算语言学的方法来弥补本体的上述缺陷呢?又该如何弥补上述缺陷呢?为了检验此疑惑,本研究在“国共合作”历史领域本体中开展了知识相关性实验。

 

3、“国共合作”历史领域本体简介

“国共合作”历史领域本体是武汉大学信息管理学院董慧教授主持的“基于本体的数字图书馆检索模型研究”自然科学基金项目的成果之一[8][9][10][11]。该本体描述了从五四运动开始一直到2006年连战访问大陆的这段历史时期涉及的概念、术语、关系、个体。其中包括以“国共合作”为轴线涉及的人物、组织、事件、资源等,以及政治、经济、文化教育、军事等多学科领域知识。同时,以此本体库为基础,董慧教授等人开发了GGHZ-DL(Guo-Gong-He-Zuo Digital Library)系统。

“国共合作”历史领域本体库是目前国内已知的最大的人文社会科学领域的本体库。其中包含了167个本体类、108个关系属性、100个推理属性和13142个实例,其中事件本体实例761个,资源本体实例678个,组织本体实例951个,人物本体实例1712个,地点本体实例1361个,时间本体实例3361个,角色类实例2838个,其他类实例1480个。

在该本体库中,知识以三元组的方式存储,多个三元组组成了一个RDF图。如果忽略本体库中那些定义类和属性的三元组,我们可以将本体理解为一个由实例集合和实例与实例之间关系集合所组成的网络,其中实例对应于网络中的节点,而实例与实例之间的关系对应于将节点和节点连接起来的边,如图1所示。我们后续实验中所有的计算过程都基于这样一个从本体库中抽取出来的网络,我们称之为网状结构。在这样一个网状结构中,连接两个节点的边对应于本体库中的两个实例之间的联系,而本体对概念之间的联系作了详细的限定与区分。

 

1 “国共合作”本体中“毛泽东”与“蒋介石”关系示意图,该图来源于GGHZ-DL系统[9]

 

4、相关度度量方法

4.1 现有研究简介

       在此领域本体基础上,我们选择若干合适的方法来计算知识相关度。计算语言学领域对于概念的语义相似性的研究由来已久,很多学者也都提出了自己的方法。从概念或语义角度计算相似度,大致可以分为两种方法:统计方法和语义词典的方法。Budanitsky2006的一篇综述性文章中[6],总结了各种基于语义词典(包括叙词表、WordNet等)的方法,Mohammad[7]则在2005年的一篇文章中总结了各类统计方法。语义词典和本体都可视为知识相关性的直接产物,而Mohammad更是将基于语义词典的方法统称为Ontology-Based measures所以,本研究主要借鉴了各种基于语义词典的语义相似度量方法。

       根据文献[12]的总结,基于语义词典的各类方法考虑的因素可分为三大类:考虑结构特点(包括最短路径长度、局部网络密度、节点在层次中的深度和连接的类型)、考虑信息量和利用概念释义。下边我们根据“国共合作”本体的特点,选择适合的度量方法。在“国共合作”本体中,没有包含概念节点的信息量,所以考虑信息量的方法无法实施。而如果把每个实例的各个属性的值作为该实例的释义,那么可以采用释义重叠的方法来计算相关度;如果从实例的网状结构中抽取出树状结构,那么可以利用结构特点的相关度计算。另外,为了与上述利用释义和利用结构的方法相比较,我们开展了若干对比实验。

 

4.2 基于释义重叠法和Hirst-St-Onge算法的计量实验

释义重叠法(Gloss Overlap)是Lesk[13]1986年提出的。该模型的基于如下假设:两个单词的释义词汇集重叠程度越高,则表明这两个单词越相似。另外,借鉴HirstSt-Onge的思想[14],本文提出如下假设:在一个概念的释义之中包含有另外一个概念,则两个概念之间具有较强的联系。

本体描述了概念之间明确的语义关系,例如部分-整体连接。但这种连接并不涵盖概念之间所有可能的关系。举例来说,虽然“抗日战争”和“论持久战”有明显关系,但是本体内它们之间没有直接的连接。但是据我们观察所得,这两个概念的释义之间共通之处。类似于Lesk的假设,我们认为,这种重叠现象表明概念之间有一个隐含的关系。而因为概念的名称对于表示概念具有重要的作用,所以某个概念的名称,如“毛泽东”,出现在另一个概念的释义中,如“蒋介石”的释义,则认为两者有较强的关系。因为主要还是利用了Lesk的思想,所以下文以“释义重叠”来概称此种方法。

实际计算中,我们开展了如下三次实验:

(1)     采用简单的最大串匹配,计算出两个释义中重叠的串。

(2)     采用分词软件对释义分词之后,再计算出重叠的词语的数量。本研究采用的是中国科学院计算技术研究所发布的ICTCLAS-3系统。

(3)     上述两次试验中,我们是将概念所有的属性值作为整体进行比较,而此次试验中将属性值分开,认为每一个属性值都是一个子释义,再用释义重叠方法计算各个子属性之间的相关度。

 

4.3 基于树状结构的计量实验

之前基于语义词典来度量相似度或相关度的研究,不论是在WordNet[6],还是在《同义词词林》[12]中,都是利用概念的树状结构,即利用概念之间的上下位关系进行计算。富有代表性的算法有Wu-Palmer[16]Leacock-Chodorow[17]的相似度计算公式,分别为:

          (1)

                                                      (2)

其中表示两个概念,表示两个概念的最近共同父节点,函数表示两个概念的最短路径,函数表示概念节点在树状层次结构中的深度。

而“国共合作”本体中,实例之间通过各种属性构成了一张纷繁复杂的网络(如图1所示)。为了能够采用语义相似度的度量方法,本文借鉴裘江南[15]等提出的提取方法,从本体的网络中依据属种属性提取了树状层次结构。

 

 

4.4 若干对比实验

为了与上述算法的度量结果相比较,本研究同时设计了若干对比实验。第一,我们在通用的语义词典或通用本体中计算概念对的相关性。本文使用了哈尔滨工业大学提供的《同义词词林》扩展版[18],中科院刘群开发的基于《知网》的相似度计算包[19]。如果在《词林》中无法找到相应的概念,那么就假设其相关度为0。第二,因为互联网可以视为一个巨大的语料库,通过搜索引擎所找到的文章总数,间接的表示了概念对的互信息,所以可以利用搜索引擎来同时检索两个概念,以结果的数量来度量两个概念在文本中共现概率,由此来度量二者的相关度,这类方法称为Normalize Google Distance (NGD)[20]。本文使用的搜索引擎是Google。第三,GGHZ-DL系统[6]中,提供了两个节点之间连接的“深度”,实际上即网络中两个节点间最短连接路径。这实际上也是一种利用网络结构的相关度度量方法。

 

5、实验与结果分析

       关于如何评估语义相关度的度量方法,Budanitsky[6]总结了通用的三种方法:从理论上检查一个方法是否具备必要的数学性质;将机器计算结果和人的判断相比较;根据在特定应用背景中的表现来评估各种方法。本研究采用第二种方法来分析各种语义度量方法。

 

5.1 单词对相关判断比较

在实验室环境下,利用真人作为受试者来判断语义相关程度的实验已经开展过。借鉴Rubenstein-Goodenough[21]实验和Miller-Charles[22]实验,实验者人工挑选30国共合作本体中的概念节点,然后制作成在线调查问卷;请51名受试者对30对概念节点主观地进行相关程度的判断;求得调查结果的平均值,以此作为真人实验的结果。通过比较系统计算得到的结果与真人判断结果的相关系数来评价各种度量方法。

2中,Human列表示是真人判断的结果,HowNet为《知网》中计算的结果,TYCCL为《同义词词林》扩展版中计算的结果,NGDNormalize Google Distance算法的结果,GGHZGGHZ-DL系统得到的最短路径WuPWuPalmer算法的结果,LchLeacockChodorow算法的结果,Lesk1是直接用最大串匹配算法求得的释义重叠相关度,Lesk2是分词之后求得的词语重叠度,Prop是比较概念的各个属性间的释义重叠度的结果。

 

2       概念对的真人判断和系统计算结果

编号

概念1

概念2

Human

HowNet

TYCCL

NGD

GGHZ

WuP

Lch

Lesk1

Lesk2

Prop

1

重庆谈判

蒋介石

3.514

-1.000

0.000

0.266

1.000

0.200

0.405

0.737

0.753

0.595

2

毛泽东

蒋介石

3.413

1.000

2.303

0.076

0.500

0.500

0.693

0.925

0.951

1.235

3

张学良

杨虎城

3.386

1.000

0.000

0.077

0.500

0.800

1.609

0.900

0.812

1.444

4

论持久战

抗日战争

3.259

-1.000

0.000

0.209

0.000

0.222

0.357

0.928

1.029

1.529

5

淮海战役

中国共产党

3.185

1.000

0.000

0.261

0.250

0.200

0.223

0.069

0.070

1.115

6

南京国民政府

孙中山

3.185

-1.000

0.000

0.239

0.330

0.222

0.357

0.156

0.051

0.285

7

井冈山

江西

2.858

-1.000

0.105

0.473

0.500

0.400

0.511

0.204

0.368

1.067

8

宋子文

宋美龄

2.848

1.000

0.000

0.124

1.000

0.667

1.253

0.506

0.453

1.477

9

井冈山会师

秋收起义

2.815

1.000

0.000

0.043

0.330

0.364

0.539

0.274

0.274

0.876

10

西安事变

七七事变

2.782

-1.000

0.000

0.310

0.250

0.400

0.511

0.209

0.217

0.911

11

张自忠

国民党

2.715

-1.000

0.000

0.350

0.200

0.200

0.223

0.831

0.763

1.217

12

叶挺独立团

皖南事变

2.715

1.000

0.000

0.165

0.330

0.200

0.223

0.230

0.027

0.748

13

台儿庄会战

平型关战役

2.667

1.000

0.000

0.116

0.250

0.727

1.386

0.177

0.208

0.819

14

国民党

中国同盟会

2.630

0.800

0.000

0.288

0.500

0.800

1.609

1.204

1.287

1.631

15

日本关东军

张学良

2.448

1.000

0.000

0.139

0.250

0.182

0.288

0.322

0.315

0.408

16

共青团中央

中共中央委员会

2.407

1.000

0.000

0.214

0.000

0.800

1.609

0.292

0.167

0.843

17

抗日战争

解放战争

2.355

-1.000

2.303

0.141

0.000

0.800

1.609

0.334

0.100

1.000

18

延安

共产国际

2.333

0.119

0.105

0.304

0.500

0.222

0.357

0.000

0.000

0.500

19

加美援华医疗队

印度援华医疗队

2.111

1.000

0.000

0.208

0.000

0.750

1.386

0.516

0.570

1.097

20

马英九

蒋介石

1.926

-1.000

0.000

0.263

0.000

0.444

0.693

0.303

0.228

1.279

21

孙中山

中国共产党

1.889

-1.000

0.105

0.369

0.330

0.222

0.357

0.182

0.183

0.298

22

九一八事变

南昌起义

1.852

1.000

0.000

0.156

0.250

0.600

0.916

0.073

0.047

0.675

23

叶挺

汪精卫

1.822

1.000

0.000

0.094

0.500

0.600

0.916

0.260

0.208

0.296

24

康有为

孙中山

1.691

-1.000

0.000

0.162

0.330

0.444

0.693

0.133

0.140

1.113

25

遵义会议

蒋介石

1.552

-1.000

0.000

0.275

0.250

0.222

0.357

0.251

0.264

0.248

26

日本关东军

王若飞

1.373

1.000

0.000

0.258

0.250

0.182

0.288

0.000

0.000

0.000

27

第五次反围剿

张学良

1.152

1.000

0.000

0.176

0.250

0.143

0.405

0.177

0.142

0.502

28

毛泽东

黄埔军校

1.074

-1.000

0.000

0.263

0.330

0.200

0.405

0.342

0.388

0.468

29

湖南

东京

0.731

0.907

0.693

0.678

0.330

0.600

0.916

0.000

0.000

0.500

30

马英九

秋收起义

0.556

-1.000

0.000

0.220

0.000

0.182

0.288

0.091

0.045

0.546

 

5.2 各种方法的结果分析

比较系统计算得到的结果与真人判断结果,使用SPSS统计软件求得每个度量方法的结果与真人判断结果的相关系数,如表3所示。

 

3  系统计算结果与真人结果的相关系数

方法

相关系数

方法

相关系数

HowNet

0.059

Lch

0.119

TYCCL

0.114

Lesk1

0.538

NGD

-0.307

Lesk2

0.505

GGHZ

0.357

Prop

0.524

WuP

0.135

 

 

 

从表3中可知,《知网》与《词林》的计算结果与真人判断结果的相关系数很低,主要原因在于本文中的概念对都是领域知识,而《词林》和《知网》包含的都是通用知识,使得很多概念都无法在《知网》和《词林》中找到。NGD方法的结果仍然偏低,主要原因在于搜索引擎返回的搜索结果总数只是一个估计值。上述三个对比实验的结果也说明了建立领域本体的必要性。

3表明利用树状结构的方法结果较差。因为各种基于词典的算法,包括Wu-Palmer算法和Leacock-Chodorow算法都是利用相似度来推断相关度,从而利于计算各种概念之间的相似程度,但在计算概念之间的相关度时存在偏差。在依据属种属性提取树状结构的过程中,人为的将本体不相同的类的实例分开。这些概念往往处在不同子树中,概念之间的最短路径相对过长,计算出来的结果欠合理。

从表3中可知,在释义重叠方法中,效果最好的是Lesk1,即简单的最大串匹配。同时Lesk1也是所有方法中相关系数最高的,说明这种方法较好的反映了概念之间的隐含关系。Lesk2的结果表明,分词之后的效果反而降低了,因为分词系统将某些较长的意义单元分割开了,譬如说:“中共六大”、“湖南第一师范学校”等等。而分割属性的方法(Prop)效果也并不明显。

 

5.3 对本体缺陷的弥补

       2章中列举了若干本体在表示知识相关方面的缺陷,那么定量方法是否弥补了本体的缺陷呢?在定量方法中,因为结构方法的结果较差,所以此处不再分析;而释义重叠方法的三次实验相差不大,所以此处只选择第一次实验的结果;GGHZ-DL系统的结果反映了本体库的特征,所以纳入分析中。图3中是真人判断、释义重叠方法、GGHZ-DL系统的概念对相关度散点图。

对于本体的第一个缺陷,可以通过本体的半自动建库弥补。实验中发现,两个概念的重叠的释义,隐含了两个概念之间的具体关系。我们可以用释义重叠方法来寻找概念之间的隐含关系,从而辅助半自动建库。

接着分析对本体第二个缺陷的弥补。在GGHZ-DL系统中,通过仔细分析表2每对概念对的连接路径,研究发现本体的确有助于发掘隐含知识,譬如说:“皖南事变”与“叶挺独立团”的关系。叶挺是叶挺独立团的团长,同时叶挺是皖南事变的参与者,从而“皖南事变”与“叶挺独立团”存在着联系。

 

3 真人判断、释义重叠方法1GGHZ-DL系统的概念对相关度散点图

 

但是,正如前文所言,不存在完美的本体,“国共合作”本体库也并非完美。本体库中缺失的关系和不精确的关系使得GGHZ-DL系统在度量相关度时效果相对较差。譬如,如下关系在本体库中缺失:“论持久战”与“抗日战争”、“共青团中央”与“中共中央委员会”、“抗日战争”与“解放战争”、“加美援华医疗队”与“印度援华医疗队”、“马英九”与“蒋介石”、“马英九”与“秋收起义”。着也就使得两者没有路径相连,从而无法判断两个概念之间的联系。

另外,本体库中包括若干不精确的关系,例如以下概念对是通过“中国”相连接:“西安事变”与“七七事变”、“九一八事变”与“南昌起义”、“遵义会议”与“蒋介石”、“第五次反围剿”与“张学良”、“康有为”与“孙中山”、“张自忠”与“国民党”、“日本关东军”与“王若飞”、“台儿庄会战”与“平型关战役”、“叶挺”与“汪精卫”。这种关联实际上是不精确的,也并没有满足人们对于精确知识的需要。

相比而言,释义重叠方法的效果相对较好。在最相关的概念对和最不相关的概念对的判断上,和真人结果比较接近。对于“国共合作”本体库中缺失的关系,释义重叠方法的计算结果明显要优于GGHZ-DL系统的结果,后者所有的相关度都被记作0。这也证明量化方法部分弥补了本体的第二个缺陷,即虽然不能回答是什么样的关系,但是只是可以回答有多大程度的相关。

至于最后一个缺陷,上文中所有的量化方法都给出了答案:通过比较概念间相关度的相对大小则可以实现检索结果的排序,从而优化了本体推理结果。实验所释义重叠方法计算出来的概念之间的相关度与人判断的相关度之间的拟合程度要大于单纯依靠本体推理所计算出来的结果,这为优化本体检索结果排序提供了可能。

 

5.4 实验的局限性

虽然通过真人的判断来评估语义相似度或相关度算法是一种理想方法,但在实际中,可用的数据非常不充足。并且,创建一个足够大的词汇对集合,并且得到人对它相似度的判断将是一项非常庞大的工作。所以,我们应该建立某个真实需求的实验环境。此环境偏重于对每个目标词汇意义的选择,而不会偏重于受试者对词汇意义的主观判断。我们下一步的研究将把知识相关度的计算方法引入到本体的半自动建库中,并在此过程中比较各种度量方法的优劣性。

 

6、结论

       综上所述,本研究在“国共合作”本体中开展了知识相关度的计量实验。实验结果表明计量方法能够部分弥补本体在表示知识相关度方面的缺陷,并且通过对比实验,找出了较好的计量方法。下一步的工作中,通过与语义词典中实验的比较,我们将仔细分析结构方法不适用于本体的原因。另外,我们计划计量方法引入到本体的半自动建库中。

 

参考文献:

[1] 马费成. 论布鲁克斯情报学基本理论. 情报学报. 19832(4)314-324.

[2] 马费成. 论情报学的基本原理及理论体系构建. 情报学报. 2007, 26(1):3-13.

[3] 邓志鸿, 唐世渭, 张铭等. Ontology研究综述. 北京大学学报(自然科学版). 200238(5):730-738

[4] 朱礼军,陶兰,刘慧. 领域本体中的概念相似度计算. 华南理工大学学报(自然科学版). 2004, 32(S1):147-150.

[5] 聂卉,龙朝晖. 结合语义相似度与相关度的概念扩展. 情报学报. 200726(5):728-732.

[6] Budanitsky A, Hirst G. Evaluating WordNet-based Measures of Lexical Semantic Relatedness. Computational Linguistics. 2006, 32(1):13-47.

[7] Mohammad S, Hirst G. Distributional measures as proxies for semantic relatedness. In submission. 2005,http://www.cs.toronto.edu/compling/Publications.

[8] 董慧,杨宁,余传明等. 基于本体的数字图书馆检索模型研究()——体系结构解析. 情报学报. 2006, 25(3):269-275.

[9] 董慧,余传明,姜赢等. 基于本体的数字图书馆检索模型研究()——语义信息的提取. 情报学报. 2006, 25(4):451-461.

[10] 董慧,余传明,杨宁等.基于本体的数字图书馆检索模型研究()——历史领域资源本体构建. 情报学报. 2006, 25(5):564-574.

[11] 董慧, 余传明, 徐国虎等. 基于本体的数字图书馆检索模型研究()——历史领域知识推理机制. 情报学报. 2006, 25(6):666-678.

[12] 裘江南,罗志成. 基于《同义词词林》扩展版的语义相关度量方法比较. 投递中.

[13] Lesk M. Automatic Sense Disambiguation Using Machine Readable Dictionaries: How to Tell a Pine Cone from an Ice Cream Cone. In Proceedings, Fifth International Conference on Systems Documentation (SIGDOC ’86), 1986.

[14] Hirst G, St-Onge D. Lexical chains as representations of context for the detection and correction of malapropisms. In Christiane Fellbaum, editor, WordNet: An Electronic Lexical Database. The MIT Press, Cambridge, MA, chapter 13, pages 305–332, 1998.

[15] 裘江南, 姚永祥, 仲秋雁. XTM的主题相关度的量化机制研究. 情报学报. 2007, 26(3):332-338.

[16] Wu Zhibiao, Palmer M. Verb semantics and lexical selection. In Proceedings of 32nd Annual Meeting of the Association for Computational Linguistics, 1994.

[17] Leacock C, Chodorow M. Combining local context and WordNet similarity for word sense identification. In Christiane Fellbaum, editor, WordNet: An Electronic Lexical Database. The MIT Press, Cambridge, MA, chapter 11, pages 265–283, 1998.

[18]《同义词词林》扩展版. http://www.ir-lab.org/

[19] 刘群, 李素建. 基于《知网》的词汇语义相似度计算.中文计算语言学.2002, 7(2):59-76.

[20] Rudi Cilibrasi, Paul Vitanyi. The Google Similarity Distance. IEEE Transactions On Knowledge And Data Engineering. 2007, 19(3):370-383

[21] Rubenstein, H, Goodenough J. Contextual correlates of synonymy. Communications of the ACM, 1965, 8(10):627–633.

[22] Miller G, Charles W. Contextual correlates of semantic similarity. Language and Cognitive Processes. 1991, 6(1):1–28.

 

 



[1]作者简介:马费成,男,武汉大学信息资源研究中心主任、教授,主要研究方向:信息经济与信息资源管理、情报学理论与方法。罗志成,男,硕士研究生,主要研究方向为信息检索,Emailluozhicheng.dut@gmail.com。曾杰,男,硕士研究生。

原创粉丝点击