索引

来源:互联网 发布:java堆栈哪个大 编辑:程序博客网 时间:2024/06/06 15:01
《深入搜索引擎》
在索引创建前通常都需要进行适当的转换,在这本书中提到三种转换方式:
1、大小写折叠,这种转换将所有大写字母转化成小写(反之亦然),采用这种转换是为了在数据库查询时不被大小写问题干扰,但是也会有一些弊端。如:ACT,在澳大利亚代表了澳大利亚首都领地(Australian Capital Territory)。ACT和动词act可以说是大相径庭


2、将单词规约到词根,也就是说,去掉单词所有的后缀和其它变体。例如:compression、compressed、compressor都有共同的词根compress。它能够保证即便文档中的词汇形式有所差异,但依然能被检索出来。如果典型术语的创建过程同时使用了词根化操作,而且查询词也做了词根化操作,那么在用“data And compression” 这样的查询检索出的文档中可能包含这样的短语如“compressed data is” 和 “to compress the data”。虽然很难否认这类转化的有用性,但是这种转换事实上已经被广泛采用了


3、停用词转换。停用词被注定为非常普遍的词,如the、a、it。在不同的行业中停用词也有所不同,如:在线计算机手册中option和usage不应该被索引,在金融档案中dollar和stock甚至Dow和Johns都应作为停用词,有时会应用一个自动推到停用词的方法


4、进一步的转换还有同义词转换。例如:fast和rapid能够被准确的识别出来,并且继而把他们都用同一个典型术语来索引
0 0
原创粉丝点击