索引
来源:互联网 发布:java堆栈哪个大 编辑:程序博客网 时间:2024/06/06 15:01
《深入搜索引擎》
在索引创建前通常都需要进行适当的转换,在这本书中提到三种转换方式:
1、大小写折叠,这种转换将所有大写字母转化成小写(反之亦然),采用这种转换是为了在数据库查询时不被大小写问题干扰,但是也会有一些弊端。如:ACT,在澳大利亚代表了澳大利亚首都领地(Australian Capital Territory)。ACT和动词act可以说是大相径庭
2、将单词规约到词根,也就是说,去掉单词所有的后缀和其它变体。例如:compression、compressed、compressor都有共同的词根compress。它能够保证即便文档中的词汇形式有所差异,但依然能被检索出来。如果典型术语的创建过程同时使用了词根化操作,而且查询词也做了词根化操作,那么在用“data And compression” 这样的查询检索出的文档中可能包含这样的短语如“compressed data is” 和 “to compress the data”。虽然很难否认这类转化的有用性,但是这种转换事实上已经被广泛采用了
3、停用词转换。停用词被注定为非常普遍的词,如the、a、it。在不同的行业中停用词也有所不同,如:在线计算机手册中option和usage不应该被索引,在金融档案中dollar和stock甚至Dow和Johns都应作为停用词,有时会应用一个自动推到停用词的方法
4、进一步的转换还有同义词转换。例如:fast和rapid能够被准确的识别出来,并且继而把他们都用同一个典型术语来索引
在索引创建前通常都需要进行适当的转换,在这本书中提到三种转换方式:
1、大小写折叠,这种转换将所有大写字母转化成小写(反之亦然),采用这种转换是为了在数据库查询时不被大小写问题干扰,但是也会有一些弊端。如:ACT,在澳大利亚代表了澳大利亚首都领地(Australian Capital Territory)。ACT和动词act可以说是大相径庭
2、将单词规约到词根,也就是说,去掉单词所有的后缀和其它变体。例如:compression、compressed、compressor都有共同的词根compress。它能够保证即便文档中的词汇形式有所差异,但依然能被检索出来。如果典型术语的创建过程同时使用了词根化操作,而且查询词也做了词根化操作,那么在用“data And compression” 这样的查询检索出的文档中可能包含这样的短语如“compressed data is” 和 “to compress the data”。虽然很难否认这类转化的有用性,但是这种转换事实上已经被广泛采用了
3、停用词转换。停用词被注定为非常普遍的词,如the、a、it。在不同的行业中停用词也有所不同,如:在线计算机手册中option和usage不应该被索引,在金融档案中dollar和stock甚至Dow和Johns都应作为停用词,有时会应用一个自动推到停用词的方法
4、进一步的转换还有同义词转换。例如:fast和rapid能够被准确的识别出来,并且继而把他们都用同一个典型术语来索引
0 0
- 索引
- 索引
- 索引
- 索引
- 索引
- 索引
- 索引
- 索引
- 索引
- 索引
- 索引
- 索引
- 索引
- 索引
- 索引
- 索引
- “索引”
- 索引
- android 瀑布流效果(仿蘑菇街)
- 第六周作业
- php开发框架 yii框架搭建(windows 和Linux)
- 学习PHP图像处理(验证码)
- 函数指针和指针函数
- 索引
- 使用ScheduledExecutor和Calendar实现复杂任务调度
- 剖析淘宝TDDL(TAOBAO DISTRIBUTE DATA LAYER)
- Windows socket I/O模型 之 select(1)
- sort命令详解
- intent.setDataAndType用法
- 转:跟张志东深聊,腾讯的“进化力”
- 网络编程之简单网络通信
- nignx下自旋锁源码分析