全文检索

来源：互联网发布：引流软件一般多少钱编辑：程序博客网时间：2024/04/26 19:47

经历了很久的构思有了一个感觉可以的全文检索方法

下面是我的构想请大家交流指正谢谢

(一)全文检索分析

全文检索不用说就是对文本及其内容的一种查找方式分为两种一种基于字来建立索引一种是基于词汇建立索引他们各有千秋

对字建立索引在准确度和覆盖度方面都是非常理想的但是索引文件比较大速度比较慢

对词建立索引在效率速度和索引文件大小方面比较理想但是准确度和覆盖度又有缺失

到底如何能兼顾呢可能我的方法前人会有人想过不过我未曾见到类似资料如有雷同纯属巧合

(二)索引结构

下面以化妆和服装为例子

建立索引方式:

索引结构

这个是基本的索引方式最左边是字库其次是词库 pos代表所对应文档 frq是出现频率 idx表示在文档中的位置

方式是字->字词库->pos->frq->idx

首先是字库对字词库建立索引文件这个是之前就做好的

然后用中文分词算法分割然后对每个词建立索引

对与未分出来的字就对字建立索引

这样整个索引建立完毕后就可以进行检索了

例子:

下面举个例子比如化妆和服装把这个进行分词我用的是正向最大匹配方法的改进算法这个稍后讲会分出来化妆/和/服装/和服/装这种分词算法会把每个可能的词都分出来比如中华人民共和国会分成中华/人民/共和国/中华人民共和国具体的分的颗粒度根据词库相关比如某些词库可能有中华人民某些没有

这样分词之后就可以对词和未分出的单字做索引当然这里可以优化一下比如和服和 ‘和’ 这个‘和’字在和服中出现就不用对这个字再次建立索引当然上图画的时候没有考虑这个

特点分析:

1.准确度和覆盖率

这样在索引的时候对要查询字串分词如果是词就在字词库中查找如果是单字就找对应的字典对字词库的映射就能达到查全用这种方法建立索引应该是在覆盖度和准确度和对字建立索引不相上下

2.而效率问题

由于在检索之前已经把字库和字词库读入内存中的HASH表查询是很高效的

在效率上略逊于只针对分词的索引建立方式但是多了一点开销但是换来的准确率和覆盖率是值得的如果你查询不到用户的需求就算在好的效率也是徒劳这算是一种折中的方案

3.索引文件大小

由于在分词过程中大多数都会被分成词只有小部分是为识别的单字

举个例子我用的词库最大字是8个如果光对字建立索引每次要记录8个字出现的坐标

而对于这种索引结构是1-8次由于中文文本几乎分出来都是词所以建立的索引会小很多

4.歧义的解决

而且就算对于真歧义也可以解决比如乒乓球拍卖完了这个连人都分不清到底是什么意思的句子经过分词乒乓球/拍卖/完了/乒乓/球拍/卖完/了也能全部检索出来避免了中文分词建立索引的歧义问题

5.人名问题

检索对于人名的也很高这种索引方式虽然不能识别人名但是对于人名的每个字都有索引所以检索人名是绝对没有问题的

6.包含词的解决

比如风风雨雨一般分词会当成一个词这样查风雨的时候会产生漏检的效果

但是针对于我这种改进的分词方式不会会分出来风风雨雨/风雨这样查风雨也会查的到

(三)中文分词算法

对于中文分词大家比较熟悉的大概有正向最大匹配逆向最大匹配双向匹配如果有好的词库可以实现双向词性词频的分析但是针对中文这种语言的特点分词算法并不能解决比如真歧义这种问题比如乒乓球拍卖完了这种连人都分不出来的还有一些普通的歧义比如日本和服务

到底是和服还是服务计算机不好区别虽然加上一些算法会提高准确率如根据词频判断但是开销会很大

我改进的分词算法

所谓正向最大匹配就是要从最大匹配而我这种更类似于最小匹配故先叫正向最小全匹配

就是在正向最小匹配的基础上要分到文件结束或者词库最长词的长度

举例吧比较清楚比如中华人民共和国

分词步骤

1.中华 (是一个词建立索引)

2.中华人 (不是)

3.中华人民 (是一个词建立索引)

4.中华人民共 (不是)

5.中华人民共和 (不是)

6.中华人民共和国 (是一个词建立索引文本结束或者到达词库词的最大长度)

这样第一个字是一个词内的所以跳到第三个字再次分词

1.人民 (是一个词建立索引)

2.人民共 (不是)

3.人民共和 (不是)

4.人民共和国 (不是文本结束或者到达词库词的最大长度)

这样重复以上步骤

1.共和 (不是)

2.共和国 (是一个词建立索引文本结束或者到达词库词的最大长度)

最后剩下国字因为国在一个词中而每个字对词都有映射可以不用添加单对国字的映射

这样整个就分为中华/中华人民/中华人民共和国/人民/共和国这样在检索时候就能达到不漏检还提高了效率对于普通分词只是单纯分成中华人民共和国这样查中国人民这些词都查不到对于单个字就更不用说了由于有了字->字词库映射所以单字都查的到

特点分析:

1.效率

这种分词技术虽然效率上差了一点点但是由于中文中80%以上的词都是两个字其实和正向最大匹配效率相差不是很大虽然分级索引的效率高于这个不过对内存要求很高资源占用太大

2.准确度和覆盖率

准确度和覆盖率有大幅度的提高达到了对字建索引的检索效果覆盖率更不用说了你查什么都能查的到

(四)相关度

由于检索是对输入文本关键字关键词的一种检索取并集的方式所以在排序和取并集的算法上有待提高目前的想法是以链表做存储因为动态增加比较多链表比较合适如果同一文件含有不同的关键字设置一个值多一个加1 这样可以简单的实现相关度的排序具体的相关度算法很多可以自己参考来计算

(五)待提升部分

在检索部分的排序和取并集可以进行优化提高检索的效率毕竟速度慢对于我这种要求效率的人是不可忍受的

(六)总结

我会用C++编写由于具体代码还没有出来还有毕业设计比较忙不能为大家提供一些测试数据以上是小弟的一些浅见大家一起做交流目的就是为了中文的全文检索能做的更好也希望会对大家有所帮助起到抛砖引玉的作用

如大家有任何意见或者更好的方法请联系 york528@yeah.net