搜索学习基础--倒排索引的过程解读
来源:互联网 发布:大量淘宝买家手机号码 编辑:程序博客网 时间:2024/05/22 00:39
下面是两篇文档,我们要对其建立索引
Doc1: He is a coder,and she is a coder too.
Doc2:Json is a doctor,but he was a coder.
第一步:获取关键词keywords
a:分词(按空格分词):
Doc1: [He] [is] [a] [coder],[and] [she] [is] [a] [coder] [too]
Doc2: [Json] [is] [a] [doctor] [he] [a] [coder]
b:去除 stopwords(无意义的关键词)
Doc1:[He] [a] [coder] [she] [a] [coder]
Doc2:[Json] [is] [a] [doctor] [he] [a] [coder]
c:统一(大小写,时态)
Doc1:[he] [a] [coder] [she] [a] [coder]
Doc2:[json] [a] [doctor] [he] [a] [coder]
第二步:建立倒排索引
//关键词出现的文章
//更好的结构 记录关键词出现的文章,出现频率(对结果排序),出现位置(用户快速锁定高亮位置)
第三步:搜索
a.输入搜索语句: doctor and coder
b.获取a中的关键词,得到[doctor] [coder]
c.从索引表中得到:[coder]在Doc1中出现2次,在Doc2中出现1次,[doctor] 在Doc2中出现1次。
d.由此可以得到Doc2因为关联两个关键词,关联性更高(如果关联关键词数量一次,则可以根据出现频率排序),搜索出的结果顺序为:Doc2,Doc1
代码实现
Java代码模拟倒排索引过程
阅读全文
0 0
- 搜索学习基础--倒排索引的过程解读
- 搜索学习基础--代码模拟倒排索引过程
- 倒排索引基础
- 倒排索引基础
- 倒排索引基础
- 倒排索引基础
- 搜索之倒排索引
- Lucene的倒排索引(学习整理)
- hadoop学习-倒排索引
- hadoop学习-倒排索引
- hadoop倒排索引---学习
- 倒排索引学习笔记
- lucene源码-倒排索引的读过程
- 文本搜索过程以及倒排搜索
- 搜索00 倒排索引结构
- 搜索系统2:倒排索引
- 倒排索引的基础知识
- 倒排索引的建立
- 如何使用github(以国内码云为例子)
- Failed to read schema document 'http://code.alibabatech.com/schema/dubbo/dubbo.xsd
- 适配器模式-类适配器
- Spring 关于bean的获取以及自定义注解的起始注入和获取
- kickstart和dhcp
- 搜索学习基础--倒排索引的过程解读
- PLSQL客户端常用快捷键---工具类
- 重温数据结构:哈希 哈希函数 哈希表
- NOIP2016D2T1组合数问题
- 手机验证码平台,怎么发送手机验证码,php开发手机验证码短信接口功能
- 加酒店logo--改app图片
- 铁血军魂:所有的痛苦,都是CBK精英成长蜕变的肥料
- Keil MDK中的Code, RO-data , RW-data, ZI-data分别代表什么意思?(转)
- HDU