Lucene学习总结
来源:互联网 发布:淘宝可以买砍刀吗 编辑:程序博客网 时间:2024/05/21 18:46
索引的建立
1、需要建立索引的文件(Document)......被建立的对象。
2、将原文当传给分词组件(Tokenizer)(将文档分成一个一个单独的单词、去掉标点符号、去掉停词)
经过分词(Tokenizer)后得到的结果称为词元(Token)
3、将得到的词元(Token)传给语言处理组件(Stemming和Lemmatization)语言处理组件的结果称为词(Term)
4、将得到的词(Term)传给索引组件(Indexer)
搜索
1、用户输入查询语句
2、对查询语句进行词法分析、语法分析、及语言处理
找出词(Term)对文档的重要性的过程称为计算词的权重(Term weight)的过程
- Lucene学习总结
- 转:Lucene 学习总结
- Lucene学习总结
- lucene学习总结
- Lucene学习总结-索引
- Lucene学习总结-查询
- Lucene学习总结-分析
- lucene学习总结
- lucene PaodingAnalyzer 学习总结
- Lucene学习总结
- Lucene学习总结二
- Lucene学习总结三
- Lucene学习总结
- Lucene学习总结
- Lucene学习总结
- Lucene学习总结(二) lucene索引文件格式
- 学习lucene时方法总结
- Lucene学习总结-核心部件
- android自定义style
- How to start a new process for Android
- java 注释类型
- SQLite
- JSON 入门指南 http://www.ibm.com/developerworks/cn/web/wa-lo-json/
- Lucene学习总结
- python __getattribute__ 的优先级问题
- 进程创建的页表初始化
- windows下java JNI编程技巧——JAVA调用c/c++(4)
- Android Binder IPC分析
- linux-Vi使用方法(备查)
- SQL Mysql 表优化
- Java面试准备
- oracle中的单引号和双引号的区别