lucene
来源:互联网 发布:像素大逃杀制作软件 编辑:程序博客网 时间:2024/06/06 00:54
索引域:Field是Document对象的基本组成单位,每个Field存储了实际的所有文本数据,这些文本数据在内部调用了分析器Aanlyzer的索引项结果
* Field内的检索查询最终以索引项为单位的.比索引更小的单位无法检索到
* 中文的索引项一中文分词的结果为检索单元,英文的索引项是以单词为检索单元,检索单元为最小的检索单位
* 1.public Field(String name, byte[] value, Store store)
* 2.public Field(String name, byte[] value, int offset, int length, Store store)
* 3.public Field(String name, String value, Store store, Index index)
* 4.public Field(String name, String value, Store store, Index index, TermVector termVector)
* 5.public Field(String name, Reader reader)
* 6.public Field(String name, Reader reader, TermVector termVector)
* 7.public Field(String name, TokenStream tokenStream)
* 8.public Field(String name, TokenStream tokenStream, TermVector termVector)
* 第1,2个函数用于二进制数据索引;3,4用于直接给定字符串的索引,5,6用于文件内容的索引,即Reader数据流(常用)
* name-域名为固定的参数,用于指定添加域的标识,限定检索的范围或提取属性值
* value-
* Store-控制域数据的存储,表示数据本身是否存储(注意:并不是指索引是否存储)
* 1.Store.NO 只保存索引,不包含数据本身信息,减少空间采用
* 2.Store.YES 保存索引并保存数据原始信息
* 3.Store.COMPRESS 存储并压缩原始信息
* Index-控制索引格式的参数,表示数据是否需要索引,即当前域是否需要用于检索
* 1.Index.NO 不索引,只作为辅助信息
* 2.Index.ANALYZER 2.4版本替换6
* 3.Index.NOT_ANALYZER 2.4版本替换7
* 4.Index.ANALYZER_NO_NORMS
* 5.Index.NOT_ANALYZER_NO_NOTRMS
* 6.Index.TOKENIZED 使用分词器并建立索引
* 7.Index.UN_TOKENIZED 不分词建立索引(某些内容的整体作为索引)
* 8.Index.NO_NORMS 禁用分析器处理
* TermVector-域内信息是否需要分词,在中文处理中分词是索引的基础
* TermVector保存Token.getPositionIncrement() 和Token.startOffset() 以及Token.endOffset() 信息
* 1.Field.TermVector.NO:不保存term vectors
* 2.Field.TermVector.YES:保存term vectors
* 3.Field.TermVector.WITH_POSITIONS:保存term vectors.(保存值和token位置信息)
* 4.Field.TermVector.WITH_OFFSETS:保存term vectors.(保存值和Token的offset)
* 5.Field.TermVector.WITH_POSITIONS_OFFSETS:保存term vectors.(保存值和token位置信息和Token的offset)
* Field内的检索查询最终以索引项为单位的.比索引更小的单位无法检索到
* 中文的索引项一中文分词的结果为检索单元,英文的索引项是以单词为检索单元,检索单元为最小的检索单位
* 1.public Field(String name, byte[] value, Store store)
* 2.public Field(String name, byte[] value, int offset, int length, Store store)
* 3.public Field(String name, String value, Store store, Index index)
* 4.public Field(String name, String value, Store store, Index index, TermVector termVector)
* 5.public Field(String name, Reader reader)
* 6.public Field(String name, Reader reader, TermVector termVector)
* 7.public Field(String name, TokenStream tokenStream)
* 8.public Field(String name, TokenStream tokenStream, TermVector termVector)
* 第1,2个函数用于二进制数据索引;3,4用于直接给定字符串的索引,5,6用于文件内容的索引,即Reader数据流(常用)
* name-域名为固定的参数,用于指定添加域的标识,限定检索的范围或提取属性值
* value-
* Store-控制域数据的存储,表示数据本身是否存储(注意:并不是指索引是否存储)
* 1.Store.NO 只保存索引,不包含数据本身信息,减少空间采用
* 2.Store.YES 保存索引并保存数据原始信息
* 3.Store.COMPRESS 存储并压缩原始信息
* Index-控制索引格式的参数,表示数据是否需要索引,即当前域是否需要用于检索
* 1.Index.NO 不索引,只作为辅助信息
* 2.Index.ANALYZER 2.4版本替换6
* 3.Index.NOT_ANALYZER 2.4版本替换7
* 4.Index.ANALYZER_NO_NORMS
* 5.Index.NOT_ANALYZER_NO_NOTRMS
* 6.Index.TOKENIZED 使用分词器并建立索引
* 7.Index.UN_TOKENIZED 不分词建立索引(某些内容的整体作为索引)
* 8.Index.NO_NORMS 禁用分析器处理
* TermVector-域内信息是否需要分词,在中文处理中分词是索引的基础
* TermVector保存Token.getPositionIncrement() 和Token.startOffset() 以及Token.endOffset() 信息
* 1.Field.TermVector.NO:不保存term vectors
* 2.Field.TermVector.YES:保存term vectors
* 3.Field.TermVector.WITH_POSITIONS:保存term vectors.(保存值和token位置信息)
* 4.Field.TermVector.WITH_OFFSETS:保存term vectors.(保存值和Token的offset)
* 5.Field.TermVector.WITH_POSITIONS_OFFSETS:保存term vectors.(保存值和token位置信息和Token的offset)
*/
http://hi.baidu.com/lewutian/item/1701ede78e4213256cabb8b0
- lucene
- Lucene
- lucene
- lucene
- Lucene
- lucene
- lucene
- lucene
- Lucene
- Lucene
- lucene
- Lucene
- Lucene
- Lucene
- lucene
- lucene
- Lucene
- Lucene
- SLC和MLC闪存芯片的区别
- 对CSS初学者必看的CSS引用和定义技巧。
- struts2访问servlet API、Web应用单元测试、prepare接口
- hdu 2102 A计划
- C/C++内存管理
- lucene
- listview的用法总结
- OpenCV参考手册之Mat类详解
- 通过TopStack方法获取kernel基址简介
- Java线程之fork/join框架
- 设计模式之Proxy(代理)
- 微软面经
- C语言中malloc函数返回值是否需要类型强制转换问题
- 下载中文文件名乱码问题