lucene

来源:互联网 发布:像素大逃杀制作软件 编辑:程序博客网 时间:2024/06/06 00:54
 索引域:Field是Document对象的基本组成单位,每个Field存储了实际的所有文本数据,这些文本数据在内部调用了分析器Aanlyzer的索引项结果 
* Field内的检索查询最终以索引项为单位的.比索引更小的单位无法检索到 
* 中文的索引项一中文分词的结果为检索单元,英文的索引项是以单词为检索单元,检索单元为最小的检索单位 
* 1.public Field(String name, byte[] value, Store store) 
* 2.public Field(String name, byte[] value, int offset, int length, Store store) 
* 3.public Field(String name, String value, Store store, Index index) 
* 4.public Field(String name, String value, Store store, Index index, TermVector termVector) 
* 5.public Field(String name, Reader reader) 
* 6.public Field(String name, Reader reader, TermVector termVector) 
* 7.public Field(String name, TokenStream tokenStream) 
* 8.public Field(String name, TokenStream tokenStream, TermVector termVector) 
* 第1,2个函数用于二进制数据索引;3,4用于直接给定字符串的索引,5,6用于文件内容的索引,即Reader数据流(常用) 
* name-域名为固定的参数,用于指定添加域的标识,限定检索的范围或提取属性值 
* value- 
* Store-控制域数据的存储,表示数据本身是否存储(注意:并不是指索引是否存储) 
*       1.Store.NO 只保存索引,不包含数据本身信息,减少空间采用 
*       2.Store.YES 保存索引并保存数据原始信息 
*       3.Store.COMPRESS 存储并压缩原始信息 
* Index-控制索引格式的参数,表示数据是否需要索引,即当前域是否需要用于检索 
*       1.Index.NO 不索引,只作为辅助信息 
*       2.Index.ANALYZER   2.4版本替换6 
*       3.Index.NOT_ANALYZER 2.4版本替换7 
*       4.Index.ANALYZER_NO_NORMS 
*       5.Index.NOT_ANALYZER_NO_NOTRMS   
*       6.Index.TOKENIZED 使用分词器并建立索引 
*       7.Index.UN_TOKENIZED 不分词建立索引(某些内容的整体作为索引) 
*       8.Index.NO_NORMS 禁用分析器处理 
* TermVector-域内信息是否需要分词,在中文处理中分词是索引的基础 
*         TermVector保存Token.getPositionIncrement() 和Token.startOffset() 以及Token.endOffset() 信息 
*       1.Field.TermVector.NO:不保存term vectors 
*       2.Field.TermVector.YES:保存term vectors 
*       3.Field.TermVector.WITH_POSITIONS:保存term vectors.(保存值和token位置信息) 
*       4.Field.TermVector.WITH_OFFSETS:保存term vectors.(保存值和Token的offset) 
*       5.Field.TermVector.WITH_POSITIONS_OFFSETS:保存term vectors.(保存值和token位置信息和Token的offset)   

*/



http://hi.baidu.com/lewutian/item/1701ede78e4213256cabb8b0