搜索引擎开发笔记三
来源:互联网 发布:mcs51单片机引脚 编辑:程序博客网 时间:2024/04/29 14:40
生命就像一盒巧克力,你永远不知道下一颗是什么滋味。——《阿甘正传》
消失了一周,我又回来了。。。
上回书说了Lucene的两个最重要的两个类Document和Field。Document的意义为文档,在Lucene,它代表一种逻辑文件。Lucene无法直接为物理文件建立索引。有时利用Document来与物理文件建立对应关系。但是,更多时候,Document和物理文件没有关系,它作为一种数据源的集合,向Lucene提供原始的要索引的文本内容。在Lucene中,数据源是有一个被称为Field的类来表示的。Field可以理解为关系型数据库的字段。而Document就是一条记录。每个字段有各种属性,Field同样也有很多属性。
数据源的属性有三种:是否存储 是否索引 是否分词
Document的内部实现,它主要对Field的信息进行记录和管理的作用,以遍Lucene遍历所有Field信息。在Document内部,Field保存在一个Vector类型的对象数组中。
代码如下
//为Document加入一个Field,这个也是最常用的方法public final void add(Field field)//删除一个Fieldpublic final void removeField(String name)//删除多个Field,这些Field的名字都相同public final void removeFields(String name)//根据一个Field的名称来获取它的实例,如果有多个Field的名称一样就返回第一个Field的信息public final Field getField(String name)//取出Field的值,也就是数据源的值public final String get(String name)//得到一个所有的Field的枚举public final Enumration fields()//根据名称得到一个Field的数组public final Field[] getFields(String name)//根据名称得到一个Field的值的数组public final String[] getValue(String name)
当需要在Document中添加一个Field时
加如下代码
//构建一个Document对象Document doc = new Document();//构建四个FieldField f1 = new Field("name1","value1",Field.Store.YES,Field.Index.TOKENIZED);Field f1 = new Field("name2","value2",Field.Store.YES,Field.Index.TOKENIZED);Field f1 = new Field("namE3","value3",Field.Store.YES,Field.Index.TOKENIZED);Field f1 = new Field("name4","value4",Field.Store.YES,Field.Index.TOKENIZED);//依次将Field加入Document中doc.add(f1);doc.add(f2);doc.add(f3);doc.add(f4);
Field的内部实现,在Lucene2.0之前,只有三个布尔型变量以此标明Field的3种属性
//是否储存private boolean isStored = false;//是否索引private boolean isIndexed = true;//是否分词private boolean isTokenized = true;
而在Lucene2.0版本中
实现代码如下
/** * 表示Field的存储属性 */public static final class Store extends Parameter implements Serializable{private Store(String name){super(name);}//Field被压缩储存public static final Store COMPRESS = new Store("COMPRESS");//Field被存储public static final Store YES = new Store("YES");//Field不被存储public static final Store NO = new Store("NO");}/***表示Field的索引属性*/public static final class Index extends Parameter implements Serializable{private Index(String name){super(name);}//Field不索引public static final NO = new Index("NO");//Field被分词后索引public static final Index TOKENIZED = new Index("TOKENIZED");//Field不分词索引public static final Index UN_TOKENIZED = new Index("UN_TOKENIZED");//不使用Analyzer来索引Fieldpublic static final Index NO_NORMS = new Index("NO_NORMS");}
上述两个静态内部类Store和Index描述了Field的所有属性,它们分别表示Field的存储方式和索引方式。
Store类有3个公有的静态属性
1.Store.NO:表示该Field不需要存储
2.Store.YES:表示该Field需要存储
3.Store.COMPRESS:表示使用压缩方式来保存这个Field的值
Index类有4个公有的静态属性
1.Index.NO:表示该索引不需要存储,即用户不需要去查找该Field的值
2.Index.TOKENIZED:表示该Field先被分词再索引
3.Index.NO_NORMS:表示不对该Field进行分词,但是不使用Analyzer,同时禁止它参加评分,主要是减少内存的消耗
Field类的构造方法
五种公有构造方法,来构造Field对象
public Field(String name,String value,Store stroe,Index index)public Field(String name,String value,Store store,Index index,TermVector termVector)public Field(String name,Reader reader)public Field(String name,Reader reader,TermVector termVector)public Field(String name,byte[] value,Store store)
name是指这个Field的名称,在为Field添加值时,有三种方式
1.直接的字符串方式
2.使用Reader从外部传入
3.使用直接的二进制byte传入
下面演示如何为图书馆构建Document和Field
Document bookdoc = new Document();//创建书号FieldField bookNo = new Field("booknumber","FB7654321",Field.Store.YES,Field.Index.UN_TOKENIZED);//创建书名FieldField bookName = new Field("bookname","海的女儿",Field.Score.YES,Field.Index.UN_TOKENIZED);//创建作者FieldField author = new Field("author"+"匿 名"+Field.Store.YES,Field.Index.UN_TOKENIZED);//创建发行日期FieldField publicdate = new Field("publishdate"+"1993-05-24",Field.Store.YES,Field.Index.NO);//创建摘要FieldField bookabstract = new Field("abstract","海的女儿很好看。",Field.Store.NO,Field.Index.TOKENIZED);//创建价格FIeldField bookabstract = new Field("price","25.00",Field.Store.YES,Field.Index.NO);//把所有的Field加入到Document中bookdoc.add(bookNo);bookdoc.add(bookName);bookdoc.add(author);bookdoc.add(publishdate);bookdoc.add(bookabstract);bookdoc.add(price);
- 搜索引擎开发笔记三
- 搜索引擎开发笔记一
- 搜索引擎开发笔记二
- 三岁小孩开发搜索引擎,搜索引擎白热化[原创]
- CM开发日志 - 搜索引擎(三)
- 工作流开发笔记三
- iphone 开发笔记三
- iOS开发笔记(三)
- Struts2开发笔记三
- 搜索引擎笔记
- 【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫
- 【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫
- 【搜索引擎Jediael开发笔记】V0.1完整代码
- 【搜索引擎Jediael开发笔记】v0.1完整代码
- 【搜索引擎Jediael开发笔记】V0.1完整代码
- 【搜索引擎Jediael开发笔记】v0.1完整代码
- 搜索引擎三大定律
- 【搜索引擎三大定律】
- 断言
- 日期和时间控件
- 算法导论学习
- [加州理工学院机器学习][By jy]homework 2作业
- 两个整数序列,其中一个序列表示栈的push顺序, 判断另一个序列有没有可能是对应的pop顺序。
- 搜索引擎开发笔记三
- Oracle 锁机制原理(深入剖析)
- 腾讯编程马拉松-吉哥系列故事——完美队形I hdu_4512
- jquery_dialog中iframe重复读取的问题
- struts2大小写敏感
- bash: ./configure: /bin/sh^M: 坏的解释器: 没有那个文件或目录
- FusionChart动态报表的绘制
- TreeView 控件
- java实现的简单记事本程序