Lucene一(开篇:lucene整体学习路线和初体验)

来源:互联网 发布:北京java晚班 编辑:程序博客网 时间:2024/05/23 23:03
  lucene是一个全文检索框架,用于快速的搜索全文信息。学习它就是围绕着索引、分词、搜索、以及一些高级的搜索、评分、排序等功能进行学习,该博客围绕3.5版本来进行学习。首先从一个简单的实例开始:

建立索引的步骤:1、创建Directory;2、创建IndexWriter;3、创建Document对象;4、为Document添加Field;5、通过IndexWriter添加文档到索引中;6、关闭IndexWriter。代码如下:

package cn.liuys.lucene;

import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.LockObtainFailedException;
import org.apache.lucene.store.RAMDirectory;
import org.apache.lucene.util.Version;

public class HelloLucene {

/**
* 建立索引
*/
public void index(){
IndexWriter writer = null;
try {
//1、创建Directory
//Directory directory = new RAMDirectory();//建立在内存中
Directory directory = FSDirectory.open(new File("F:\\stady\\JAVA\\other\\Lucene\\test\\index01"));
//2、创建IndexWriter
//3.5版本之后使用这种构造函数创建,第二个参数传递IndexWriterConfig,指明版本号和分词器,这里使用标准分词器
writer = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_35, new StandardAnalyzer(Version.LUCENE_35)));
//3、创建Document对象
Document doc = null;
File file = new File("F:\\stady\\JAVA\\other\\Lucene\\test\\doc");
for(File f : file.listFiles()){
doc = new Document();
//4、为Document添加Field
doc.add(new Field("content", new FileReader(f)));
//存储文件名,需要存储,不需要分词
doc.add(new Field("name", f.getName(),Field.Store.YES,Field.Index.NOT_ANALYZED));
doc.add(new Field("path", f.getAbsolutePath(),Field.Store.YES,Field.Index.NOT_ANALYZED));
//5、通过IndexWriter添加文档到索引中
writer.addDocument(doc);
}
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (LockObtainFailedException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} finally{
try {
//writer一定要关闭!
if(writer != null) writer.close();
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
}


}

单元测试:
package cn.liuys.test;


import org.junit.Test;
import cn.liuys.lucene.HelloLucene;


public class TestLucene {


@Test
public void testIndex(){
HelloLucene hl = new HelloLucene();
hl.index();
}
}

创建好索引后,就可以进行搜索了,搜索的步骤:1、创建Directory;2、创建IndexReader用于读取索引;3、根据IndexReader创建IndexSearcher;4、创建搜索的Query;5、根据searcher搜索并且返回TopDocs;6、根据TopDocs获取ScoreDoc对象;7、根据searcher和ScoreDoc对象获取具体的Document对象;8、根据Document对象获取需要的值;9、关闭reader

代码如下:

        /**
* 搜索
*/
public void searcher(){
IndexReader reader = null;
try {
//1、创建Directory
Directory directory = FSDirectory.open(new File("F:\\stady\\JAVA\\other\\Lucene\\test\\index01"));
//2、创建IndexReader用于读取索引
reader = IndexReader.open(directory);
//3、根据IndexReader创建IndexSearcher
IndexSearcher searcher = new IndexSearcher(reader);
//4、创建搜索的Query,这里使用常用的QueryParser来创建
QueryParser parser = new QueryParser(Version.LUCENE_35, "content", new StandardAnalyzer(Version.LUCENE_35));
//搜索content域中包含java的
Query query = parser.parse("java");
//5、根据searcher搜索并且返回TopDocs
TopDocs tds = searcher.search(query, 10);
//6、根据TopDocs获取ScoreDoc对象
ScoreDoc[] sds = tds.scoreDocs;
for (ScoreDoc sd : sds) {
//7、根据searcher和ScoreDoc对象获取具体的Document对象
Document doc = searcher.doc(sd.doc);
//8、根据Document对象获取需要的值
System.out.println("文件名:"+doc.get("name")+"\t"+"文件路径:"+doc.get("path"));
}
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} catch (ParseException e) {
e.printStackTrace();
} finally{
//9、关闭reader
try {
if(reader != null) reader.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}

单元测试:

@Test
public void testSearch(){
HelloLucene hl = new HelloLucene();
hl.searcher();
}

测试输出结果:

       文件名:a.log 文件路径:F:\stady\JAVA\other\Lucene\test\doc\a.log
       文件名:c.log 文件路径:F:\stady\JAVA\other\Lucene\test\doc\c.log

0 0
原创粉丝点击