Lucene一（开篇：lucene整体学习路线和初体验）

来源：互联网发布：北京java晚班编辑：程序博客网时间：2024/05/23 23:03

　　lucene是一个全文检索框架，用于快速的搜索全文信息。学习它就是围绕着索引、分词、搜索、以及一些高级的搜索、评分、排序等功能进行学习，该博客围绕3.5版本来进行学习。首先从一个简单的实例开始：

建立索引的步骤：1、创建Directory；2、创建IndexWriter；3、创建Document对象；4、为Document添加Field；5、通过IndexWriter添加文档到索引中；6、关闭IndexWriter。代码如下：

package cn.liuys.lucene;

import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.LockObtainFailedException;
import org.apache.lucene.store.RAMDirectory;
import org.apache.lucene.util.Version;

public class HelloLucene {

/**
* 建立索引
*/
public void index(){
IndexWriter writer = null;
try {
//1、创建Directory
//Directory directory = new RAMDirectory();//建立在内存中
Directory directory = FSDirectory.open(new File("F:\\stady\\JAVA\\other\\Lucene\\test\\index01"));
//2、创建IndexWriter
//3.5版本之后使用这种构造函数创建，第二个参数传递IndexWriterConfig,指明版本号和分词器，这里使用标准分词器
writer = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_35, new StandardAnalyzer(Version.LUCENE_35)));
//3、创建Document对象
Document doc = null;
File file = new File("F:\\stady\\JAVA\\other\\Lucene\\test\\doc");
for(File f : file.listFiles()){
doc = new Document();
//4、为Document添加Field
doc.add(new Field("content", new FileReader(f)));
//存储文件名，需要存储，不需要分词
doc.add(new Field("name", f.getName(),Field.Store.YES,Field.Index.NOT_ANALYZED));
doc.add(new Field("path", f.getAbsolutePath(),Field.Store.YES,Field.Index.NOT_ANALYZED));
//5、通过IndexWriter添加文档到索引中
writer.addDocument(doc);
}
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (LockObtainFailedException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} finally{
try {
//writer一定要关闭！
if(writer != null) writer.close();
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
}

}

单元测试：
package cn.liuys.test;

import org.junit.Test;
import cn.liuys.lucene.HelloLucene;

public class TestLucene {

@Test
public void testIndex(){
HelloLucene hl = new HelloLucene();
hl.index();
}
}

创建好索引后，就可以进行搜索了，搜索的步骤：1、创建Directory；2、创建IndexReader用于读取索引；3、根据IndexReader创建IndexSearcher；4、创建搜索的Query；5、根据searcher搜索并且返回TopDocs；6、根据TopDocs获取ScoreDoc对象；7、根据searcher和ScoreDoc对象获取具体的Document对象；8、根据Document对象获取需要的值；9、关闭reader

代码如下：

/**
* 搜索
*/
public void searcher(){
IndexReader reader = null;
try {
//1、创建Directory
Directory directory = FSDirectory.open(new File("F:\\stady\\JAVA\\other\\Lucene\\test\\index01"));
//2、创建IndexReader用于读取索引
reader = IndexReader.open(directory);
//3、根据IndexReader创建IndexSearcher
IndexSearcher searcher = new IndexSearcher(reader);
//4、创建搜索的Query，这里使用常用的QueryParser来创建
QueryParser parser = new QueryParser(Version.LUCENE_35, "content", new StandardAnalyzer(Version.LUCENE_35));
//搜索content域中包含java的
Query query = parser.parse("java");
//5、根据searcher搜索并且返回TopDocs
TopDocs tds = searcher.search(query, 10);
//6、根据TopDocs获取ScoreDoc对象
ScoreDoc[] sds = tds.scoreDocs;
for (ScoreDoc sd : sds) {
//7、根据searcher和ScoreDoc对象获取具体的Document对象
Document doc = searcher.doc(sd.doc);
//8、根据Document对象获取需要的值
System.out.println("文件名："+doc.get("name")+"\t"+"文件路径："+doc.get("path"));
}
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} catch (ParseException e) {
e.printStackTrace();
} finally{
//9、关闭reader
try {
if(reader != null) reader.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}

单元测试：

@Test
public void testSearch(){
HelloLucene hl = new HelloLucene();
hl.searcher();
}

测试输出结果：

文件名：a.log 文件路径：F:\stady\JAVA\other\Lucene\test\doc\a.log
文件名：c.log 文件路径：F:\stady\JAVA\other\Lucene\test\doc\c.log

0 0