lucene学习日志(一)

来源:互联网 发布:淘宝旺旺头像 编辑:程序博客网 时间:2024/06/05 20:06

由于实际需求,小小兵我最近对搜索引擎和网络爬虫产生了浓烈的兴趣,决定自己先写个网络爬虫试试,说不定以后在网上找资源就可以用得上了。小小兵真的是觉得手动在百度和google上找资源效率很低,再者,写个爬虫,这个逼可以吹一年,哈哈。

首先是环境的搭建,由于我是用java来做的,所以用eclipse来写,去http://archive.apache.org/dist/lucene/java/   去这个地址把架包下载好,然后导好包,环境就算搭建好啦。先写一个测试例子。以下贴出我的代码:

package test.lucene;


import java.io.IOException;
import java.io.StringReader;


import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;


public class TestLucene {
public static void main(String[] args) throws IOException {
Analyzer analyzer = new StandardAnalyzer();
TokenStream tokenStream = analyzer.tokenStream("", new StringReader("this is the first lucene test java project"));
Token token = new Token();
while(tokenStream.next(token) != null)
System.out.println(token.term());
}
}


运行结果如下:



由于lucene把this is 这种虚词裁剪掉了,留下来的都是一些关键词,所以才会剪切成这几个单词。

好了,今天先到这了。

0 0