全文检索Lucene 应用(一)

来源:互联网 发布:sql 拆分字符串 编辑:程序博客网 时间:2024/04/29 18:59

全文检索Lucene 应用(一)

-- 从源码编译lucene 3.0.2

1. 下载lucene 3.0.2 source 和编译所需的组件

$wget –c http://archive.apache.org/dist/lucene/java/lucene-3.0.2-src.tar.gz

$ wget -c --no-check-certificate https://javacc.dev.java.net/files/documents/17/138911/javacc-5.0.tar.gz

$ wget -c http://www.jflex.de/jflex-1.4.3.tar.gz

$ wget –c http://www.atlassian.com/software/clover/downloads/binary/clover-ant-3.0.2.zip

Javaant使用编译Ooo时使用的版本,这里,Java 版本是1.6.0_18Ant的版本是1.7.1

 

2. 安装javacc jflex clover

直接将javaccjflex clover解压到d:/softenv目录下,将clover.jar,以及在www.atlassian.com 申请来的license文件clover.license copyant安装目录的lib子目录下

 

3. 修改编译参数文件

修改common-build.xml,如下

  <property name="dev.version" value="3.0.2"/>

lucene-3.0.2源码目录下创建build.properties,加入如下内容:

javacc.home=D:/SoftEnv/javacc-5.0

jflex.home=D:/SoftEnv/jflex-1.4.3

 

 

4. cygwin环境下编译测试

这里假定你已经有windows环境下的OpenOfficecygwin编译环境 cygwin运行openoffice的编译环境。

$ . ./winenv.set.sh

$ exportPATH=$PATH:/cygdrive/d/SoftEnv/apache-ant-1.7.1/bin

#编译打包lucene。下图是编译完成后的结果展示。


$ ant package-all-binary

#测试lucene以及demoTest all 要花费很长时间,下图是测试完成后的结果。

$ ant test

 

5. 总结

由于OpenOffice.Org3.0开始增加了lucene模块,据我了解现在只是在online help中用于帮助查找的索引建立,使用的是2.3.2版本,而且对中文支持不好。下一步要研究Ooo中的lucene升级到3.0.2,增加online help中对中文的支持;研究lucene中文分词算法;lucene在检索以xml为基础的文件(如:odfuof)的使用。

 


 

原创粉丝点击