全文检索Lucene 应用(一)
来源:互联网 发布:sql 拆分字符串 编辑:程序博客网 时间:2024/04/29 18:59
全文检索Lucene 应用(一)
-- 从源码编译lucene 3.0.2
1. 下载lucene 3.0.2 source 和编译所需的组件
$wget –c http://archive.apache.org/dist/lucene/java/lucene-3.0.2-src.tar.gz
$ wget -c --no-check-certificate https://javacc.dev.java.net/files/documents/17/138911/javacc-5.0.tar.gz
$ wget -c http://www.jflex.de/jflex-1.4.3.tar.gz
$ wget –c http://www.atlassian.com/software/clover/downloads/binary/clover-ant-3.0.2.zip
Java和ant使用编译Ooo时使用的版本,这里,Java 版本是1.6.0_18。Ant的版本是1.7.1
2. 安装javacc jflex clover
直接将javaccjflex clover解压到d:/softenv目录下,将clover.jar,以及在www.atlassian.com 申请来的license文件clover.license copy到ant安装目录的lib子目录下
3. 修改编译参数文件
修改common-build.xml,如下
<property name="dev.version" value="3.0.2"/>
在lucene-3.0.2源码目录下创建build.properties,加入如下内容:
javacc.home=D:/SoftEnv/javacc-5.0
jflex.home=D:/SoftEnv/jflex-1.4.3
4. 在cygwin环境下编译测试
这里假定你已经有windows环境下的OpenOfficecygwin编译环境 在cygwin运行openoffice的编译环境。
$ . ./winenv.set.sh
$ exportPATH=$PATH:/cygdrive/d/SoftEnv/apache-ant-1.7.1/bin
#编译打包lucene。下图是编译完成后的结果展示。
$ ant package-all-binary
#测试lucene以及demo。Test all 要花费很长时间,下图是测试完成后的结果。
$ ant test
5. 总结
由于OpenOffice.Org从3.0开始增加了lucene模块,据我了解现在只是在online help中用于帮助查找的索引建立,使用的是2.3.2版本,而且对中文支持不好。下一步要研究①将Ooo中的lucene升级到3.0.2,增加online help中对中文的支持;②研究lucene中文分词算法;③lucene在检索以xml为基础的文件(如:odf、uof)的使用。
- 全文检索Lucene 应用(一)
- lucene全文检索应用
- Lucene全文检索学习笔记(一):lucene的应用
- Lucene 全文检索实践一
- 全文检索lucene学习笔记(一)
- 全文检索lucene学习笔记(一)
- lucene全文检索技术(一)
- Lucene实践(一):全文检索的基本原理
- Lucene实践一:全文检索的基本原理
- 全文检索Lucene(一)---快速入门
- Lucene实践(一):全文检索的基本原理
- Lucene 全文检索实践
- lucene 全文检索简介
- lucene 全文检索简介
- Lucene 全文检索
- 全文检索Lucene说明书
- 全文检索引擎lucene
- 全文检索LUCENE
- 因主机名更改造成oracle控制台登录错误:ora-12545,ora-12541
- php的yii框架
- C# 字符串截取(包括汉字)
- apache服务器日志各项详细说明
- jsp 通过 web.xml 配置,进行用户验证
- 全文检索Lucene 应用(一)
- __noop关键字的作用
- 也许、那样很累
- Flex安全沙箱冲突
- 模拟比较搞出来了 proteus应该有问题
- MFC DLL向导
- android开发 查找通讯录取得联系人信息
- 内存泄漏调试方法
- 使用 SwitchAction(转)