Lucene索引doc pdf html

来源:互联网 发布:实现双向数据绑定 编辑:程序博客网 时间:2024/04/29 04:14

 索引Doc:tm-extractors-0.4

这原是Apache的POI类库的一部分——HWPF,POI提供了一组操作MS-word/excel等文件的方法,在最近的release版本中HWPF被移出,需要下载独立的tm-extractors-0.4。下面的代码中实现了static方法getDocument(File)返回Lucene的Document类型结果,主要通过调用WordExtractor类的成员方法extractor,该方法能返回一个包含所解析doc文件内容的String类型实例。

索引pdf:使用pdfbox1.2.1,

PDFBox为使用Lucene的开发者专门提供了LucenePDFDocument类,它的static方法getDocument能够直接返回一个Lucene的Document类型结果。所以在为一个pdf文件(例子中为File类型实例pdfFile)创建索引时只要写下如下语句就可以了:

document = LucenePDFDocument.getDocument(pdfFile);

使用 pdfbox1.2.1时,方法被修改了,所以得先提取pdf的内容,再索引。

索引Html

使用htmlparser来解析,同样在代码中定义了static方法getDocument(File)返回Document类型。

创建索引

查询:

 

参考:http://blog.csdn.net/lilice/archive/2007/05/12/1605731.aspx