Tika是什么?如何安装Tika?

来源:互联网 发布:php 权限拦截器 编辑:程序博客网 时间:2024/04/30 04:32

最近在看lucene,昨天看到使用Tika提取文本,把安装过程记录下来,方便以后使用:

一句话解释Tika的作用:Tika是一个具有内置解析器用于处理各种文档类型的程序框架。该框架公布了标准的API供应用程序调用并完成从文档中提取文本和元数据,内置解析器会在后台通过外部程序提供的API与之交互。这使得你的应用程序能够针对不同的文档类型使用相同的API。当程序需要从文档中提取文本时,Tika会找到相应的解释器。

此处说明一点:

首先,要使用了Maven2编译生成的Tika,Tika的源码可以在http://www.apache.org/dyn/closer.cgi/tika/apache-tika-1.1-src.zip下到。不过默认不提供生成的jar包,需要自己用Maven2生成。因此要先配置Maven2,去http://maven.apache.org/download.html下载Maven2,我下载的是Maven2.2.1。

步骤一:配置Maven2

解压获得的apache-maven-2.2.1-bin.zip至你想要安置Maven2的目录,我解压至了"E:\TikaTest\",那么E:\TikaTest\apache-maven-2.2.1是Maven2的根目录。

配置名为M2_HOME的环境变量为上述路径;

配置名为M2的环境变量 为"%M2_HOME%\bin";

最后在Path系统环境变量中添加%M2%一项。 

当然,这些操作的前提是要正确安装好JDK。

经过上述步骤,在cmd中键入mvn --version看看是否正确输出。

步骤二:生成Tika目标文件

把下载好的apache-tika-1.1-src.zip解压到某特定目录,比如我的"E:\TikaTest\"则根目录是E:\TikaTest\apache-tika-1.1。打开apache-tika-1.1文件夹可以看到有三个文件夹分别为:tika-app,tika-parsers和tika-core。

其中,tika-core包含主要的接口和核心功能。

            tika-parsers包含与外部解析器程序库对应的所有适配器。

            tika-app将所有内容打包成一个单一的可执行的jar包。

cmd进入tika-core文件夹下,即E:\TikaTest\apache-tika-1.1\tika-core,执行mvn clean install,经过耐心等待,就可以在tika-core目录下发现新增了一个target目录,该目录下有一个jar文件tika-core- 0.5.jar,这就是我们要的了。

紧接着,用同样的方法分别进入到tika-app和tika-parsers文件夹下,使用同样的命令生成jar包。

tika-app-0.5.jar,tika-parsers-0.5.jar和tika-core- 0.5.jar就是我们后面内容所需要的。
   


原创粉丝点击