Apache Tika格式转换的简单使用
来源:互联网 发布:淘宝手机描述图片尺寸 编辑:程序博客网 时间:2024/06/03 22:39
目录
- Apache Tika介绍
- Apache Tika实例一
- Apache Tika实例二
- Apache Tika实例三
- 相关链接
一,Apache Tika介绍
Tika是一个内容分析工具,自带全面的parser工具类,能解析基本所有常见格式的文件,得到文件的metadata,content等内容,返回格式化信息。总的来说可以作为一个通用的解析工具。特别对于搜索引擎的数据抓去和处理步骤有重要意义。
使用Tika要下载一个压缩包和一个jar包,下载之后即可。下载地址:http://tika.apache.org/download.html
在当前的版本中, Tika提供了对如下文件格式的支持:
- PDF - 通过Pdfbox
- MS-* - 通过POI
- HTML - 使用nekohtml将不规范的html整理成为xhtml
- OpenOffice 格式 - Tika提供
- Archive - zip, tar, gzip, bzip等
- RTF - Tika提供
- Java class - Class解析由ASM完成
- Image - 只支持图像的元数据抽取
- XML
二,Apache Tika实例一
(1)配置运行环境
运行Tika首先我们要配置好java环境。下载并配置java jdk。之后在命令提示符中检验java 环境,输入javac 和 java -version
(2)Tika准备包下载之后,我们在命令提示符中输入自己安装tika-app-1.14 jar包的位置,我安装在F盘的ApacheTika
目录下,输入java -jar tika-app-1.14.jar –gui之后,会自动打开GUI界面
java -jar tika-app-1.14.jar –gui
(2)下面用一个具体的例子来看Tika 是怎样实现格式之间的转换的。你可以打开本地文件或者添加你要解析的url地址。
以四川大学公共管理学院教师主页为例.实现HTML转换成其他格式
- 点击file-open URL-输入URL-确定
2.点击view可以切换成其他的格式
3.Tika 对图片的处理主要提供一些原信息,并不能分析出图片内的内容。
三,Apache Tika实例二
使用命令直接进行格式转换
在命令提示中定位到我们安装tika的位置后,输入java -jar tika-app-1.14.jar –help
java -jar tika-app-1.14.jar –help
结果如图所示
按Java -jar tika-app-1.14.jar –你想要转换的文件格式(如text) 要转换格式的文件的路径(如C:\tikatest.doc)
Java -jar tika-app-1.14.jar –text C:\tikatest.doc
即可得到反馈结果,其他格式方法一样。
四, Apache Tika实例三
在其他工程中使用Tika,这里以eclipse为例,新建一个要转换格式的文件,我把它放在C盘下
新建一个java项目->导入tika-app-1.14.jar包->在src下面新建一个java文件->在javaw文件中编写代码->测试结果->生成转换后的文件
写一个简单的测试例子,在test.java文件中写入如下代码
package Tika;import java.io.File; import org.apache.tika.Tika; import java.io.*;public class test { public static void main(String[] args) throws Exception{ //二进制文件路径 String fileName="c:/Tikatest.txt"; //二进制文件 File file1 = new File(fileName); //通过tika获取文件内容 Tika tika = new Tika(); String filecontent = tika.parseToString(file1); //打印文件内容 System.out.println("Extracted Content: " + filecontent); try{ //要转换到的文件 File file =new File("c:/tikatest.doc"); //文件不存在就新建 if(!file.exists()){ file.createNewFile(); } //把二进制文件内容写入doc文件 FileWriter fw = new FileWriter(file.getAbsoluteFile()); BufferedWriter bw = new BufferedWriter(fw); bw.write(filecontent); bw.close(); System.out.println("Done"); }catch(IOException e){ e.printStackTrace(); } }}
运行,结果如下:
接下来,我们可以打开你存放转换后的文件的位置,可以看到生成了一个 你想转换成的文件
打开有如下显示,则说明转换成功
五,相关链接
https://tika.apache.org/download.html
http://blog.csdn.net/zwx19921215/article/details/24779371
http://blog.csdn.net/gyy823/article/details/20405057
http://www.jianshu.com/p/2a6ad1941788?utm_campaign=haruki&utm_content=note&utm_medium=reader_share&utm_source=qq
- Apache Tika格式转换的简单使用
- 使用apache.tika判断文件类型
- Apache Tika
- Apache Tika
- Apache Tika:通用的内容分析工具
- Apache Tika:通用的内容分析工具
- Apache Tika:通用的内容分析工具
- apache tika技术了解
- 关于Apache Tika解析txt文件乱码的研究
- 解析文档的开源jar包 Apache Tika
- Tika解析非结构文档处理过程的简单分析
- Tika解析非结构文档处理过程的简单分析
- Tika解析非结构文档处理过程的简单分析
- 用 Apache Tika 理解信息内容
- Tika基本使用
- 使用Tika进行非结构化内容的读写-1
- Tika文本提取工具的使用(word、pdf、excel等)
- Tika文本提取工具的使用(word、pdf、excel等)
- Linux 文件操作——系统调用和标准I/O库
- 第八届河南省赛 最少换乘(最短路)
- c++实验6
- 校验IP是否合法
- HTML5结构元素
- Apache Tika格式转换的简单使用
- Python入门:如何使用第三方库?
- Android 屏蔽recent task 按钮
- 只能输入数字,字母,汉字和下划线
- Windows服务器与Linux客户机使用TCP协议进行数据传输
- 从0到1走进 Kaggle
- 【swust.oj_0415】Digital Roots
- 在Android Studio中使用Kotlin。
- HDU1864(01背包)