Tika文本抽取实例
来源:互联网 发布:java date 时间戳 编辑:程序博客网 时间:2024/05/17 23:33
package metadata;import java.io.File;import java.io.FileInputStream;import java.io.IOException;import org.apache.tika.exception.TikaException;import org.apache.tika.metadata.Metadata;import org.apache.tika.parser.AutoDetectParser;import org.apache.tika.parser.ParseContext;import org.apache.tika.parser.Parser;import org.apache.tika.sax.BodyContentHandler;import org.xml.sax.SAXException;public class Extract { public static void main(String[] args) throws IOException, SAXException, TikaException { getTextFronPDF(); } /** * Tika AutoDetectParser类来识别和抽取内容 * @throws TikaException * @throws SAXException * @throws IOException */ public static void getTextFronPDF() throws IOException, SAXException, TikaException{ //构建InputStream来读取数据 FileInputStream input=new FileInputStream(new File("E:\\上海项目测试\\文档\\37.pdf"));//可以写文件路径,pdf,word,html等 BodyContentHandler textHandler=new BodyContentHandler();//获取内容 Metadata matadata=new Metadata();//Metadata对象保存了作者,标题等元数据 Parser parser=new AutoDetectParser();//当调用parser,AutoDetectParser会自动估计文档MIME类型,此处输入pdf文件,因此可以使用PDFParser ParseContext context=new ParseContext(); parser.parse(input, textHandler, matadata, context);//执行解析过程 input.close(); System.out.println("Title: "+matadata.get(Metadata.TITLE)); System.out.println("Type: "+matadata.get(Metadata.TYPE)); System.out.println("Body: "+textHandler.toString());//从textHandler打印正文 }}
0 0
- Tika文本抽取实例
- Apache TIKA---抽取多类型文件文本内容和文件的“隐藏信息”
- Tika
- Tika
- Tika常见格式文件抽取内容并做预处理
- Tika解析抽取docx格式文档时提示找不到类
- Lucene学习之Tika提取文本信息
- 文本抽取与还原
- 从文本抽取特征
- PDFbox实现文本抽取
- Tika文本提取工具的使用(word、pdf、excel等)
- Tika文本提取工具的使用(word、pdf、excel等)
- (1)Tika获取文件的类型、编码、文本内容
- HtmlParser基础入门-文本抽取
- Java抽取word里面文本
- 文本挖掘系列之文本信息抽取
- 文本数据挖掘之文本信息抽取
- 【tika】tika介绍
- 第十九课关于记忆存取——C#计算器编程教学
- java虚拟机(JVM)
- 网络拓扑结构的绘制(三)
- iOS绘图教程
- JavaWeb学习总结(五十一)——邮件的发送与接收原理
- Tika文本抽取实例
- C++ 设计一个类,只能生成一个对象
- SVM - multi label
- js利用数组创建图片对象
- C/C++中的continue、break、return的区别
- hibernate 文档
- C语言(结构体)
- java 使用自定义元组
- 关于QT的正则表达式类QRegExp的细节问题