Tika提取pdf文本的内容,并用IKAnalyzer进行分词处理。
来源:互联网 发布:录音软件audition 编辑:程序博客网 时间:2024/04/28 12:25
package test;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;
/**
* 此类用于提取pdf文件的文本内容
*
* @author gujie
*
*/
public class TikaUtil {
public String getBody(File file) throws Exception {
Parser parser = new AutoDetectParser();
InputStream input = new FileInputStream(file);
Metadata meta = new Metadata();
System.out.println(meta.get(Metadata.CONTENT_ENCODING));
ContentHandler handler = new BodyContentHandler();
parser.parse(input, handler, meta, new ParseContext());
return handler.toString();
}
public static void main(String[] args) {
try {
System.out.println(new TikaUtil().getBody(new File("f:\\哈哈哈哈.pdf")));
} catch (Exception e) {
e.printStackTrace();
}
}
}
package test;
import java.io.File;
import java.io.IOException;
import java.io.StringReader;
import org.wltea.analyzer.IKSegmentation;
import org.wltea.analyzer.Lexeme;
/**
* 此类用于处理分词
* @author gujie
*
*/
public class IKAnalyzerTest {
/**
* @param args
*/
public static void main(String[] args) throws Exception {
long start = System.currentTimeMillis();
IKSegmentation ikSeg = new IKSegmentation(new StringReader(new TikaUtil().getBody(new File("f:\\哈哈哈哈.pdf"))) ,true);
long end = System.currentTimeMillis();
try {
Lexeme l = null;
while( (l = ikSeg.next()) != null){
System.out.println(l.getLexemeText());//循环打印出分词之后的结果
}
} catch (IOException e) {
e.printStackTrace();
}
System.out.println("耗时:"+(end-start)+"毫秒");
}
}
- Tika提取pdf文本的内容,并用IKAnalyzer进行分词处理。
- Tika文本提取工具的使用(word、pdf、excel等)
- Tika文本提取工具的使用(word、pdf、excel等)
- 利用PDFBox提取pdf文件文本内容的分析
- Python使用jieba分词并用weka进行文本分类
- 使用IKAnalyzer进行中文分词
- 使用IKAnalyzer进行中文分词
- 试用ikanalyzer进行分词查询
- (1)Tika获取文件的类型、编码、文本内容
- IKAnalyzer的分词效果
- IKAnalyzer 分词的用法
- 提取文档中的文本内容(使用PDFBox处理PDF文档)
- 使用Tika进行非结构化内容的读写-1
- Lucene学习之Tika提取文本信息
- Lucene学习4 Tika内容提取
- Apache Lucene Tika 文件内容提取工具
- Apache Lucene Tika 文件内容提取工具
- IKAnalyzer分词(直接输入文本)
- 需要点智商才能看懂的恐怖故事,你能看懂多少个?
- 朴素贝叶斯分类
- SQL Server DBA三十问 (转)
- IIC 波形 解释基本操作概念
- VC中Release版本调试及单步跟踪方法
- Tika提取pdf文本的内容,并用IKAnalyzer进行分词处理。
- Oracle 检测表过程
- SCA 之Tuscany 12——Tuscany JSON-RPC 实现
- Tomcat Admin 安装和配置
- android知识
- 开发人员需要熟知的常用Linux命令Version、Kernel查看
- Asp.NET的Trace追踪
- Atom原子C语言实现
- TortoiseSVN使用简介