pdf 文本转换为 java 字符串
来源:互联网 发布:舞蹈软件下载 编辑:程序博客网 时间:2024/04/24 10:19
txt,rtf,rtfd->pdf,mac下面有个非常好用的工具,TextEditor,简洁实用!
pdf->txt,如下(依赖两个jar 包:pdfbox-1.6.0.jar、fontbox-1.6.0.jar):
- package org.bruce.toolkit.experiments;
- import java.io.ByteArrayOutputStream;
- import java.io.File;
- import java.io.OutputStreamWriter;
- import org.apache.pdfbox.pdmodel.PDDocument;
- import org.apache.pdfbox.util.PDFTextStripper;
- /**
- * @author Bruce Yang
- * 将 pdf 文件中的字符解析为字符串中的字符~
- */
- public class Pdf2Text {
- /**
- * @param args
- * @throws Exception
- */
- public static void main(String[] args) throws Exception {
- // System.out.println(parsePDF("/Users/user/Desktop/QT教程.pdf"));
- System.out.println(parsePDF("/Users/user/Novels/pdf/《盗墓笔记》第一季:.第二部.怒海潜沙.pdf"));
- }
- /**
- * @param filePath
- * @return
- * @throws Exception
- */
- public static String parsePDF(String filePath) throws Exception {
- File file = new File(filePath);
- String context = "";
- ByteArrayOutputStream out = new ByteArrayOutputStream();
- OutputStreamWriter writer = new OutputStreamWriter(out);
- PDDocument pdfdocument = null;
- pdfdocument = PDDocument.load(file);
- PDFTextStripper stripper = new PDFTextStripper();
- stripper.writeText(pdfdocument, writer);
- byte[] contents = out.toByteArray();
- System.out.println(contents.length);
- context = new String(contents);
- writer.close();
- if (pdfdocument != null) {
- pdfdocument.close();
- }
- return context;
- }
- }
- pdf 文本转换为 java 字符串
- pdf 文本转换为 java 字符串
- java中将文本转换为字符串
- 把字符串数组转换为文本
- pdf格式和图片格式文本--转换为Word格式
- LINUX下纯文本文档转换为PDF的方法
- HTML内容转换为PDF格式------java
- Java使用SWFTools转换PDF为SWF
- JAVA OpenOffice+jodconverter转换WORD为PDF
- java将pdf转换为图片
- Java字符串转换为ASCII
- Java中数字转换为字符串,字符串转换为字符
- Java 字符串转换为字符串数组
- java中字符串转换为字符串数组
- excel转换为pdf
- pdf 转换为word
- 转换pdf 为 png
- pdf转换为word
- AE开发中实现Control中的各种图形工具的方法
- java访问sql 2008 检索自动生成的键,获得 IDENTITY 值的方法
- jquery ui 简单引用
- QInputDialog::getInt
- windows和linux中程序栈空间
- pdf 文本转换为 java 字符串
- hdu 1381 Crazy Search(hash)
- 如何删除source insight中打开工程的历史记录
- RFT 实用CODE
- HDU 2087剪花布条(简单KMP)
- 范磊C++ 原创笔记 第六章 面向对象
- office2007下载地址
- Python多进程并发操作中进程池Pool的应用
- Dwr实现自动补全功能