C#读取doc,pdf,ppt文件 .
来源:互联网 发布:mac os x版本 编辑:程序博客网 时间:2024/05/22 06:52
doc pdf ppt与 txt之间的转换 :
组件的作用一般是将文件读出成字符格式,并不是单纯的转换文件名后缀,所以需要将读出的东西写入txt文件 。
添加office引用
.net中对office中的word及ppt进行编程时,确保安装office时已经安装了word,ppt可编程组件(自定义安装时可查看)或者安装“Microsoft Office 2003 Primary Interop Assemblies”
安装后,在编程页面添加引用:
添加引用-com—microsoft powerpoint object 11.0 libaray/word 11.0 object library;
还得添加office组件
using Microsoft.Office.Interop.Word;
using Microsoft.Office.Interop.PowerPoint;
using org.pdfbox.pdmodel;
using org.pdfbox.util;
using Microsoft.Office.Interop.Word;
using Microsoft.Office.Interop.PowerPoint;
publicvoid pdf2txt(FileInfo file,FileInfo txtfile)
{
PDDocument doc =PDDocument.load(file.FullName);
PDFTextStripper pdfStripper =newPDFTextStripper();
string text = pdfStripper.getText(doc);
StreamWriter swPdfChange =newStreamWriter(txtfile.FullName,false, Encoding.GetEncoding("gb2312"));
swPdfChange.Write(text);
swPdfChange.Close();
}
对于doc文件中的表格,读出的结果是去除掉了网格线,内容按行读取。
publicvoid word2text(FileInfo file,FileInfo txtfile)
{
object readOnly =true;
object missing = System.Reflection.Missing.Value;
object fileName = file.FullName;
Microsoft.Office.Interop.Word.ApplicationClass wordapp =new Microsoft.Office.Interop.Word.ApplicationClass();
Document doc = wordapp.Documents.Open(ref fileName,
ref missing,ref readOnly, ref missing, ref missing,ref missing,
ref missing,ref missing, ref missing, ref missing,ref missing,
ref missing,ref missing, ref missing, ref missing,ref missing);
string text = doc.Content.Text;
doc.Close(ref missing,ref missing, ref missing);
wordapp.Quit(ref missing,ref missing, ref missing);
StreamWriter swWordChange =newStreamWriter(txtfile.FullName,false, Encoding.GetEncoding("gb2312"));
swWordChange.Write(text);
swWordChange.Close();
}
publicvoidppt2txt(FileInfo file, FileInfo txtfile)
{
Microsoft.Office.Interop.PowerPoint.Application pa =new Microsoft.Office.Interop.PowerPoint.ApplicationClass();
Microsoft.Office.Interop.PowerPoint.Presentation pp = pa.Presentations.Open(file.FullName,
Microsoft.Office.Core.MsoTriState.msoTrue,
Microsoft.Office.Core.MsoTriState.msoFalse,
Microsoft.Office.Core.MsoTriState.msoFalse);
string pps ="";
StreamWriter swPPtChange =newStreamWriter(txtfile.FullName,false, Encoding.GetEncoding("gb2312"));
foreach (Microsoft.Office.Interop.PowerPoint.Slide slidein pp.Slides)
{
foreach (Microsoft.Office.Interop.PowerPoint.Shape shapein slide.Shapes)
pps += shape.TextFrame.TextRange.Text.ToString();
}
swPPtChange.Write(pps);
swPPtChange.Close();
}
读取不同类型的文件
publicStreamReader text2reader(FileInfo file)
{
StreamReader st =null;
switch (file.Extension.ToLower())
{
case".txt":
st = newStreamReader(file.FullName,Encoding.GetEncoding("gb2312"));
break;
case".doc":
FileInfo wordfile =newFileInfo(@"E:/my programs/200807program/FileSearch/App_Data/word2txt.txt");//不能使用相对路径,想办法改进
word2text(file, wordfile);
st = newStreamReader(wordfile.FullName,Encoding.GetEncoding("gb2312"));
break;
case".pdf":
FileInfo pdffile =newFileInfo(@"E:/my programs/200807program/FileSearch/App_Data/pdf2txt.txt");
pdf2txt(file, pdffile);
st = newStreamReader(pdffile.FullName,Encoding.GetEncoding("gb2312"));
break;
case".ppt":
FileInfo pptfile =newFileInfo(@"E:/my programs/200807program/FileSearch/App_Data/ppt2txt.txt");
ppt2txt(file,pptfile);
st = newStreamReader(pptfile.FullName,Encoding.GetEncoding("gb2312"));
break;
}
return st;
}
- C#读取doc,pdf,ppt文件
- C#读取doc,pdf,ppt文件
- C#读取doc,pdf,ppt文件 .
- C#读取doc,pdf,ppt,TXT文件
- C#读取doc,pdf,ppt文件
- VC 读取 doc,xls,ppt,pdf等格式的文件
- poi读取doc、ppt、pptx、xsl、xslx文件的内容,pdfbox读取pdf内容,读取txt文件内容
- doc,docx,pdf,ppt等文件类型读取方法
- C#读取HDF5文件.doc
- lucene pdf+doc+ppt+xls+txt+多层文件
- C#读取pdf文件
- C#读取pdf文件
- C# 打开pdf、doc。xls.文件
- java读取 doc、ppt、excel
- UIWebView打开doc和PDF文件,实现本地读取
- 利用openoffice转换ppt、doc转化pdf
- 利用openoffice转换ppt、doc转化pdf
- doc,excel,ppt转存pdf并预览
- VIM标记 mark 详解
- MongoDB常用命令
- STM32的GPIO开发总结
- ubuntu11.10禁止开机自动配置DSL网络
- Spring Mail功能
- C#读取doc,pdf,ppt文件 .
- s3c6410 uboot代码分析
- VC中打开一幅jpg图片并且显示在对话框上的方法和代码
- java ee 和 oracle视频
- [IT 男人帮 4-7] 雷军创业的七字决——“专注、极致、口碑、快”
- 用Eclipse调通第一个Struts2例子
- Linux学习第一篇
- HttpCookie 操作Cookie
- 二叉数的递归遍历及基本操作