Ubuntu下使用python读取doc和docx文档的内容
来源:互联网 发布:淘宝买到假货已经下架 编辑:程序博客网 时间:2024/05/29 15:25
读取docx文档
使用的包是python-docx
1. 安装python-docx包
sudo pip install python-docx2. 使用python-docx包读取数据
#encoding:utf8import docxdoc = docx.Document('test.docx')docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs])#print(docText)
python-docx这个包是不能处理doc文档的,要读取doc文档内容的话需要使用antiword这个工具。
读取doc文档
1. 到网站下载antiword。
2. 下载完毕之后解压,在解压得到的文件夹中依次运行make和make install命令。
3. 使用antiword读取doc文档内容
#encoding:utf8import subprocessword = 'test.doc'output = subprocess.check_output(['antiword',word])print(output)
0 0
- Ubuntu下使用python读取doc和docx文档的内容
- 编程读取文档Doc,Docx,Pdf的内容
- POI读取.doc 和.docx的区别
- PHP读取docx文档内容
- java使用poi读取doc和docx文件
- ubuntu下的doc文档
- python网络爬虫文档读取-微软Word文档和.docx
- 将Doc或者Docx文档处理成html的代码逻辑;统计word中的字数,段数,句数,读取word中文档内容的代码逻辑
- python 把一个文件夹下的docx转化为doc
- PHP读取doc,docx,xls,pdf,txt内容
- Liunx 下如何打开doc和docx
- python如何处理解析word文档doc docx , python-docx,python-docx2txt,zipfile
- 使用Lucene对doc、docx、pdf、txt文档进行全文检索功能的实现
- Ubuntu下打开.docx文件的笨方法(先另存为成.doc)
- JAVA使用POI操作word文档实例,兼容doc,docx
- Java读写docx文档(读取内容并替换其中的关键字)
- Java读写docx文档(读取内容并替换其中的关键字)
- Python读取word文档——python-docx
- mac版本intellij配置
- 输出文件平均绩点最高的学生
- Servlet
- 数据挖掘概念与技术(原书第三版)范明 孟小峰译-----第一章课后习题答案
- 数据结构—链表-单链表应用-拆分链表
- Ubuntu下使用python读取doc和docx文档的内容
- 输入学生的姓名学号成绩,并按平均分由低到高排序
- 蓝以中老师《高等代数》第07章:线性变换的Jordan标准形 笔记
- 离散数学—求主范式
- POJ.3172 Scales (DFS)
- android studio 新建assets 文件夹
- 索引的使用
- 安卓开发 切换简繁体
- Java常用类之【八种基本数据类型】