php在linux上解析word文档
来源:互联网 发布:微机原理接口编程题 编辑:程序博客网 时间:2024/06/05 13:35
最近简单试了一下这个问题,记下流程:
1.在linux上安装antiword(网上安装方法很多,搜索一个即可).
2.在php上解析一个word文件为text串,这个串是多行的串,即包含很多换行符.
$filename = '/home/den/ttt.doc';$content = shell_exec('/usr/local/bin/antiword -w 0 -m UTF-8.txt '.$filename);
3.将串中所有可能的全角符转为半角符(这一步很重要,因为很多符号和空格都可能是全角的).
$content=SBC_DBC($content);function SBC_DBC($str) { $DBC = Array( '0' , '1' , '2' , '3' , '4' , '5' , '6' , '7' , '8' , '9' , 'A' , 'B' , 'C' , 'D' , 'E' , 'F' , 'G' , 'H' , 'I' , 'J' , 'K' , 'L' , 'M' , 'N' , 'O' , 'P' , 'Q' , 'R' , 'S' , 'T' , 'U' , 'V' , 'W' , 'X' , 'Y' , 'Z' , 'a' , 'b' , 'c' , 'd' , 'e' , 'f' , 'g' , 'h' , 'i' , 'j' , 'k' , 'l' , 'm' , 'n' , 'o' , 'p' , 'q' , 'r' , 's' , 't' , 'u' , 'v' , 'w' , 'x' , 'y' , 'z' , '-' , ' ' , ':' , '.' , ',' , '/' , '%' , '#' , '!' , '@' , '&' , '(' , ')' , '<' , '>' , '"' , ''' , '?' , '[' , ']' , '{' , '}' , '\' , '|' , '+' , '=' , '_' , '^' , '¥' , ' ̄' , '`' ); // 半角 $SBC = Array( '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', '-', ' ', ':', '.', ',', '/', '%', '#', '!', '@', '&', '(', ')', '<', '>', '"', '\'','?', '[', ']', '{', '}', '\\', '|', '+', '=', '_', '^', '$', '~', '`' ); return str_replace($DBC, $SBC, $str); // 全角到半角}
4.处理后,得到了一个php能正常处理的串了,你可以做进一步的处理,比如去掉所有空白符,让多行的串变成一行的串,同时去掉字和字间的空格.
$content=preg_replace("/\s+/",'',$content);
5.做你自己的操作
阅读全文
0 0
- php在linux上解析word文档
- php解析word文档
- PHP在linux读取word文档
- linux上php读取和创建word文档
- php 在浏览器中打开word文档
- java解析word文档
- 解析word文档2
- 解析Word文档
- golang 解析word文档
- php 生成word文档
- PHP生成word文档
- php 导出word 文档
- PHP打开word文档
- 应用程序word在linux上打开
- 将word文档在窗体上直接显示
- word文档在页面上浏览,类似百度文库形式
- 关于poi在网页上输出word文档的问题
- PHP在linux下读取word
- 手机号码,邮箱地址,正则表达式
- Volley自定义一个Request
- 卸载EOS Studio上SVN插件操作过程
- sql统计分组的组数
- 238. Product of Array Except Self
- php在linux上解析word文档
- maven全局配置文件settings.xml详解
- constexpr说明以及g++4.8.2实测分析
- ural 1880. Psych Up's Eigenvalues 贪心
- Socket PRGM: chat_p2p
- 错误LinearLayoutManager is already attached to a RecyclerView
- 在broadcastReceiver 中弹出对话框
- oracle10G/11G官方下载地址集合 直接迅雷下载
- adaBoost算法学习笔记