自己写的一个正则表达式抓取页面内容

来源：互联网发布：hadoop linux版本下载编辑：程序博客网时间：2024/05/05 18:47

前两天有空，自己写了一个正则表达式，抓取html页面中标签内的内容

页面内容：

<a href="#"> 杨金辉 </a>已收件,进入公司分捡</td>
</tr>

,已发往<a href="#" > 北京 </a></td>
</tr>

,正在分捡中,上一站是<a href="#"> 北京上地 </a></td>
</tr>

,已发往<a href="#" > 天津 </a></td>
</tr>

,已发往<a href="#"> 北辰一部 </a></td>
</tr>
</table>

下面是PHP代码部分：

<?php
$Info = array();
$content = file_get_contents("test.htmll"); //上面的代码是在test.html文件里的

$questionInfo = preg_replace('/[/r/t/n/s]*/is',"",$questionInfo);

$preg = "/(?:(?:<tr(?:[^/>]*)>)

(?:<td(?:[^/>]*)>([^/>]*)<//td>)

(?:<td(?:[^/>]*)>([^>]*)<a(?:[^/>]*)><font(?:[^/>]*)>([^/>]*)<//font><//a>([^>]*)

<a(?:[^/>]*)><font(?:[^/>]*)>([^/>]*)<//font><//a>([^/>]*)<//td>)<//tr>)+?/is";
preg_match_all($preg,$content,$Info,PREG_SET_ORDER);

print_r($info);

PS:第一次写这种抓取规则，写的不好，各位看官要是有什么改进意见，还请指正！