正则表达式的简单应用:使用正则表达式采集腾讯新闻

来源:互联网 发布:刘涛网络直播视频 编辑:程序博客网 时间:2024/06/05 23:54

正则表达式的简单应用:使用正则表达式采集腾讯新闻

正则表达式(Regular Expression)是比较繁琐的,要记的东西比较多,因此我一直都没有腾出时间专门好好研究一下正则表达式,最近网站需要用到PHP的CURL获取腾讯新闻,所以就认真地学了一下正则表达式。正则表达式是非常强大的,学会了正则表达式,在以后的文本匹配中,那是杠杠的。话不多说,进入正题。

关于正则表达式的一些基础语法,大家可以看一下下面的参考链接,讲解非常到位。

引用《深入正则表达式应用》的“正则三段论”:定锚点,去噪点,取数据

1.   首先,我想要从http://tech.qq.com/获取科技新闻头条,以及新闻列表,如图所示。



2.   点击“查看网页源代码”Ctrl+ F找到我们需要的那一段代码,如图



可以发现每个标签都有一个新闻标签都是由“Q-tpListInner”的div包起来的,,并且我们要取出的url 在a 标签的href中, 要取的新闻标题在img的alt中,这就是传说的“定锚点、去噪点”的过程了;

3.   然后就是直接用正则表达式取出我们需要的数据了。

新闻列表的正则表达式:

'/Q-tpListInner.*?href="(.*?)".*?alt="(.*?)">/s';

科技新闻标题的正则表达式:

'/<div class="txt"bosszone="Headlines_tech_1">.*?href="(.*?)".*?>(.*?)<\/a>/s';

PHP源代码:

[php] view plain copy 在CODE上查看代码片派生到我的代码片
  1. function techNews() {  
  2. //    PS:PHP的CURL请自行补脑  
  3.     $url = 'http://tech.qq.com';  
  4.     $ch = curl_init($url);  
  5.     curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);  
  6.     $content = curl_exec($ch);  
  7.     curl_close($ch);  
  8.     $content = iconv('gb2312''utf-8//IGNORE',$content);   //修改字符编码  
  9.     /* 
  10.      * 获取腾讯新闻头条 
  11.      */  
  12.     $data = array();  
  13.     $data_cnt = 0;  
  14.     $matches = array();  
  15.     $pattern = '/<div class="txt" bosszone="Headlines_tech_1">.*?href="(.*?)".*?>(.*?)<\/a>/s';  
  16.     preg_match($pattern$content$matches);  
  17.     $data[$data_cnt]['url'] = $matches[1];  
  18.     $data[$data_cnt++]['intro'] = $matches[2];  
  19.     /* 
  20.      * 获取腾讯新闻列表 
  21.      */  
  22.     $matches = array();  
  23.     $pattern = '/Q-tpListInner.*?href="(.*?)".*? alt="(.*?)">/s';  
  24.     preg_match_all($pattern$content$matches);  
  25. //    var_dump($matches);  
  26.     for ($i = 0; $i < count($matches[1]); $i++) {  
  27.         $data[$data_cnt]['url'] = $matches[1][$i];  
  28.         $data[$data_cnt++]['intro'] = $matches[2][$i];  
  29.     }  
  30.     var_dump($data);  
  31. }  

运行结果截图:


如果出现乱码,转化一下字符编码就行了。
0 0
原创粉丝点击