PHP 实现URL爬虫功能

来源:互联网 发布:剑网3更新网络中断 编辑:程序博客网 时间:2024/05/17 13:13

项目中碰到,需要使用PHP 实现URL爬虫功能。研究了一下。

代码如下:

<?php

$html = getURL('http://9iphp.com/web/php/1112.html');
function getURL($URL){
$html = file_get_contents($URL);
$dom = new DOMDocument();
@$dom->loadHTML($html);


$xpath = new DOMXPath($dom);
$hrefs = $xpath->evaluate('/html/body//a');


for ($i = 0; $i < $hrefs->length; $i++) {
$href = $hrefs->item($i);
$url = $href->getAttribute('href');


// 保留以http开头的链接
if(substr($url, 0, 4) == 'http')
echo $url.'<br />';
}

}

?>

0 0
原创粉丝点击