网络爬虫你知道多少？

来源：互联网发布：淘宝供销平台一件代发编辑：程序博客网时间：2024/04/30 18:50

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。下面展示实现蜘蛛捕捉的PHP代码。

如下：

function get_naps_bot(){$useragent = strtolower($_SERVER['HTTP_USER_AGENT']);if (strpos($useragent, 'googlebot') !== false){return 'Googlebot';}if (strpos($useragent, 'msnbot') !== false){return 'MSNbot';}if (strpos($useragent, 'slurp') !== false){return 'Yahoobot';}if (strpos($useragent, 'baiduspider') !== false){return 'Baiduspider';}if (strpos($useragent, 'sohu-search') !== false){return 'Sohubot';}if (strpos($useragent, 'lycos') !== false){return 'Lycos';}if (strpos($useragent, 'robozilla') !== false){return 'Robozilla';} return false;}function nowtime(){$date=date("Y-m-d.G:i:s");return $date;}$searchbot = get_naps_bot();if ($searchbot) {$tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']);$url=$_SERVER['HTTP_REFERER'];$file="robotlog.txt";$time=nowtime();$data=fopen($file,"a");fwrite($data,"Time:$time robot:$searchbot URL:$tlc_thispage ");fclose($data);}

再唠叨一句题外话，有个哥们喜欢玩LOL，特意的做了个网站www.qiduowan.com，想提高技术的赶紧去看看吧！

0 0