php利用file_get_contents函数抓取网页指定内容

来源:互联网 发布:下载网购淘宝网 编辑:程序博客网 时间:2024/06/10 08:38

今天在csdn上面看到有人问,抓取页面指定内容,然后预算100以内,然后就点了个竞标,虽然不知道能不能拿下来,毕竟一百也是钱啊偷笑,然后想想看怎么做,代码直接贴上来算了,看到了就赚到了。

<?php//有些网页加载时间比较长,可以通过动态设置执行最大时间,可选//ini_set("max_execution_time", "45");//有些网页有防盗链,可以模拟成浏览器去请求,可选ini_set('user_agent','Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; 4399Box.560; .NET4.0C; .NET4.0E)');$url = 'http://news.sohu.com/';//也可以用fopen或者强大的curl$info=file_get_contents($url);//针对编码问题,可以转码,可选//$info =  mb_convert_encoding($html,'utf8','gbk');//如果想只匹配一次,可以用preg_match函数preg_match_all('/<h1><a href="(.*)" title="" .*>(.*)<\/a><\/h1>/i',$info,$m);//结果已经出来啦//var_dump($m);//把找到了链接和新闻,组装成k=>v形式,这样方便展示到自己的页面上$news = array_combine($m[1],$m[2]);var_dump($news);

就这样,我们就得到了搜狐新闻的h1标题新闻啦。

结果如下:

0 0