PHP实现多线程抓取网页
来源:互联网 发布:手机精确定位软件 编辑:程序博客网 时间:2024/05/22 17:07
来源:http://www.cnblogs.com/jyginger/archive/2010/07/20/1781516.html
PHP 利用 Curl Functions 可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,受限于php语言本身不支持多线程,所以开发爬虫程序效率并不高,这时候往往需 要借助Curl Multi Functions 它可以实现并发多线程的访问多个url地址。既然 Curl Multi Function如此强大,能否用 Curl Multi Functions 来写并发多线程下载文件呢,当然可以,下面给出我的代码:
代码1:将获得的代码直接写入某个文件
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
<?php
$urls
=
array
(
'http://www.sina.com.cn/'
,
'http://www.sohu.com/'
,
'http://www.163.com/'
);
// 设置要抓取的页面URL
$save_to
=
'/test.txt'
;
// 把抓取的代码写入该文件
$st
=
fopen
(
$save_to
,
"a"
);
$mh
= curl_multi_init();
foreach
(
$urls
as
$i
=>
$url
) {
$conn
[
$i
] = curl_init(
$url
);
curl_setopt(
$conn
[
$i
], CURLOPT_USERAGENT,
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)"
);
curl_setopt(
$conn
[
$i
], CURLOPT_HEADER ,0);
curl_setopt(
$conn
[
$i
], CURLOPT_CONNECTTIMEOUT,60);
curl_setopt(
$conn
[
$i
], CURLOPT_FILE,
$st
);
// 设置将爬取的代码写入文件
curl_multi_add_handle (
$mh
,
$conn
[
$i
]);
}
// 初始化
do
{
curl_multi_exec(
$mh
,
$active
);
}
while
(
$active
);
// 执行
foreach
(
$urls
as
$i
=>
$url
) {
curl_multi_remove_handle(
$mh
,
$conn
[
$i
]);
curl_close(
$conn
[
$i
]);
}
// 结束清理
curl_multi_close(
$mh
);
fclose(
$st
);
?>
代码2:将获得的代码先放入变量,再写入某个文件
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
<?php
$urls
=
array
(
'http://www.sina.com.cn/'
,
'http://www.sohu.com/'
,
'http://www.163.com/'
);
$save_to
=
'/test.txt'
;
// 把抓取的代码写入该文件
$st
=
fopen
(
$save_to
,
"a"
);
$mh
= curl_multi_init();
foreach
(
$urls
as
$i
=>
$url
) {
$conn
[
$i
] = curl_init(
$url
);
curl_setopt(
$conn
[
$i
], CURLOPT_USERAGENT,
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)"
);
curl_setopt(
$conn
[
$i
], CURLOPT_HEADER ,0);
curl_setopt(
$conn
[
$i
], CURLOPT_CONNECTTIMEOUT,60);
curl_setopt(
$conn
[
$i
],CURLOPT_RETURNTRANSFER,true);
// 设置不将爬取代码写到浏览器,而是转化为字符串
curl_multi_add_handle (
$mh
,
$conn
[
$i
]);
}
do
{
curl_multi_exec(
$mh
,
$active
);
}
while
(
$active
);
foreach
(
$urls
as
$i
=>
$url
) {
$data
= curl_multi_getcontent(
$conn
[
$i
]);
// 获得爬取的代码字符串
fwrite(
$st
,
$data
);
// 将字符串写入文件。当然,也可以不写入文件,比如存入数据库
}
// 获得数据变量,并写入文件
foreach
(
$urls
as
$i
=>
$url
) {
curl_multi_remove_handle(
$mh
,
$conn
[
$i
]);
curl_close(
$conn
[
$i
]);
}
curl_multi_close(
$mh
);
fclose(
$st
);
?>
0 0
- PHP实现多线程抓取网页
- PHP实现多线程抓取网页
- PHP中多线程抓取网页
- PHP采用curl多线程抓取网页功能实现
- python多线程实现抓取网页
- PHP 利用 Curl Functions 实现多线程抓取网页和下载文件
- php抓取网页的若干实现方式
- CURL多线程抓取网页
- 多线程快速抓取网页
- Python 多线程抓取网页
- PHP代码片段记录:+多线程抓取网页等
- 网页抓取:PHP实现网页爬虫方式小结
- 网页抓取:PHP实现网页爬虫方式小结
- 用PHP抓取网页
- PHP进行网页抓取
- 实用PHP网页抓取
- 实用PHP网页抓取
- PHP 抓取网页源文件
- C++输入输出的关键字:getline、get
- VM下CentOS7x86-64bit+JDK1.8+hadoop2.7.2安装部署
- 机房重构——存储过程详解
- mybatis连接mysql数据库插入中文乱码
- NYOJ 超级台阶
- PHP实现多线程抓取网页
- 波浪动画实现方法的改进——用自定义SurfaceView实现
- Leetcode 4. Median of Two Sorted Arrays
- 过程质量和结果质量
- IM同步协议
- 4.5.3 Async耗时操作必须由子线程完成,更新UI需要由主线程完成
- [leetcode] 166. Fraction to Recurring Decimal
- 应邀ITGeGe在线教育社区嵌入式基础开发讲师
- 加权GN算法的Java实现