php利用curl爬虫爬取微信公众号,防止ip封锁
来源:互联网 发布:网络虚拟礼物 编辑:程序博客网 时间:2024/06/08 17:01
前段时间遇到一个需求,是定向抓取一批微信公众号,于是找到了搜狗搜索引擎比较好,下面贴出源代码,各位可以试下
public function test(){
//搜狗抓取微信公众号
$url="http://weixin.sogou.com/weixin?type=1&s_from=input&query=农产品&ie=utf8";
$ifpost = 0;
$datafields = '';
$cookiefile = '';
$v = false;
//构造随机ip
$ip_long = array(
array('607649792', '608174079'), //36.56.0.0-36.63.255.255
array('1038614528', '1039007743'), //61.232.0.0-61.237.255.255
array('1783627776', '1784676351'), //106.80.0.0-106.95.255.255
array('2035023872', '2035154943'), //121.76.0.0-121.77.255.255
array('2078801920', '2079064063'), //123.232.0.0-123.235.255.255
array('-1950089216', '-1948778497'), //139.196.0.0-139.215.255.255
array('-1425539072', '-1425014785'), //171.8.0.0-171.15.255.255
array('-1236271104', '-1235419137'), //182.80.0.0-182.92.255.255
array('-770113536', '-768606209'), //210.25.0.0-210.47.255.255
array('-569376768', '-564133889'), //222.16.0.0-222.95.255.255
);
$rand_key = mt_rand(0, 9);
$ip= long2ip(mt_rand($ip_long[$rand_key][0], $ip_long[$rand_key][1]));
//模拟http请求header头
$header = array("Connection: Keep-Alive","Accept: text/html, application/xhtml+xml, */*", "Pragma: no-cache", "Accept-Language: zh-Hans-CN,zh-Hans;q=0.8,en-US;q=0.5,en;q=0.3","User-Agent: Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; WOW64; Trident/6.0)",'CLIENT-IP:'.$ip,'X-FORWARDED-FOR:'.$ip);
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_HEADER, $v);
curl_setopt($ch, CURLOPT_HTTPHEADER, $header);
$ifpost && curl_setopt($ch, CURLOPT_POST, $ifpost);
$ifpost && curl_setopt($ch, CURLOPT_POSTFIELDS, $datafields);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
$cookiefile && curl_setopt($ch, CURLOPT_COOKIEFILE, $cookiefile);
$cookiefile && curl_setopt($ch, CURLOPT_COOKIEJAR, $cookiefile);
curl_setopt($ch,CURLOPT_TIMEOUT,30); //允许执行的最长秒数
$ok = curl_exec($ch);
curl_close($ch);
unset($ch);
//正则匹配出微信名称
preg_match_all('|<label name="em_weixinhao">(.*?)<\/label>|is',$ok,$m);
var_dump($m);
}
阅读全文
0 0
- php利用curl爬虫爬取微信公众号,防止ip封锁
- PHP利用curl实现爬虫
- 爬虫爬取微信公众号
- 自动更改IP地址反爬虫封锁
- 自动更改IP地址反爬虫封锁
- PHP 利用curl发送指定远程IP请求
- php curl 伪造ip
- PHP cURL获取微信公众号access_token
- php curl获取微信公众号access_token
- PHP cURL获取微信公众号access_token
- [爬虫]解决ip被封锁的几种方法
- php curl 模拟微信公众号登入
- php curl指定远端IP
- PHP:防止跨域CURL采集数据
- php利用CURL查询天气预报
- PHP网络爬虫之CURL学习
- PHP的curl爬虫出现乱码
- php curl网络爬虫简单实例代码
- jdbcTemplate查询返回对象或集合
- ios进行版本更新提示
- python---删除链表中的元素
- JVM内存解密【转】
- 算法学习之路:分治策略-归并排序-java实现
- php利用curl爬虫爬取微信公众号,防止ip封锁
- JAVA进阶之XML及AJAX
- 【转载】A lightweight distributed task scheduling framework.(分布式任务调度平台XXL-JOB)
- js删除全选反选隔行变色
- 上传本地项目到仓库
- html+ajax上传大文件
- zabbix安装部署一
- list控件遍历获取内容
- eclipse /myeclipse 设置tomcat 的内存