爬虫demo
来源:互联网 发布:python float to int 编辑:程序博客网 时间:2024/06/04 17:48
使用代理服务器爬取网站内容
由于实验数据的需要,本人采用爬虫在网络上爬取资源。当然本人所搭建的爬虫属于菜鸟级别的,若有不妥之处,还请批评指正。爬虫的原理比较简单,主要注意几点细节即可。
我们重点针对的细节问题是:
(1)对于被爬取网站,同一爬虫ID识别机制,我们采用代理服务器的方式进行轮询代理。
(2)对于被爬取网站的不稳定性,我们采用多次爬取知道成功的机制。
(3)为了不影响被爬取网站的正常服务。我们需要降低我们的爬取频率。
Outlines
爬虫框架
代理服务器的搭建.
代理服务器有很多可以选择,我这里采用的Apache服务器在centos上直接搭建的。搭建过程需要关闭centos的防火墙。
Centos是自带Apache服务器的。如果没有请移步可以去Apache官网下载,并自行安装。
进入到Apache的配置文件中,默认的目录如下:/etc/httpd/conf/httpd.conf
修改的内容位于底部:
(1) NameVirtualHost *:80
(2)
<VirtualHost *:80> ProxyRequests On ProxyVia On <Proxy *> Order allow,deny Allow from all </Proxy> </VirtualHost>
修改完成后,重启服务器即可。Service restart httpd.
Java代码部分:
System.getProperties().setProperty(“http.proxyHost”, ip);
System.getProperties().setProperty(“http.proxy”+ “Port”, port);
通过上面两行代码,修改Java虚拟机的网络代理地址以及端口。
详情见:git(暂时还在完善)。
阅读全文
0 0
- 爬虫demo
- java 爬虫Demo
- python 爬虫demo
- 网页爬虫简单demo
- Android 网络爬虫demo
- python爬虫demo
- Scrapy爬虫Demo
- Python爬虫demo
- webcollector爬虫demo
- PY爬虫Demo集合
- Java小爬虫Demo
- python 爬虫demo
- 网络爬虫小Demo
- java爬虫demo
- scala 爬虫demo
- Python爬虫简单的demo
- PYTHO 爬虫,抓去京东产品价格DEMO
- crawler爬虫demo, 基于gecco
- Git指令整理
- Build Android-Based Smart Applications (2018).pdf 英文原版 免费下载
- iOS @property (copy) NSMutableArray *array;用copy、strong出现问题
- 数值优化方法
- Java基础知识02-增强型的foreach循环
- 爬虫demo
- Effective Java, Third Edition.pdf 英文原版 免费下载
- 什么是JavaScript
- Modern Software Engineering Methodologies for Mobile and Cloud Environments.pdf 英文原版 免费下载
- MySQL数据库的学习(1)-概念+学习路径规划
- jQuery 里面的attr()方法
- SpringBoot扩展分析
- 52-IO流(文件切割)53-IO流(文件合并) 创建文件后缀类名的步骤 54-IO流(文件切割合并+配置文件). 56-IO流(ObjectInputStream-对象的反序列化)
- Nested KVM