网站类型和爬虫抓取类型
来源:互联网 发布:调音量软件下载 编辑:程序博客网 时间:2024/05/21 21:33
网络爬虫的种类可以分为通用爬虫和主题爬虫两种,根据爬取的广度的不同,爬取方式可以分为特定爬取和广泛爬取。按照爬取方式的不同,网站又可以分为源码开放型和源码不开放型、登录可爬型和非登录可爬型。针对不同的网站,需要使用不同的爬取方式。
网站类型:
1、源码开放非登录可爬型
这种类型的网站是最为普遍且最方便爬取的网站,我们只需要下载其源码并抽取需要的信息即可。抽取方式可以使用Jsoup工具和正则表达式匹配。Jsoup相对简单,对于初学者而言,极易上手。而通过正则表达式来匹配,则需要初学者对正则表达式有一定了解。本文建议可以先用Jsoup进行解析,然后对解析出来的结果有必要进行抽取的,再通过正则表达式进行匹配。注意有时候网站的标签会发生变化,这种变化可能会引起原来的Jsoup解析和正则表达式匹配不正确,在这种情况下,只能以变应变了。
2、源码开放登录可爬型
这种类型的网站也比较多,它只对登录用户可见,或者对非登录用户部分可见,如知乎、清水河畔、CSDN等等。对于这种网站,需要爬取它的内容,就需要首先注册其网站,然后登录网站并抓包分析,在代码中实现登录功能后,就可以对其源码进行下载操作了。详细参考:HttpClient4.4登录知乎(详细过程)http://my.oschina.net/jiangmitiao/blog/483092?fromerr=ZYDEcWj7
https://github.com/MessiMercy/LoginZhihu
3、源码不开放非登录可爬型
这种类型的网站不多,但是我也遇到过,如爬取新闻评论,我对腾讯、新浪和网易的新闻评论都进行了查看,发现其并不显示源码。针对这种网站,我们只能去寻找它的文档API,然后下载其API进行解析。我们可以通过在浏览器下按快捷键F12,在Source一栏寻找其API。
特定爬取和广泛爬取:
所谓特定爬取和广泛爬取指的是是否针对特定网站进行的爬取,如果是,则为特定爬取,否,则为广泛爬取。特定爬取较简单,我们只需对其网站的标签进行分析,然后通过Jsoup工具或者正则表达式进行必要信息的抽取即可。而广泛爬取当然我们也可以按照特定网站爬取的方式对标签进行分析,只不过要分很多种类罢了,较为普遍的使用方法是通过抽取信息的共同特点,根据一些算法进行通用特征的抽取来实现全网爬取。例如,在我们需要爬取全网的新闻内容时,我们就可以采用基于行块分布函数的通用网页正文抽取算法来抽取新闻正文。
还有一种下载源码需要响应网站的许可证,可以参考:
http://blog.csdn.net/mengxianhua/article/details/6045144
- 网站类型和爬虫抓取类型
- 爬虫系列3网站构建技术类型
- 爬虫类型
- 爬虫实践---抓取小说网站
- Scrapy爬虫抓取网站数据
- 网站类型
- 爬虫任务设计要有父子概念,即抓取网站和抓取任务的概念
- 抓取防爬虫的网站信息
- 网络爬虫之抓取网站新闻
- java实现网络爬虫--抓取网站数据
- python 实现网站图片抓取小爬虫
- 【Python】爬虫入门--抓取网站图片
- 使用爬虫抓取网站异步加载数据
- 爬虫:实现网站的全部图片抓取
- JAVA使用爬虫抓取网站网页内容
- [记录]Java网络爬虫基础和抓取网站数据的两个小实例
- Java网络爬虫基础和抓取网站数据的两个小实例
- 爬虫,可用于增加访问量和抓取网站全页内容
- javascript不错的网站
- eclipse配置tomcat,访问http://localhost:8080出现404错误
- Opencv+C++之人脸识别二
- Effective Java 学习笔记(三)
- 关于PHP程序员解决问题的能力
- 网站类型和爬虫抓取类型
- Centos6.6中DNS服务器安装
- MJRefresh 使用
- org.aspectj.lang.JoinPoint-中文简要API
- C# 值类型与引用类型详解
- Java实现网页截屏(未测试)
- java枚举使用详解
- service redis does not support chkconfig的解决办法
- Java常用排序算法/程序员必须掌握的8大排序算法