QING:免费好用的文本浏览器,爬虫模块

来源:互联网 发布:linux 目录权限 最大 编辑:程序博客网 时间:2024/04/28 04:52

向大家介绍一款非常好用的文本浏览器,爬虫模块。免费好用。下载地址为:http://www.qcreader.com/download.html。
QING非常合适用于从网上抓取深度数据,快速搭建自己的定向数据引擎。如果我们使用各种工具,依然无法建立一个合适于自己的数据系统,那么,QING可能是个不错的选择。
QING的目标在于准确的抓取到一切可在网页上呈现的数据,并以合适于程序批量处理的方式输出。通过QING,可以对互联网上呈现的一切数据做批量抓取,重组织,以便合适于企业各类业务使用。
QING提供强大,稳定的功能,使得定向数据引擎开发变得异常简单,数据输出变得深入,稳定。
QING支持如下功能:

1、HTML页面的抓取
QING支持HTTP,以及HTTPS(比如:https://www.tmall.com/)协议,支持对各类网页的网络抓取。QING复杂的HTTP流程。有些网站,比如:http://www.taobao.com,直接抓取会返回302,但QING会得到正确的页面数据。

2、HTML页面的解析
HTML是使用最广泛,同时也是使用最混乱的标记语言。QING拥有复杂的HTL解析引擎,支持对各类复杂HTML页面的解析。包括处理编码,标签闭合,链接拼接等等异常情况,并输出成标准的DOM树结构,使上层使用变得异常简单。

3、图片抓取
图片是互联网重最要的媒介。QING完美支持对各种格式(JPEG,PNG)的图片,并与HTML页面进行同步抓取。页面的图片数据,通过QING::TNode的img属性返回,可以方便地对这些图片进行转存。

4、背景图片抓取
有些页面,图片的展现,并不是通常的节点,而是给某些节点设置背景。由于节点的背景属性位于CSS中,而非HTML中,导致抓取困难。比如:http://www.meet99.com/jingdian-jiuzhaigoufengjingqu.html,如下图片就是以背景方式呈现的。

QING支持背景图片的抓取,并与图片一样,存于节点的img属性中。

5、滚动加载
滚动加载(迟后加载)是广泛被使用的技术。很多页面,比如:淘宝的宝贝页面,大众点评的团购页面,都使用了滚动加载技术。所谓“滚动加载”,即是:页面的许多元素,一开始并不被加载,直到页面往下滚动到需要展现的时候,才加载。如果不支持滚动加载,则页面数据是不全的。QING完美支持滚动加载,使得进行复杂的数据粹取变得简单。

6、支持JS
JS(JavaScript)技术被广泛应用于各大网站中。很多网站的关键数据,都有JS保护。比如:淘宝,天猫,京东的商品价格数据,网易等网站新闻的评论数据,等等,都是通过JS输出的,直接抓取HTML页面,并不能得到这些数据。QING支持强大复杂的JS解析,这些受JS保护的数据,通过QING,无需进行复杂的分析,很容易直接抓取到。

7、支持CSS高级属性
一个HTML页面中的各元素,并不是平等的。比如标题,就是被强调的元素。复杂页面的解析,特别是通用解析器(非针对于各网站的特定解析器),需要能有效地识别页面各元素之间的差异。QING支持CSS高级属性,可准确地标记出各元素的大小,颜色,在页面上的位置等诸多属性,

8、支持本地缓存
在进行复杂抓取的时候,绝大部分页面的数据,都是重复使用的,比如:JS文件,CSS文件,很多图片文件,等等。这些数据,如果每个页面都重复抓取,将极大地拖慢抓取速度。而本地缓存,能极大地提高抓取速度。使用本地缓存,能使抓取速度提高4倍左右。比如:网易首页,大概有400个左右个文件需要加载,其中,280多个文件能被缓存。

9、支持加载策略
加载策略是指:指定哪些文件,哪个类型的文件将被加载或不被加载。比如:我们指定不加载图片,或者,不加载Google分析的JS文件,等等。加载策略使得抓取变得非常灵活。好的加载策略,能极大地提高抓取的速度与质量。

10、支持缓存策略
缓存策略用于指定哪些文件,哪个类型的文件将被缓存或不被缓存。通过设置缓存策略,提高本地缓存的效率。

11、支持原始文件输出
有些数据是隐形的,往往通过页面动态的json返回,比如:地图数据。这些非常深入的数据,有时候需要分析动态返回的原始数据。QING支持获取这些原始数据,以便于外部特定目的的解析使用。

0 0