从Larbin看互联网爬虫设计
来源:互联网 发布:淘宝儿童睡衣 编辑:程序博客网 时间:2024/05/09 00:14
互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现
要设计一个爬虫,首先需要考虑的效率。对于网络而言,基于TCP
第一种是单线程阻塞,这是最简单也最容易实现的一种,一个例子
第二种是多线程阻塞。建立多个阻塞的线程,分别请求不同的url
第三种是单线程非阻塞。这是目前使用的比较多的一种做法
效率问题解决后就需要考虑具体的设计问题了。
url肯定需要一个单独的类进行处理,包括显示,分析url
然后需要对url进行排重,需要一个比较大的url Hash表。
如果还要对网页内容进行排重,则还需要一个Document Hash表。
爬过的url需要记录下来,由于量比较大,我们将它写到磁盘上
现在需要爬的url同样需要一个FIFO类来处理,重新开始时
爬虫一般是对多个网站进行爬取,但在同时站点内dns的请求可以只
主机名解析完成后需要有一个解析完成的IP类与之应用
HTML文档的解析类也要有一个,用来分析网页,取出里面的url
再加上一些字符串,调度类,一个简单的爬虫基本上就完成了。
以上基本上是Larbin的设计思路,Larbin在具体实现上还
- 从Larbin看互联网爬虫设计
- 从Larbin看互联网爬虫设计
- 从Larbin看互联网爬虫设计(转载)
- 从Larbin看互联网爬虫设计
- 从Larbin看互联网爬虫设计
- 从Larbin看互联网爬虫设计
- 从Larbin看互联网爬虫设计
- 从Larbin看互联网爬虫设计
- 从《征途》看互联网盈利模式的设计
- 网络爬虫的设计——参考larbin
- 网络爬虫 Larbin 源码
- Larbin 爬虫工具介绍
- Larbin 爬虫工具介绍
- linux下爬虫larbin
- Larbin网络爬虫
- 爬虫larbin运行过程
- larbin网络爬虫分析
- 网络爬虫 larbin
- Irrlicht引擎手册示例(一):Hello,World!
- 文本编辑器FCKeditor的冰冷之心
- Linux IPv4 协议实现
- ASP.NET+C#使用JMail发送邮件
- 对Invalidate()和updateWindow 理解
- 从Larbin看互联网爬虫设计
- 获取xml里最后一个节点的属性值
- Nutch搜索引擎分析
- 无线应用--方兴未艾PoC
- 搜索引擎中网络爬虫的设计分析
- 装discuz!NT遇到的一系列问题的解决方法。
- XCAP协议中的幂等性(idempotency)研究
- 该死的垃圾下载点
- 使用 SpiderMonkey 使 C++应用支持 JavaScript 脚本引擎