网络爬虫 介绍
来源:互联网 发布:js阻止超链接跳转 编辑:程序博客网 时间:2024/06/05 14:34
一:网络爬虫的工作原理
网络爬虫即Web Spider 。其原理如下图所示。
网络爬虫在搜索时通常采用一定的策略,来提高搜索效率。
(1)广度优先策略
网络爬虫先抓取其实网页链接到的所以网页,然后在选择其中的一个链接网页继续抓取在此网页中链接的所有网页,这种方法可以让网络蜘蛛并行处理,提高抓取速度
(2)深度优先策略
网络蜘蛛会从起始页开始,一个链接一个链接的跟踪下去,处理完这条线路之后在转入下一条起始页,继续跟踪链接,这种方式的设计比较简单
二:聚焦搜素策略
聚焦搜索策略需要按照一定的网页分析算法过滤掉与主题无关的连接,保留有用链接,并将其放入URL队列,之后根据一定的搜索策略从队列中选择下一步要抓取的URL,并重复上述过程,直到达到某一条件为止。
与普通网络爬虫相比,聚焦爬虫主要增加了两点:
(1):对抓取目标主题进行定义与描述
(2):对网页数据分析与主题匹配
聚焦类爬虫工作流程:
对页面聚焦的分析和主题匹配
(1)基于网络拓扑结构的分析算法:
PageRank算法
HITS算法
(2)基于网页内容的分析算法:
wrapper算法
机器学习模式的数据挖掘算法
0 0
- 网络爬虫技术介绍
- 网络爬虫的介绍
- 网络爬虫 介绍
- 网络爬虫介绍
- 网络爬虫介绍
- 网络爬虫介绍(待完善)
- 网络爬虫研发重点介绍
- 开源网络爬虫介绍及其比较
- 开源网络爬虫介绍及其比较
- 开源网络爬虫介绍及其比较
- 开源网络爬虫介绍及其比较
- 【搜索引擎基础知识2】网络爬虫的介绍
- 分布式网络爬虫框架Cola介绍
- 【搜索引擎基础知识2】网络爬虫的介绍
- 网络爬虫介绍及数据采集
- .Net开源网络爬虫Abot介绍
- Net开源网络爬虫Abot介绍
- 精通Python网络爬虫-书籍介绍
- Shell脚本处理“integer expression expected”
- Linux下安装Matlab2014及破解
- 算法导论—基于BFS的图算法
- PHP中的数组指针
- 想成为优秀的程序员真的很难?
- 网络爬虫 介绍
- 什么情况需要 if (log.isDebugEnabled()) {}
- 内存字节对齐
- onConfigurationChanged
- c语言libcurl网络http操作编程库使用
- 让UNION与ORDER BY并存于SQL语句当中
- 如何在线操作监听日志listener.log
- Spring IOC容器管理struts2中遇到的一些问题
- CSS格式化排版