《自己动手写网络爬虫》笔记4-带偏好的网络爬虫
来源:互联网 发布:阿里云服务器登录密码 编辑:程序博客网 时间:2024/05/22 07:49
有的时候提取URL的时候不一定按照队列“先进先出”的方式来进行遍历,而是将某些重要的URL先遍历,这种策略称为“页面选择”(Page Selection)。这种策略可以有效地照顾重要性高的网页。
1.网页重要性高的因素
链接的欢迎度:
主要由反向链接(backlinks,指向当前URL的链接)的数量和质量决定,我们定义为IB(P);
链接的重要度:
这是一个关于URL富川的函数,仅仅考察字符串本身,例如,我们认为“.com”和“home”的URL重要度比“.cc”和”map”高,我们定义为IL(P);
平均链接的深度:
跟读宽度优先的原则计算出全站的平均链接深度,然后认为距离种子站点越近的重要性越高。我们定义为ID(P);
如果我们定义一个网页的重要性为I(P),那么由下面的公式所决定:
I(P)=X*IB(P)+Y*IL(P)
其中X和Y两个参数用来调整IB(P)和IL(P)所占的比例的大小,ID(P)由宽度优先的遍历规则保证,因此不作为重要的指标函数。
例子
假设下图中节点的重要性排序为D>B>C>A>E>F>I>G>H。
0 0
- 《自己动手写网络爬虫》笔记4-带偏好的网络爬虫
- 自己动手写网络爬虫
- 自己动手写网络爬虫
- 自己动手写网络爬虫
- 《自己动手写爬虫网络》笔记1
- 自己动手写网络爬虫学习笔记
- 《自己动手写网络爬虫》笔记5-设计爬虫对列
- 自己动手写网络爬虫1
- 《自己动手写网络爬虫》笔记2-Http状态码
- 《自己动手写网络爬虫》笔记3-宽度优先遍历互联网
- 自己动手写网络爬虫-----(1)
- 自己动手写网络爬虫(第一天)
- WebMagic写的网络爬虫
- WebMagic写的网络爬虫
- WebMagic写的网络爬虫
- WebMagic写的网络爬虫
- WebMagic写的网络爬虫
- WebMagic写的网络爬虫
- 【Android休眠】之Android对PowerKey事件的处理(2)EventHub
- 桶排序 原理(简单版)
- 关于apache2报443端口被占用的问题
- EditText单行、多行和自动换行显示内容以及只输入数字和小数点
- 【Android休眠】之休眠锁的获取和释放
- 《自己动手写网络爬虫》笔记4-带偏好的网络爬虫
- 【Android休眠】之AutoSleep
- maven项目常用技巧: profile与资源过滤
- JVM之——生产环境jvm参数设置建议
- 红帽RHEL7版本RHCE认证学习及考试经历
- seo软文标题写作技巧:好的标题是靠这样想出来的
- jquery each报 Uncaught TypeError: Cannot use 'in' operator to search for错误
- hibernate三套查询
- 文章标题