RSS网络爬虫的时间规则
来源:互联网 发布:java 方法签名 throw 编辑:程序博客网 时间:2024/05/01 19:00
RSS网络爬虫的时间规则
整理:Ackarlix
挨踢网【中文IT技术社区】http://www.aitic.net
RSS的网络爬虫的时间规则的设置:
设定RSS爬虫重新访问的5个级别:
Level[1]=20 Minutes
Level[2]=200 Minutes
Level[3]=1000 Minutes
Level[4]=2000 Minutes
Level[5]=10000 Minutes
设定RSS 源的权重为从0到5
RssRank=0 ~ 5
要点:
1.每一个RSS 源对应一个时间T[i],这个时间取整就得到 Level 。例如,这个时间是250分钟,那么就取Level[2],就是每隔200分钟抓取一次。
2.每一次这个对应时间都是改变的,根据这个RSS源有没有变化。
3.当更新了,这个时间就除以1.2 ,当未更新,这个时间就乘以1.2。
4.RssRank起到调整更新时间级别的规则。例如当一个RSS在Level[5],但是它的RssRank是3,那么更新时间调整为Level[5-3] = Level[2] = 200分钟。
总体公式:
T[i+1] = T[i] [*(1.2)/(1.2)]
T = Level[ AntiLevel[T[i][(1.2)|/(1.2)]] - RssRank]
经过长时间的运行,T序列都变动非常稳定。
另外,替朋友招聘〔垂直搜索〕开发人员。有兴趣请发简历给我。luliang#bokee.com ,另外今天晚上的搜索引擎沙龙讨论的主题是垂直搜索。
- RSS网络爬虫的时间规则
- RSS网络爬虫的时间规则
- 网络爬虫的规则
- 网络爬虫,使用NodeJs抓取RSS新闻
- 网络爬虫规则(一)
- 网络爬虫规则(二)
- Python网络爬虫与信息提取 网络爬虫之规则
- 第一周测验:网络爬虫之规则
- Java--实现网络爬虫抓取RSS新闻(1)网络爬虫详解
- Java的网络爬虫
- 简单的网络爬虫
- 网络爬虫的实现
- 网络爬虫的用法
- 网络爬虫的东东
- 网络爬虫的基本原理
- 网络爬虫的实现
- 网络爬虫的介绍
- 简易的网络爬虫
- 如何挑选适合服务器的Linux OS发行版?
- SAP中多层扩展有效地bom
- IA32保护模式所包含的内容
- 爬虫技术研究综述
- 世界上最牛的逻辑
- RSS网络爬虫的时间规则
- 搜索引擎创新论
- 断言函数assert()
- People come into your life for a reason
- C++的const关键字
- 最简单的ajax
- 端口整合Apache和Tomcat
- 善待自己的恻隐之心
- Oracle中的数据字典技术初级入门