RSS网络爬虫的时间规则

来源:互联网 发布:java 方法签名 throw 编辑:程序博客网 时间:2024/05/01 19:00

RSS网络爬虫的时间规则

 

整理:Ackarlix

挨踢网【中文IT技术社区】http://www.aitic.net

 

RSS的网络爬虫的时间规则的设置:

 

设定RSS爬虫重新访问的5个级别:

 

Level[1]=20 Minutes

Level[2]=200 Minutes

Level[3]=1000 Minutes

Level[4]=2000 Minutes

Level[5]=10000 Minutes

 

设定RSS 源的权重为从0到5

 

RssRank=0 ~ 5

 

要点:

1.每一个RSS 源对应一个时间T[i],这个时间取整就得到 Level 。例如,这个时间是250分钟,那么就取Level[2],就是每隔200分钟抓取一次。

2.每一次这个对应时间都是改变的,根据这个RSS源有没有变化。

3.当更新了,这个时间就除以1.2 ,当未更新,这个时间就乘以1.2

4.RssRank起到调整更新时间级别的规则。例如当一个RSSLevel[5],但是它的RssRank3,那么更新时间调整为Level[5-3] = Level[2] = 200分钟。

 

总体公式:

 

T[i+1] = T[i] [*(1.2)/(1.2)]

T = Level[ AntiLevel[T[i][(1.2)|/(1.2)]] - RssRank]

 

经过长时间的运行,T序列都变动非常稳定。

 

另外,替朋友招聘〔垂直搜索〕开发人员。有兴趣请发简历给我。luliang#bokee.com ,另外今天晚上的搜索引擎沙龙讨论的主题是垂直搜索。

 

原创粉丝点击