Twitter实时URL抓取服务架构 - SpiderDuck与NoSQL
来源:互联网 发布:战舰世界塞班数据 编辑:程序博客网 时间:2024/06/07 06:16
SpiderDuck的架构如下图所示:
Twitter实时URL抓取服务架构 - SpiderDuck与NoSQL - PHP网站开发 - 每日最新博客在置顶博客之后
其分为下面几个部分:
Kestrel: 是一个Twitter在使用的队列服务,这里将所有需要抓取的URL放入此队列中。
Schedulers(调度器):调度器主要负责如下一些工作:在抓取前决定这个URL是否抓取(在最近N天 内抓取过的不再进行抓取),在抓取中对跳转进行处理、以及对抓取工作进行调度,在抓取工作完成后,解析抓取内容,分析出其metadata信息,然后将此 信息存入Metadata Store,并将抓取到的内容存到Content Score中。调度器是队列的处理程序,所以调度器之间互不依赖,能够很好的进行横向扩展。
Fetchers(抓取器): 这是一个提供 Thrift 接口的抓取服务,主要工作是抓取URL内容,同时其会通过对网站的robots.txt进行分析,从而进行抓取频率控制,以使通过频率变化进行相应的横向扩展。
Memcached: 这是一个用Memcached构建的分布式缓存系统 ,主要是为抓取器缓存robots.txt文件内容。
Metadata Store:这是一个基于Cassandra的分布式hash table,用于存储URL内容的meta信息与URL的映射关系。同时对外提供实时的对metadata的请求服务。
Content Store: 这是一个 HDFS 集群,用于保存所有抓取到的内容实体,协调器通过Scribe将数据写入HDFS中。
NoSQLFan后记:Cassandra曾因Twitter而一夜成名,尔后Twitter因为架构变迁放弃 了Cassandra的使用,再到后面使用Cassandra的一些大公司相继出现一些问题,导致Cassandra最近一直不温不火。此次在实时URL 抓取服务SpiderDuck中,Twitter使用了Cassandra来存储重要的metadata信息,相信对各位持观望态度的同学又是一记强心 针。
Twitter实时URL抓取服务架构 - SpiderDuck与NoSQL - PHP网站开发 - 每日最新博客在置顶博客之后
其分为下面几个部分:
Kestrel: 是一个Twitter在使用的队列服务,这里将所有需要抓取的URL放入此队列中。
Schedulers(调度器):调度器主要负责如下一些工作:在抓取前决定这个URL是否抓取(在最近N天 内抓取过的不再进行抓取),在抓取中对跳转进行处理、以及对抓取工作进行调度,在抓取工作完成后,解析抓取内容,分析出其metadata信息,然后将此 信息存入Metadata Store,并将抓取到的内容存到Content Score中。调度器是队列的处理程序,所以调度器之间互不依赖,能够很好的进行横向扩展。
Fetchers(抓取器): 这是一个提供 Thrift 接口的抓取服务,主要工作是抓取URL内容,同时其会通过对网站的robots.txt进行分析,从而进行抓取频率控制,以使通过频率变化进行相应的横向扩展。
Memcached: 这是一个用Memcached构建的分布式缓存系统 ,主要是为抓取器缓存robots.txt文件内容。
Metadata Store:这是一个基于Cassandra的分布式hash table,用于存储URL内容的meta信息与URL的映射关系。同时对外提供实时的对metadata的请求服务。
Content Store: 这是一个 HDFS 集群,用于保存所有抓取到的内容实体,协调器通过Scribe将数据写入HDFS中。
NoSQLFan后记:Cassandra曾因Twitter而一夜成名,尔后Twitter因为架构变迁放弃 了Cassandra的使用,再到后面使用Cassandra的一些大公司相继出现一些问题,导致Cassandra最近一直不温不火。此次在实时URL 抓取服务SpiderDuck中,Twitter使用了Cassandra来存储重要的metadata信息,相信对各位持观望态度的同学又是一记强心 针。
0 0
- SpiderDuck与NoSQL – Twitter实时URL抓取服务架构
- Twitter实时URL抓取服务架构 - SpiderDuck与NoSQL
- 实时机票/火车票抓取系统整体架构
- Twitter开源大数据实时分析系统Heron:Heron架构
- Twitter开源大数据实时分析系统Heron:Heron架构
- Twitter开源大数据实时分析系统Heron:Heron架构
- Twitter架构
- go语言抓取twitter
- 通过调用Twitter API抓取Twitter数据
- 实时通信服务架构:微服务和服务发现
- Tweepy抓取twitter数据 1
- 网络流量抓取与还原系统Xplico架构
- 关于 Windows Live 与 Twitter 的重要服务变动
- 百度 谷歌 Twitter,这么多短链接服务(Short Url)到底哪家强?
- Twitter实时搜索系统EarlyBird
- Twitter架构学习
- Twitter网站架构介绍
- twitter技术架构
- 讨论程序员一天代码量
- Using Text Components
- 彩票投注软件开发必须考虑的因数
- 菜鸟的安卓实习之路----dialog大小,位置等的调整
- C++求最大公约数和最小公倍数
- Twitter实时URL抓取服务架构 - SpiderDuck与NoSQL
- 可能改变你一生的英语名言警句
- ALV EDIT_MASK应用-负号前置/小数位处理 .
- 最短路(Dijkstra)
- linux下实现g++编译链接c++源文件和头文件
- hdu1875畅通工程再续【最小生成树】
- Sql Server 使用CTE实现递归查询(抄)
- http://sebug.net/paper/databases/nosql/Nosql.html
- jQuery性能优化--循环时的DOM操作