Hbase迎接电信TB级大数据洗礼之热点网站功能实践

来源:互联网 发布:董小飒淘宝赚多少钱 编辑:程序博客网 时间:2024/05/02 04:54
在今年年初的时候联通王志军院长就Hadoop在电信行业的大数据应用谈了自己的经验,随着3G网络的发展中国联通目前运营着世界上最大的CDMA网络,流量运营是中国联通一个重要特点。中国联通3G套餐当中流量占比非常非常大,中国联通3G用户流量使用情况也是非常可观的。那么在3G网络功能中上网冲浪占了很大的比例,去研究用户感兴趣的热点网站成为了行为分析中很有特点的一项功能,联通就可以根据这些网站信息推出增值服务,古人云:大浪淘沙始到金啊!
 
Hbase作为分布式的数据库集群是如何迎接大数据的洗礼呢!,我们之前使用的是Oracle数据库作为存储数据的基石,但当数据量迅猛上涨后许多的瓶颈马上就会呈现出来,大量的数据统计、分组、排序、过滤的操作对Oracle数据库性能真是一个不小的挑战,由于数据不能分布处理,数据的查询速度可想而知。现在我们使用了Hbase数据库就可以很好的解决上述的一系列问题。下面对如何实践设计“热点网站”功能给出了我的一些设想。
 
表设计:手机上网表 tel-net table 简称 t-n 表
 

 ROW Key                       COLUMN+CELL

 18977777777                    column=msisdn:*#06#,     timestamp=1351560318018, value=100                                            
 18977777777                    column=msisdn:cellphone,timestamp=1351563680951, value=iphone-5                              
 18977777777                    column=sites:http,       timestamp=1351560423739, value=www.dataguru.cn    登陆网站
 18977777777                    column=sites:name,       timestamp=1351560476264, value=lianshuchengjin                                
 18977777777                    column=user:age,         timestamp=1351560350911, value=28                                             
 18977777777                    column=user:name,        timestamp=1351560335833, value=leonarding  

 18866662222                    column=msisdn:*#06#,     timestamp=1351560560622, value=101                                            
 18866662222                    column=msisdn:cellphone, timestamp=1351560540173, value=iphone-4
 18866662222                    column=sites:http,       timestamp=1351560630783, value=www.dataguru.cn    登陆网站
 18866662222                    column=sites:name,       timestamp=1351560664387, value=lianshuchengjin
 18866662222                    column=user:age,         timestamp=1351560606783, value=26
 18866662222                    column=user:name,        timestamp=1351560585193, value=sunev_yu

 15911112222                    column=msisdn:*#06#,     timestamp=1351560873212, value=102
 15911112222                    column=msisdn:cellphone, timestamp=1351560851244, value=iphone-3
 15911112222                    column=sites:http,       timestamp=1351562148765, value=www.itpub.net     登陆网站
 15911112222                    column=sites:name,       timestamp=1351562171874, value=itpub
 15911112222                    column=user:age,         timestamp=1351562118827, value=100
 15911112222                    column=user:name,        timestamp=1351562102858, value=tigerfish

第一步:在一定时间范围内找到所有手机经常上网的网址。
第二步:在map-reduce程序中进行统计和排名(由于手机号就是随机型的因此可以均衡的打散到各个节点执行)。
第三步:汇总结果后,把排名前20的热点网站输出,运营商就可以找到这些热点网站进行合作推出更符合用户倾向的套餐,大把大把的敛money。
后续还可以开发:用户倾向性分析、TOPn大流量排名分析、用户行为分析等等诸如此类的功能。
欢迎大家一起积极讨论,共创Hbase美好未来