大数据平台的一些认识

来源:互联网 发布:tcl网络电视怎么看卫视 编辑:程序博客网 时间:2024/05/07 08:32

 

 

大数据平台的主流架构大体就是通过flume来获取数据,然后可以存贮到hdfs中,也可以发送到kafka进行storm的实时计算,存储到hdfs中的数据可以进行mapreduce进行清洗,然后可以选择存储到hive和hbase,在hive和hbase进行mapreduce或者spark计算,然后实现数据的分析进而通过sqoop导入到mysql或oracle数据库中通过web进行可视化。

大数据呢,通过数据产生价值,提高自己的产业竞争力,最好能实现双赢,双赢最好的例子呢就是我印象中QQ在大概2009年左右,他能根据你的好友来推荐一些好友,当时呢我正在上高中,他通过我的一些小学同学的好友,通过我们有几个共同的好友来判断这个是我的同学进而通过海量的交集构建出一个小学我们班的一个好友目录推荐给我,也正是这样我联系到了更多我的小学同学,这就是一个双赢的例子。而优化自身的就更多了,淘宝的实时推荐等等,还有就是一些离线的数据分析,通过一段时间的数据进行分析,例如一个制片人,他要考虑这个影片的收视率,他可以通过分析收视率找出某类影片的收视率正在上涨,在这这些收视率正在上涨的影片类型中选择,这样在我们拍摄完成成功上映的时候正式这类影片的一个峰值,这些都不是空穴来风,你可能只看到了成功而木有看到这些背后所做的一些预算和分析。

大数据的架构就如同一个软件一样,需要做的就是前期的规划,这个项目需要做实时处理吗,需要做以这个什么样的数据库,一些硬件或者网络的配置,需要实现的功能,并且需要根据具体的数据来进行设计,只是因为使用量没有软件那么大,没有形成一个类似软件工程的一套模式,我想在日后会形成一个规范去选取所需要的大数据组件来完成我们的大数据项目。

也许我现在的水平不是太好,但是我每天回去想一些关于数据以及数据可能产生的价值,希望以后能成为一个大数据架构师和一个数据分析师。

加油~

1 0
原创粉丝点击