大数据笔记-12.27海淀中关村

来源:互联网 发布:fanuc机器人模拟软件 编辑:程序博客网 时间:2024/04/28 13:52

一、Hadoop部署,Hadoop之父------》Doug  cutting 

(1)Cloudera                    25%

(2)Hortonworks              15%

(3)Others                         20%

加起来并不是100%


二、预计到2016年数据分析有1600万的缺口

认证   数据分析师、大数据架构师


三、Cloudera考试,获得Hadoop生态系统全方位的体验

1、具备基本Linux系统管理经验

2、MapReduce和HDFS的内置及如何搭建Hadoop框架

3、搭建Hadoop集群所需要考虑的网络因素

4、通过合适的集群配置和部署集成系统与数据中心的硬件

5、如何利用Hadoop配置选项进行系统性能的调优

6、如何使用Flume加载动态生成文件及使用Sqoop连接关系数据库

7、配置FairScheduler为集群多用户提供服务级别协议

8、为集群安装和实施基Kerberos的安全性

9、Hadoop集群维护和监控

10、排错,诊断,调优和解决Hadoop问题

11、使用其他Hadoop相关系统工具(如Hive、Pig和HBase)所涉及到的系统管理问题


三、大数据时代

1、大数据技术难以copy,所以创造的价值很高

2、零售商

(1)了解客户需求、进行精准营销

(2)再推荐相关产品

(3)利用之前的购买行为产生的大数据进行分析,为下次的选择做推荐

(4)预测未来

3、分析数据是为了做决策而准备

(1)那些时间段什么商品卖的最好

(2)哪些商品关联在一起卖的最好

(3)哪些门店卖的商品最好


四、当前

1、2大雄:阿里、腾讯

2、3帅:百度、小米、京东

3、4杰:58+赶集、滴滴+快滴、去哪儿+携程、网易+360+唯品会


五、去哪儿的商业价值

1、怎样为公司赚钱?

2、怎样为公司省钱?

3、How

(1)怎样告诉老板这个钱值得投资

4、搭建平台


革新业务                   大数据优化业务流程

        ^

        |  

        |

监控业务                      开发报表系统

      ^

      |

      |

整合数据                       数据中心

     ^

     |

     |

搭建平台                      大数据平台


注:Flume用于搜集日志数据(数据库、服务器等日志)

5、去哪儿基于2个维度进行分析

(1)顾客维度


(2)订单维度


6、升级Hadoop时遇到的问题

懂业务、BRI、出报表、大概有400多个模块的处理


7、大数据平台选用的原则

(1)够用原则                    ----------》若每天只有小于1TB的数据,那么10台服务器的节点集群即可

(2)主流原则                    ----------》技术成熟且BAT公司都用,能保证安全

(3)可扩展原则&有剩余-----------》考虑公司2到3年的发展

(4)低成本原则               -----------》考虑节约成本


8、遇到的问题

(1)、Flume的2个Bug

文件打开后不能关闭并且占用内存

(2)、各种业务线为集群资源分配二打架

(3)、兼容性问题:以后升级时一定要保留旧版本


注:

目前有10台机器  9台(64G) + 1台(256G)

        问题:9台常常cpu使用率达到90%以上

                    (1)业务高峰      -------------------》分散队列

                    (2)限制内存     --------------------》限制内存使用量


9、业务收集数据

(1)保证数据完整  -----便于精准分析

(2)数据逻辑         ------集中+梳理

(3)数据共享         ------机票+酒店+火车票+***

(4)数据实时性     ------kafa 、 storm、spark技术保证计算的实时性,1小时内


10、案例:All---In---One系统

(1)数据库

mysql +oracle+ sql server +pg

(2)技术

flume收集日志

使用从库

    缺点:延时、耗资源,所以不用

 HBase处理

    常选用的方法,因为成本小、不耗资源。


11、去哪儿的理念

消费者第一

客户第二

去哪儿第三


12、提供用户画像需要考虑

(1)基本属性

(2)购买能力

(3)行为特征

(4)心理特征

(5)兴趣爱好

关键是:**敏感度


13、怎样判断用户的工作类型

(1)GPS合作

(2)发票

作用:了解顾客想要的服务态度!服务态度是第一位!


用户画像:


姓名---------》                                                                  《---------------------------爱好                        

敏感度-------》                                    用户                     《---------------------------投诉


14、如何降低投诉、提升服务质量?

(1)把最紧急的资源用于解决最着急的问题

      大数据分析获取到拔打电话10次以上的用户,依次回拨

(2)合理分配资源,利用大数据处理技术做结果显示频用于决策


15、量子统计,如何帮助客户赚钱

例:

定制化产品

        +                  --------------定向直达----------->>            有实际需求的用户

     服务


四、互动

1、如何确定平台节点的数量为10个

     如果企业是刚起步,而且数据量比较小,但是可能过了2年后会增加,那么选用Hadoop的最小节点数是10

2、如何合作

需要关系、搞定高层就能搞定问题(原因:决策在于高层,这要靠ppt的实际暂时以及口才)、贵阳大数据交易中心


3、Hadoop和spark

(1)spark   ----》下一代基于内存,性能好  速度快      spark偏于管理和分配  2016年的头等大戏是spark

(2)hadoop---》存储+计算

*****hadoop和spark必然要一起合作才能共赢?

4、storm和kafka技术

举例:计算有效的点击次数,爬虫技术

         如,同一个Ip在1s内点击了60次,这是人工不可能做到的

storm与spark比较

storm:实时性好,但是吞吐量小,处理时间100ms内

spark:实时性不好,但是吞吐量大,处理时间500ms内


5、银行互联网金融业面临问题

(1)创新

(2)成本


 



1 0
原创粉丝点击