BDTC 参会总结

来源：互联网发布：无钢圈内衣品牌知乎编辑：程序博客网时间：2024/04/29 22:14

今天有幸能参加大数据技术会议，感受国内外的前沿技术，感觉很兴奋。来回跑了几个会场，听了11个议题，简单做个总结，做个记录，也希望能对没有参加会议的技术朋友有点帮助。带着相机去的，我所看到的ppt都有照片，有的没有听全，所以有点小缺陷。

1、Hbase and HOYA

这个是Hortonworks的工程师 Ted Yu（很著名）做的演讲，去的时候已经讲了十几分钟。国外的大数据公司还是很有料的，Hoya 是在yarn上做的管理hbase集群的系统，使hbase在yarn的资源使用更高效更安全。提供了很多比较酷的功能，比如二级索引、哈希join等，具体的详情看相关的ppt照片。

其中提到了一个在hbase上的开源sql软件——pheonix：https://github.com/forcedotcom/phoenix

另外，附上hoya的官方介绍：http://hortonworks.com/blog/introducing-hoya-hbase-on-yarn/

2、阿里开放数据处理服务（ODPS）

这个是阿里的数据平台，应该是b2b的。主要做的是给各个业务线提供数据服务的，比如数据用户验证，高效sql查询，融合了图计算框架、还有一些机器学习常用算法。他的作用是把用户和阿里的云梯（hadoop）/ 飞天分布式集群串联起来了。个人觉得这个工作很有意义，很实在。

3、大数据可视化与可视分析的机遇和挑战

这个是北大的 “百人计划”的博导做的post，很学术，高大上，真的是比国内工业界做数据可视化的it公司高出几个档次。

听了这个演讲，感觉可视化真的很高深，会有很好的应用前景。但是不是那么简单就能搞定的。

老师用了最重要的例子就是北京的出租车的gps数据做的可视化项目，真的很不错，大开眼界。详情见ppt照片。

4、腾讯广点通——大数据之上的实时精准推荐

演讲的是腾讯广点通的技术经理，大面上讲了一下他们做推荐的特点。其中有一些feature和数据是没有做过推荐的我第一次听到的，也挺新鲜。比如：如何纠正用户的虚假信息或者填补空白信息，如果给用户画像，还有一个广告一天有多少机会被用户看到等。

腾讯给我的感觉就是技术和数据都很好，能做很多牛X的事，但是好像没有阿里愿意分享太多技术，有点像微软。

5、腾讯大规模hadoop集群实践

腾讯这个topic做的很有意思，演讲人技术出身，说话很有码农范。腾讯在做ha的路上貌似跟大家选择的道理不太一样，当初选择了facebook的corona，据说当时这个系统成熟度比较高。技术都差不多，解决问题就好，不过只有bat这样规模的公司才有能力自己搞系统级平台。

这个演讲对做hadoop平台运维的同学很有用，里面提到了很多比较现实的问题，比如到底什么时候将推测执行打开，怎么让各个业务线和谐的用一个大集群，数据迁移，防止数据误删（想想这个议题，真的怕啊……数据丢了怎么办？）

6、构建移动场景下的个性化推荐引擎

搜狐新闻移动端的推荐分享，这个演讲给了一个移动场景下的推荐引擎的通用架构，貌似跟技术关系不是很大，我没太听进去，果断去听国际范的 linked in 的分享了。

7、Linkedin 大数据应用和Azkaban

linked in 工程师的演讲，工程师真的很有国际范，大公司就是不一样

Azkaban 是一款类oozie 的hadoop的作业流管理平台。不过两种平台的设计理念不同，oozie 的设计理念是要把很多feature做上去，但是可用性和可管理性跟不上；Azkaban是先将简单的功能做上去，但可用性和可管理性很好，很容易上手，让我想起我司内部的调度系统，不过比我司的好很多。Azkaban 真的可以试一下，很多好玩而且实用的feature会在ppt里看的。挺想赶快试一下的赶脚。

8、The next generation of hadoop——hadoop2 and yarn

yahoo 工程师，yarn 核心代码贡献者的演讲，又是国际范，不过印度味的英文有点愁人

在网上看过挺多介绍yarn的特点的资料，但是还是内部人士的分享比较深入浅出。从大面上总结出5点新特性，到一个app具体的生命周期介绍，确实一目了然。ppt 介绍的很细，大家可以慢慢琢磨琢磨。个人感觉比国内的翻译好很多。

9、利用storm平台实时网络攻击检测与分析

360的工程师做的分享

本来想听一听他们如何做的实时检测网络攻击的，没成想核心没讲什么实时检测的相关，或许是技术机密，要么就是做的比较简单。这个演讲主要分享了他们是要在storm集群的工作，改进以及提的patch。他们遇到的很多问题，或许我们都会遇到，而且他们将storm的日志直接做到ui里，这一点确实很方便。他们利用云存储平台的机器搭建storm集群，很好的利用了存储集群的cpu和内存计算资源，也是挺有意思。详情见ppt

10、Hbase在小米的应用和扩展

小米的工程师做的分享，也挺接地气，不过听这个的时候遇到一位老朋友，就聊了一会，没听多少。可以自己看一下

11、阿里搜索实时流计算技术

一淘的工程师做的实时流计算平台，借鉴了storm和mr的概念，做的定制在yarn平台的实时计算系统iStream。不同于storm on yarn 和 spark on yarn，iStream是根据yarn平台定制的一款流失系统，整个流式系统完全做在yarn上，他其实将yarn当成了一个操作系统。

我觉得这个系统对比与storm有两个亮点：

1、将每个计算节点的处理状态存储在hbase，方便查找问题，方便数据在多个topology间分享；将master状态存储在hdfs上，方便failover

2、资源的动态整合，如果某个worker处理的数据量比较大，可以动态的分解成多个worker；如果worker比较闲，也可以将worker合并。当然也考虑到系统的抖动问题，资源的动态调整也是需要人工干预的。

好了，谢谢赏脸看到这里。附上ppt照片链接，百度网盘：http://pan.baidu.com/share/link?shareid=1657816036&uk=405364130

csdn share 也有挺多ppt：http://share.csdn.net/slides?page=1