BDTC 参会总结

来源:互联网 发布:无钢圈内衣品牌 知乎 编辑:程序博客网 时间:2024/04/29 22:14

今天有幸能参加大数据技术会议,感受国内外的前沿技术,感觉很兴奋。来回跑了几个会场,听了11个议题,简单做个总结,做个记录,也希望能对没有参加会议的技术朋友有点帮助。带着相机去的,我所看到的ppt都有照片,有的没有听全,所以有点小缺陷。

1、Hbase and HOYA

这个是Hortonworks的工程师 Ted Yu(很著名)做的演讲,去的时候已经讲了十几分钟。国外的大数据公司还是很有料的,Hoya 是在yarn上做的管理hbase集群的系统,使hbase在yarn的资源使用更高效更安全。提供了很多比较酷的功能,比如二级索引、哈希join等,具体的详情看相关的ppt照片。

其中提到了一个在hbase上的开源sql软件——pheonix:https://github.com/forcedotcom/phoenix

另外,附上hoya的官方介绍:http://hortonworks.com/blog/introducing-hoya-hbase-on-yarn/


2、阿里开放数据处理服务(ODPS)

这个是阿里的数据平台,应该是b2b的。主要做的是给各个业务线提供数据服务的,比如数据用户验证,高效sql查询,融合了图计算框架、还有一些机器学习常用算法。他的作用是把用户和阿里的云梯(hadoop)/ 飞天 分布式集群串联起来了。个人觉得这个工作很有意义,很实在。


3、大数据可视化与可视分析的机遇和挑战

这个是北大的 “百人计划”的博导做的post,很学术,高大上,真的是比国内工业界做数据可视化的it公司高出几个档次。

听了这个演讲,感觉可视化真的很高深,会有很好的应用前景。但是不是那么简单就能搞定的。

老师用了最重要的例子就是北京的出租车的gps数据做的可视化项目,真的很不错,大开眼界。详情见ppt照片。


4、腾讯广点通——大数据之上的实时精准推荐

演讲的是腾讯广点通的技术经理,大面上讲了一下他们做推荐的特点。其中有一些feature和数据是没有做过推荐的我第一次听到的,也挺新鲜。比如:如何纠正用户的虚假信息或者填补空白信息,如果给用户画像,还有一个广告一天有多少机会被用户看到等。

腾讯给我的感觉就是技术和数据都很好,能做很多牛X的事,但是好像没有阿里愿意分享太多技术,有点像微软。


5、腾讯大规模hadoop集群实践

腾讯这个topic做的很有意思,演讲人技术出身,说话很有码农范。腾讯在做ha的路上貌似跟大家选择的道理不太一样,当初选择了facebook的corona,据说当时这个系统成熟度比较高。技术都差不多,解决问题就好,不过只有bat这样规模的公司才有能力自己搞系统级平台。

这个演讲对做hadoop平台运维的同学很有用,里面提到了很多比较现实的问题,比如 到底什么时候将推测执行打开,怎么让各个业务线和谐的用一个大集群,数据迁移,防止数据误删(想想这个议题,真的怕啊……数据丢了怎么办?)


6、构建移动场景下的个性化推荐引擎

搜狐新闻移动端的推荐分享,这个演讲给了一个移动场景下的推荐引擎的通用架构,貌似跟技术关系不是很大,我没太听进去,果断去听国际范的 linked in 的分享了。

 

7、Linkedin 大数据应用和Azkaban

linked in 工程师的演讲,工程师真的很有国际范,大公司就是不一样

Azkaban 是一款类oozie 的hadoop的作业流管理平台。不过两种平台的设计理念不同,oozie 的设计理念是要把很多feature做上去,但是可用性和可管理性跟不上;Azkaban是先将简单的功能做上去,但可用性和可管理性很好,很容易上手,让我想起我司内部的调度系统,不过比我司的好很多。Azkaban 真的可以试一下,很多好玩而且实用的feature会在ppt里看的。挺想赶快试一下的赶脚。


8、The next generation of hadoop——hadoop2 and yarn

yahoo 工程师,yarn 核心代码贡献者 的演讲,又是国际范,不过印度味的英文有点愁人

在网上看过挺多介绍yarn的特点的资料,但是还是内部人士的分享比较深入浅出。从大面上总结出5点新特性,到一个app具体的生命周期介绍,确实一目了然。ppt 介绍的很细,大家可以慢慢琢磨琢磨。个人感觉比国内的翻译好很多。


9、利用storm平台实时网络攻击检测与分析

360的工程师做的分享

本来想听一听他们如何做的实时检测网络攻击的,没成想核心没讲什么实时检测的相关,或许是技术机密,要么就是做的比较简单。这个演讲主要分享了他们是要在storm集群的工作,改进以及提的patch。他们遇到的很多问题,或许我们都会遇到,而且他们将storm的日志直接做到ui里,这一点确实很方便。他们利用云存储平台的机器搭建storm集群,很好的利用了存储集群的cpu和内存计算资源,也是挺有意思。详情见ppt


10、Hbase在小米的应用和扩展

小米的工程师做的分享,也挺接地气,不过听这个的时候遇到一位老朋友,就聊了一会,没听多少。可以自己看一下


11、阿里搜索实时流计算技术

一淘的工程师做的实时流计算平台,借鉴了storm和mr的概念,做的定制在yarn平台的实时计算系统iStream。不同于storm on yarn 和 spark on yarn,iStream是根据yarn平台定制的一款流失系统,整个流式系统完全做在yarn上,他其实将yarn当成了一个操作系统。

我觉得这个系统对比与storm有两个亮点:

        1、将每个计算节点的处理状态存储在hbase,方便查找问题,方便数据在多个topology间分享;将master状态存储在hdfs上,方便failover

        2、资源的动态整合,如果某个worker处理的数据量比较大,可以动态的分解成多个worker;如果worker比较闲,也可以将worker合并。当然也考虑到系统的抖动问题,资源的动态调整也是需要人工干预的。


好了,谢谢赏脸看到这里。附上ppt照片链接,百度网盘:http://pan.baidu.com/share/link?shareid=1657816036&uk=405364130

csdn share 也有挺多ppt:http://share.csdn.net/slides?page=1








原创粉丝点击