领英大数据平台--超过1万节点,每天15万个作业,智能连接4.7亿职场用户 [session]

来源:互联网 发布:p2p网络摄像机 编辑:程序博客网 时间:2024/04/29 15:00

Strata Data Conference早期门票优惠本周五即将截止!

还有一天欢迎大家踊跃报名!

点击阅读原文可登录会议网站,尽快报名以确定留位!



领英大数据平台--超过1万节点,每天15万个作业,智能连接4.7亿职场用户 

讲师:Zhe Zhang (领英)

11:15–11:55 Saturday, 2017-07-15

数据工程和架构 (Data engineering and architecture)

地点: 多功能厅2(Function Room 2)

描述

领英是全球最早应用大数据技术的公司之一。早在2008年,领英就开始在一个20台节点的机群上运行Hadoop,支持大概10个Hadoop用户。在过去的9年里,领英的大数据平台扩展了将近500倍。现在领英有超过10个Hadoop机群,总共超过1万台节点,支持超过1000个工程师,数据科学家,商业分析师运行大规模数据分析程序。数据分析工具也从最开始单一的MapReduce/Pig,发展到现在的MR,Pig,Hive,Presto,Spark SQL,Spark ML,TensorFlow,Scalding,Casdading。


在这个报告中我很高兴和大家分享一下领英大数据平台团队怎样解决大规模和高速增长带来的各种挑战。这其中有基础架构系统的规模挑战,包括Hadoop的存储和调度系统的单一主机架构。还有复杂性的规模挑战:怎么样在一个统一的平台上支持大量的各种特性的应用,从毫秒级的交互式SQL查询到运行数天的深度学习模型训练。最后,还有用户体验,系统管理,和可持续性这些围绕人的规模型挑战:怎么样在平台层面把底层系统的细节屏蔽掉,为数据和服务提供者和消费者创造一个干净,简洁,可以信赖的契约和接口。



讲师介绍:

Zhe Zhang (领英)

现任领英公司研发经理,领导核心大数据团队。该团队开发和应用HDFS,YARN,Spark,TensorFlow等开源技术,为领英公司的大数据平台提供核心的存储/计算引擎。

张喆同时还是Apache Hadoop项目的管理委员会(PMC)成员。也是Hadoop3的主要功能之一,HDFS纠删码(HDFS-EC)的作者。在加入领英之前,张喆就职于Cloudera和IBM沃森研究中心。2006年至今,在国际会议和期刊上发表论文20余篇,拥有5项美国专利。在IBM期间,获杰出技术成就奖(Outstanding Technology Achievement Award)。


阅读全文
0 0
原创粉丝点击