Angle和XBGoost以及Spark的性能对比

来源:互联网 发布:剑灵怎么导入数据图 编辑:程序博客网 时间:2024/05/16 09:53

性能优势


新版本的Angel,添加了诸多新功能,最终的目的,就是让算法工程师能更加从容地进行算法优化,融入更多的算法的Trick,让算法的性能,得到了一个飞跃的提升。


相关性能的细节数据,在Github的各个算法介绍文档都可以看到,欢迎点击文末“阅读原文”移步GitHub。



1.GBDT

众所周知,XGBoost的强项之一,就是GBDT算法,性能飞快,使用简单,在众多算法比赛中,是选手们的最爱。尽管如此,Angel的GBDT算法,却还是超越了它,这是一个非常不错的性能背书。


  • 性能比较

  • 数据:腾讯内部某性别预测数据集,3.3×10^5 特征,1.2×10^8 样本

  • 详细文档:GBDT on Angel



2.LDA

众所周知,LDA是一个非常消耗资源的主题模型算法,新一代的Angel,在LDA上的性能,不但超越了Spark,也已经超越了之前开源过的Petuum。(由于Petuum已经不开源多时,所以比对数据,这里就不再贴出了)

  • 数据:PubMED

  • 详细文档: LDA on Angel



3.GD-LR

LR是广告推荐中广泛应用的一个算法,Angel分别提供了利用Gradient Descent、ADMM两种优化方法计算的LR算法。这两种算法,无论是耗费的资源,还是性能、收敛速度,都远比原生的Spark实现优越。


  • GD-LR

  • 数据: 腾讯内部某推荐数据,5×10^7 特征,8×10^7 样本

  • 详细文档: LR on Angel


  • ADMM-LR

  • 数据:腾讯内部某推荐数据,5千万特征,1亿样本

原创粉丝点击