MLlib

来源:互联网 发布:tomcat java options 编辑:程序博客网 时间:2024/05/21 21:47

MLlib是构建在Spark上的分布式机器学习库,充分利用Spark的内存计算和适合迭代型计算的优势,将性能大幅度提升,由于Spark算子丰富的表现力,让大规模机器学习算法的开发不在复杂。

这里写图片描述

图中组件介绍:
BLAS/LAPACK:
LAPACK(Linear Algebra Package)是用Fortran编写的算法库,为了解决统通用的线性代数问题。
BLAS(Basic Liner Algebra Subprograms),是LAPACK底层的实现。
Netlib-java:是一个对底层BLAS,LAPACK封装的Java接口层
Breeze:是一个Scala编写的数值处理函数库,提供向量、矩阵运算等API

依赖关系:MLlib——>Breeze——>Netlib-java——>Fortran routines

PS:需要使用MLlib的时候需要预先安装gfortran runtime library,由于许可证的关系,官方MLlib依赖库中没有Netlib-java,如果需要使用,自己引入依赖即可。

0 0