Spark-MLlib机器学习相关的数据类型

来源:互联网 发布:淘宝评价管理器在哪里 编辑:程序博客网 时间:2024/03/28 23:58

Spark-MLlib机器学习相关的数据类型,位于 org.apache.sparkmllib包内。


1、Vector 

数学向量,MLlib既支持稠密向量也支持稀疏向量。

稠密向量: 向量的每一位都存储下来。

稀疏向量:存储非零位以节约空间


2、LabeledPoint

表示带标签的数据点,包含一个特征向量与一个标签。


3、Model

训练算法的结果,通过predict()方法对新的数据进行预测


附:操作向量的基本实例

object VectorsTest {  def main(args: Array[String]): Unit = {    //创建稠密向量    val denseVec1 = Vectors.dense(1, 2, 3)    val denseVec2 = Vectors.dense(Array(1.0, 2.0, 3.0))    println(denseVec1)    println(denseVec2)    //创建稀疏向量    val sparseVec1 = Vectors.sparse(4, Array(0, 2), Array(1.0, 2.0))    println(sparseVec1)  }}



3 0
原创粉丝点击