spark机器学习-聚类
来源:互联网 发布:狗粮 饼干 淘宝 编辑:程序博客网 时间:2024/06/05 22:57
聚类算法是一种无监督学习任务,用于将对象分到具有高度相似性的聚类中,聚类算法的思想简单的说就是物以类聚的思想,相同性质的点在空间中表现的较为紧密和接近,主要用于数据探索与异常检测,最常用的一种聚类算法是K均值(K-means)聚类算法
算法原理
kmeans的计算方法如下:
1 选取k个中心点
2 遍历所有数据,将每个数据划分到最近的中心点中
3 计算每个聚类的平均值,并作为新的中心点
4 重复2-3,直到这k个中线点不再变化(收敛了),或执行了足够多的迭代
算法的时间复杂度上界为O(n*k*t), 其中k为输入的聚类个数,n为数据量,t为迭代次数。一般t,k,n均可认为是常量,时间和空间复杂度可以简化为O(n),即线性的
算法原理
kmeans的计算方法如下:
1 选取k个中心点
2 遍历所有数据,将每个数据划分到最近的中心点中
3 计算每个聚类的平均值,并作为新的中心点
4 重复2-3,直到这k个中线点不再变化(收敛了),或执行了足够多的迭代
算法的时间复杂度上界为O(n*k*t), 其中k为输入的聚类个数,n为数据量,t为迭代次数。一般t,k,n均可认为是常量,时间和空间复杂度可以简化为O(n),即线性的
spark ml编码实践
可在spark-shell环境下修改参数调试以下代码,可以用实际的业务数据做测试评估,业务数据一般是多列,可以把维度列用VectorAssembler组装成向量列做为Kmeans算法的输入列,考虑现实的应用场景,比如做异常数据检测,正常数据分为一类,异常数据分为几类,分别统计正常数据与异常数据的数据量,求百分比等
<span style="font-size:18px;">import org.apache.spark.ml.clustering.KMeansimport org.apache.spark.mllib.linalg.Vectorsval dataset = sqlContext.createDataFrame(Seq((1, Vectors.dense(0.0, 0.0, 0.0)),(2, Vectors.dense(0.1, 0.1, 0.1)),(3, Vectors.dense(0.2, 0.2, 0.2)),(4, Vectors.dense(9.0, 9.0, 9.0)),(5, Vectors.dense(1.1, 1.1, 0.1)),(6, Vectors.dense(12, 14, 100)),(6, Vectors.dense(1.1, 0.1, 0.2)),(6, Vectors.dense(-2, -3, -4)),(6, Vectors.dense(1.6, 0.6, 0.2)))).toDF("id", "features")// Trains a k-means modelval kmeans = new KMeans().setK(3).setMaxIter(20).setFeaturesCol("features").setPredictionCol("prediction")val model = kmeans.fit(dataset)// Shows the resultprintln("Final Centers: ")model.clusterCenters.foreach(println)model.clusterCenters.zipWithIndex.foreach(println)val myres = model.transform(dataset).select("features","prediction")myres.show()</span>
聚类算法是一类无监督式机器学习算法,聚类效果怎么评估,模型训练参数怎么调优,是否能用管道来训练模型来比较各种不同组合的参数的效果,即网格搜索法(grid search),先设置好待测试的参数,MLLib就会自动完成这些参数的不同组合,管道搭建了一条工作流,一次性完成了整个模型的调优,而不是独立对每个参数进行调优,这个还要再确认一下,查看SPARK-14516好像目前还没有一个聚类效果通用的自动的度量方法
像这种代码(不过现在这个代码有问题):
<span style="font-size:18px;">import org.apache.spark.ml.clustering.KMeansimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.ml.tuning.{ ParamGridBuilder, CrossValidator }import org.apache.spark.ml.{ Pipeline, PipelineStage }val dataset = sqlContext.createDataFrame(Seq((1, Vectors.dense(0.0, 0.0, 0.0)),(2, Vectors.dense(0.1, 0.1, 0.1)),(3, Vectors.dense(0.2, 0.2, 0.2)),(4, Vectors.dense(9.0, 9.0, 9.0)),(5, Vectors.dense(1.1, 1.1, 0.1)),(6, Vectors.dense(12, 14, 100)),(6, Vectors.dense(1.1, 0.1, 0.2)),(6, Vectors.dense(-2, -3, -4)),(6, Vectors.dense(1.6, 0.6, 0.2)))).toDF("id", "features")val kmeans = new KMeans().setK(2).setMaxIter(20).setFeaturesCol("features").setPredictionCol("prediction")//主要问题在这里,没有可用的评估器与label列设置val evaluator = new BinaryClassificationEvaluator().setLabelCol("prediction")val paramGrid = new ParamGridBuilder().addGrid(kmeans.initMode, Array("random")).addGrid(kmeans.k, Array(3, 4)).addGrid(kmeans.maxIter, Array(20, 60)).addGrid(kmeans.seed, Array(1L, 2L)).build()val steps: Array[PipelineStage] = Array(kmeans)val pipeline = new Pipeline().setStages(steps)val cv = new CrossValidator().setEstimator(pipeline).setEvaluator(evaluator).setEstimatorParamMaps(paramGrid).setNumFolds(10)// Trains a modelval pipelineFittedModel = cv.fit(dataset)</span>
0 0
- spark机器学习-聚类
- Spark 机器学习《一》
- SPARK机器学习库
- Spark机器学习2
- Spark机器学习1
- Spark机器学习5
- Spark机器学习3
- Spark机器学习示例
- Spark机器学习读书笔记
- spark机器学习-前言
- Spark 机器学习拾遗
- spark-机器学习-1
- Spark机器学习
- spark机器学习本质
- Spark机器学习
- Spark机器学习-1
- spark python 机器学习
- spark机器学习(推荐)
- 435. Non-overlapping Intervals
- C++11 多线程同步
- HDU 5130 Signal Interference
- Asm实现静态AOP的两种方式-生成java-proxy类
- Eclipse快捷键
- spark机器学习-聚类
- 内心深处的震撼,科研道路上的拙见,命运不甘平凡的抗争
- <四> 无显示器的情况下远程登录树莓派
- 半成品技术博客开张了
- poj2260
- 应用布尔盲注来爆库(1)
- python flask+uwsgi+tengine 容器
- Linux下的部分正则表达式
- 如何利用C++ vector的sort算法对元素是自定义类型进行排序