【spark系列4】分类之SVMWithSGD

来源：互联网发布：大数据产业测度编辑：程序博客网时间：2024/06/05 16:50

关于SVM和SGD的知识请参考其他资料，这里只介绍如何在spark-shell下跑分类模型。

分类数据集

这里面使用的是spark样例数据，文件地址为spark-0.9.1/mllib/data/sample_svm_data.txt。

启动spark

编译好spark后，在spark目录的bin目录下，运行

spark-shell

启动完后会出现

scala>

编写调用mllib的scala程序

import org.apache.spark.SparkContextimport org.apache.spark.mllib.classification.SVMWithSGDimport org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.optimization.L1Updaterobject ObSVMWithSGD{    def run() {        // Load and parse the data file        val data = sc.textFile("D:/schoolar_tool/spark-0.9.1/mllib/data/sample_svm_data.txt")        val parsedData = data.map{line =>             val parts = line.split(' ')            LabeledPoint(parts(0).toDouble, parts.tail.map(x => x.toDouble).toArray)        }        // Run training algorithm to build the model        val svmAlg = new SVMWithSGD()        svmAlg.optimizer.setNumIterations(200)                        .setRegParam(0.1)                        .setUpdater(new L1Updater)        val model = svmAlg.run(parsedData)        // Evaluate model on training examples and compute training error        val labelAndPreds2 = parsedData.map{ point =>            val prediction = model.predict(point.features)            (point.label, prediction)        }        val trainErr = labelAndPreds2.filter(r => r._1 != r._2).count.toDouble / parsedData.count        println("Training Error = " + trainErr)    }}