mahout之聚类实现

来源：互联网发布：底层软件开发工程师编辑：程序博客网时间：2024/05/22 10:58

人们常数"物以类聚，人以群分"，聚类就是将一个给定的文档集中相似项目分成不同簇的过程。

聚类设计的过程:

(1)一个聚类算法( k-means、模糊k-means、canopy等)

(2)相似性和不相似性的概念

a.欧式距离

b.平方欧式距离

c. 曼哈顿距离

d.余弦距离测度

e.谷本距离测度

f. 加权距离测度（TF-IDF 词项频率-逆文档频率）

(3)终止的条件

一个基于欧式距离测度的k-means聚类算法java实现如下:

import java.io.File;import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.SequenceFile;import org.apache.hadoop.io.Text;import org.apache.mahout.clustering.WeightedVectorWritable;import org.apache.mahout.clustering.kmeans.Cluster;import org.apache.mahout.clustering.kmeans.KMeansDriver;import org.apache.mahout.common.distance.EuclideanDistanceMeasure;import org.apache.mahout.math.RandomAccessSparseVector;import org.apache.mahout.math.Vector;import org.apache.mahout.math.VectorWritable;public class SimpleKMeansClustering {  public static final double[][] points = { {1, 1}, {2, 1}, {1, 2},                                           {2, 2}, {3, 3}, {8, 8},                                           {9, 8}, {8, 9}, {9, 9}};    public static void writePointsToFile(List<Vector> points,                                       String fileName,                                       FileSystem fs,                                       Configuration conf) throws IOException {    Path path = new Path(fileName);    SequenceFile.Writer writer = new SequenceFile.Writer(fs, conf,        path, LongWritable.class, VectorWritable.class);    long recNum = 0;    VectorWritable vec = new VectorWritable();    for (Vector point : points) {      vec.set(point);      writer.append(new LongWritable(recNum++), vec);    }    writer.close();  }    public static List<Vector> getPoints(double[][] raw) {    List<Vector> points = new ArrayList<Vector>();    for (int i = 0; i < raw.length; i++) {      double[] fr = raw[i];      Vector vec = new RandomAccessSparseVector(fr.length);      vec.assign(fr);      points.add(vec);    }    return points;  }    public static void main(String args[]) throws Exception {        int k = 2;        List<Vector> vectors = getPoints(points);        File testData = new File("testdata");    if (!testData.exists()) {      testData.mkdir();    }    testData = new File("testdata/points");    if (!testData.exists()) {      testData.mkdir();    }        Configuration conf = new Configuration();    FileSystem fs = FileSystem.get(conf);    writePointsToFile(vectors, "testdata/points/file1", fs, conf);        Path path = new Path("testdata/clusters/part-00000");    SequenceFile.Writer writer = new SequenceFile.Writer(fs, conf,        path, Text.class, Cluster.class);        for (int i = 0; i < k; i++) {      Vector vec = vectors.get(i);      Cluster cluster = new Cluster(vec, i, new EuclideanDistanceMeasure());      writer.append(new Text(cluster.getIdentifier()), cluster);    }    writer.close();        KMeansDriver.run(conf, new Path("testdata/points"), new Path("testdata/clusters"),      new Path("output"), new EuclideanDistanceMeasure(), 0.001, 10,      true, false);        SequenceFile.Reader reader = new SequenceFile.Reader(fs,        new Path("output/" + Cluster.CLUSTERED_POINTS_DIR                 + "/part-m-00000"), conf);        IntWritable key = new IntWritable();    WeightedVectorWritable value = new WeightedVectorWritable();    while (reader.next(key, value)) {      System.out.println(value.toString() + " belongs to cluster "                         + key.toString());    }    reader.close();  }  }

0 0