java kmeans聚簇统计
来源:互联网 发布:淘宝漫步者那家是正品 编辑:程序博客网 时间:2024/06/18 10:51
kmeans很好的解释了机器学习的定义,一种非监督学习算法。经过几千条数据的锻炼,更趋于真是模型,虽然改造成半监督性后更精确,但也失去了它智能化、自动化的初衷。
kmeans算法实现:
1)从样本D中随机选取K个元素,作为K个簇的中心
2)分别计算剩下的元素到K个簇的距离,将这些元素归化到距离最短的簇
3)根据聚类结果,重新计算K个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均
4)将D中的元素按照新的中心重新聚类
5)重复第四步,直到中心不发生变化
6)将结果输出
这次所用的数据集如下,即模拟用户轨迹数据-各个时刻点的经纬度坐标(大概有900多条明细数据,下图为经过转json处理后)java实现过程:
/** * K-means 聚类算法 * @author ardo * */public class KmeansClustering { public static String readFilePath = "D:\\ardo\\data\\latlng.txt"; private List<Point> dataset = null; public KmeansClustering() throws IOException { initDataSet(readFilePath); } /** * 初始化数据集 * * @throws IOException */ private void initDataSet(String filePath) throws IOException { dataset = new ArrayList<Point>(); // BufferedReader bufferedReader = new BufferedReader( // new InputStreamReader(KmeansClustering.class.getClassLoader() // .getResourceAsStream(path))); // String line = null; // while ((line = bufferedReader.readLine()) != null) { // String[] s = line.split("\t"); // Point point = new Point(); // point.setX(Double.parseDouble(s[0])); // point.setY(Double.parseDouble(s[1])); // point.setName(s[2]); // // } String encoding="GBK"; File file=new File(filePath); if(file.isFile() && file.exists()){ //判断文件是否存在 InputStreamReader read = new InputStreamReader( new FileInputStream(file),encoding);//考虑到编码格式 BufferedReader bufferedReader = new BufferedReader(read); String lineTxt = null; while((lineTxt = bufferedReader.readLine()) != null){ String mrDetail[] = lineTxt.split("\\|"); Point point = new Point(); point.setName(mrDetail[0]); point.setX(Double.parseDouble(mrDetail[16])); point.setY(Double.parseDouble(mrDetail[17])); dataset.add(point); } } } /** * @param k * 聚类的数目 */ public Map<Point,List<Point>> kcluster(int k) { // 随机从样本集合中选取k个样本点作为聚簇中心 // 每个聚簇中心有哪些点 Map<Point,List<Point>> nowClusterCenterMap = new HashMap<Point, List<Point>>(); for (int i = 0; i < k; i++) { Random random = new Random(); int num = random.nextInt(dataset.size()); nowClusterCenterMap.put(dataset.get(num), new ArrayList<Point>()); } //上一次的聚簇中心 Map<Point,List<Point>> lastClusterCenterMap = null; // 找到离中心最近的点,然后加入以该中心为map键的list中 while (true) { for (Point point : dataset) { double shortest = Double.MAX_VALUE; Point key = null; for (Entry<Point, List<Point>> entry : nowClusterCenterMap.entrySet()) { double distance = distance(point, entry.getKey()); if (distance < shortest) { shortest = distance; key = entry.getKey(); } } nowClusterCenterMap.get(key).add(point); } //如果结果与上一次相同,则整个过程结束 if (isEqualCenter(lastClusterCenterMap,nowClusterCenterMap)) { break; } lastClusterCenterMap = nowClusterCenterMap; nowClusterCenterMap = new HashMap<Point, List<Point>>(); //把中心点移到其所有成员的平均位置处,并构建新的聚簇中心 for (Entry<Point,List<Point>> entry : lastClusterCenterMap.entrySet()) { nowClusterCenterMap.put(getNewCenterPoint(entry.getValue()), new ArrayList<Point>()); } } return nowClusterCenterMap; } /** * 判断前后两次是否是相同的聚簇中心,若是则程序结束,否则继续,直到相同 * @param lastClusterCenterMap * @param nowClusterCenterMap * @return bool */ private boolean isEqualCenter(Map<Point, List<Point>> lastClusterCenterMap, Map<Point, List<Point>> nowClusterCenterMap) { if (lastClusterCenterMap == null) { return false; }else { for (Entry<Point, List<Point>> entry : lastClusterCenterMap.entrySet()) { if (!nowClusterCenterMap.containsKey(entry.getKey())) { return false; } } } return true; } /** * 计算新的中心 * * @param value * @return Point */ private Point getNewCenterPoint(List<Point> value) { double sumX = 0.0, sumY = 0.0; for (Point point : value) { sumX += point.getX(); sumY += point.getY(); } // System.out.println((int)sumX / value.size() + "===" + (int)sumY / value.size()); Point point = new Point(); point.setX(sumX / value.size()); point.setY(sumY / value.size()); return point; } /** * 使用欧几里得算法计算两点之间距离 * * @param point1 * @param point2 * @return 两点之间距离 */ private double distance(Point point1, Point point2) { double distance = Math.pow((point1.getX() - point2.getX()), 2) + Math.pow((point1.getY() - point2.getY()), 2); distance = Math.sqrt(distance); return distance; } public static void main(String[] args) throws IOException { KmeansClustering kmeansClustering = new KmeansClustering(); Map<Point, List<Point>> result = kmeansClustering.kcluster(12); for (Entry<Point, List<Point>> entry : result.entrySet()) { System.out.println("===============聚簇中心为:" + entry.getKey() + "================"); // for (Point point : entry.getValue()) { // System.out.println(point.getName()); // } } } }
样本点之间的距离计算这里仍然采用欧几里得距离算法。900多条数据聚簇为11个中心点,当然我的程序中设置的为12,则跑出来的肯定不会大于这个数;算法不足之处:最终的结果与初始化K个中心值的选择有很大的关系,容易受噪音干扰。由此也可以看出kmeans更适合局部、量化的。程序的输出如下
拿到聚簇中心统计数据(坐标)后,我们开始绘制用户轨迹,如下(图中除起点和终点外中间蓝色圆圈的9个点为途经点):
如果大家对以上绘制地图线路API感兴趣,可以下载示例:
http://download.csdn.net/download/ardo_pass/10110459
阅读全文
0 0
- java kmeans聚簇统计
- 聚类算法之KMeans(Java实现)
- 聚类算法之KMeans(Java实现)
- 聚类算法之KMeans(Java实现)
- 聚类算法之KMeans(Java实现)
- 聚类算法之KMeans(Java实现)
- Kmeans聚类算法及其java实现
- 聚类算法 kmeans java 实现
- Kmeans算法java代码
- kmeans算法java实现
- Java实现Kmeans算法
- kMeans算法JAVA实现
- Kmeans算法java实现
- 聚类算法之Kmeans (Java实现)
- 聚类算法之kmeans算法java版本
- Kmeans聚类算法 java精简版设计实现编程
- Kmeans聚类算法-二维度数组(Java实现)
- KMeans.java 代码解读与时间序列聚类
- Hadoop 2X伪分布式环境搭建
- SPOJ SUBST1 New Distinct Substrings(后缀数组)
- Git获取linux内核源码及分支管理
- 【计算机网络】应用层知识要点
- 从CVPR,到ICCV,再到ECCV
- java kmeans聚簇统计
- Linux Mysql主从复制
- JAVA注解
- Android中RecyclerView调用notifyDataSetChanged方法无效
- Struts2基本配置
- Token代码实例
- python 外星人入侵游戏的开发
- 对输入数据的异常处理
- 深度探索C++ 对象模型【第五章2】