OpenCV K均值代码笔记

来源：互联网发布：人工智能人类奴隶编辑：程序博客网时间：2024/06/08 05:04

K均值聚类算法在Opencv的cxcore中，它可以找到数据的自然类别。最为常用的聚类技术之一，它可以迅速找到“类别”中心，将数据进行聚类。

聚类过程

我们可以从图中了解K均值算法的聚类过程：

(a) 随机放置聚类中心（圆），将数据样本（小方块）聚到离它最近的中心（即连线）

(b) 数据中心移到它所在类别的中心

(d) 聚类中心再次移动到它所在的类别中心

持续运行直到收敛，我们便将样本点（小方块）聚为三类（圆）。

OpenCV Sample中的kmeans代码，随机产生不超过5种的类别，以及1000个点。

[cpp] view plaincopy
#include "cv.h"  
#include "highgui.h"  
#include <stdio.h>  
  
int main( int argc, char** argv )  
{  
    #define MAX_CLUSTERS 5  
    CvScalar color_tab[MAX_CLUSTERS];  
    IplImage* img = cvCreateImage( cvSize( 500, 500 ), 8, 3 );  
    CvRNG rng = cvRNG(-1);  
    CvPoint ipt;  
  
    color_tab[0] = CV_RGB(255,0,0);  
    color_tab[1] = CV_RGB(0,255,0);  
    color_tab[2] = CV_RGB(100,100,255);  
    color_tab[3] = CV_RGB(255,0,255);  
    color_tab[4] = CV_RGB(255,255,0);  
  
    cvNamedWindow( "clusters", 1 );  
  
    for(;;)  
    {  
        char key;  
        int k, cluster_count = cvRandInt(&rng)%MAX_CLUSTERS + 1;  
        int i, sample_count = cvRandInt(&rng)%1000 + 1;  
        CvMat* points = cvCreateMat( sample_count, 1, CV_32FC2 );  
        CvMat* clusters = cvCreateMat( sample_count, 1, CV_32SC1 );  
        cluster_count = MIN(cluster_count, sample_count);  
  
        /* generate random sample from multigaussian distribution */  
        for( k = 0; k < cluster_count; k++ )  
        {  
            CvPoint center;  
            CvMat point_chunk;  
            center.x = cvRandInt(&rng)%img->width;  
            center.y = cvRandInt(&rng)%img->height;  
            cvGetRows( points, &point_chunk, k*sample_count/cluster_count,  
                       k == cluster_count - 1 ? sample_count :  
                       (k+1)*sample_count/cluster_count, 1 );  
  
            cvRandArr( &rng, &point_chunk, CV_RAND_NORMAL,  
                       cvScalar(center.x,center.y,0,0),  
                       cvScalar(img->width*0.1,img->height*0.1,0,0));  
        }  
  
        /* shuffle samples */  
        for( i = 0; i < sample_count/2; i++ )  
        {  
            CvPoint2D32f* pt1 = (CvPoint2D32f*)points->data.fl + cvRandInt(&rng)%sample_count;  
            CvPoint2D32f* pt2 = (CvPoint2D32f*)points->data.fl + cvRandInt(&rng)%sample_count;  
            CvPoint2D32f temp;  
            CV_SWAP( *pt1, *pt2, temp );  
        }  
  
        printf( "iterations=%d\n", cvKMeans2( points, cluster_count, clusters,  
                cvTermCriteria( CV_TERMCRIT_EPS+CV_TERMCRIT_ITER, 10, 1.0 ),  
                5, 0, 0, 0, 0 ));  
  
        cvZero( img );  
  
        for( i = 0; i < sample_count; i++ )  
        {  
            int cluster_idx = clusters->data.i[i];  
            ipt.x = (int)points->data.fl[i*2];  
            ipt.y = (int)points->data.fl[i*2+1];  
            cvCircle( img, ipt, 2, color_tab[cluster_idx], CV_FILLED, CV_AA, 0 );  
        }  
  
        cvReleaseMat( &points );  
        cvReleaseMat( &clusters );  
  
        cvShowImage( "clusters", img );  
  
        key = (char) cvWaitKey(0);  
        if( key == 27 || key == 'q' || key == 'Q' ) // 'ESC'  
            break;  
    }  
  
    cvDestroyWindow( "clusters" );  
    return 0;  
}  

在最外层for循环之前，我们定义了5种颜色color_tab，类别的上届MAX_CLUSTERS。

在循环中，随机产生了cluster_count个类别，以及sample_count个样本点。

同时，建立了points来存放样本点，clusters来存放每个样本点的类别。

[cpp] view plaincopy
CvMat* points = cvCreateMat( sample_count, 1, CV_32FC2 );CvMat* clusters = cvCreateMat( sample_count, 1, CV_32SC1 );  

其中cvCreateMat的第一个参数为矩阵的行数，第二个为列数。CV_32FC2表示矩阵的元素为32位浮点二元组，即我们的Point。

在数据生成的for循环中，point存放所有样本的信息，我们需要将将样本分类并随机赋值。

[cpp] view plaincopy
cvGetRows( points, &point_chunk, k*sample_count/cluster_count,k == cluster_count - 1 ?sample_count :(k+1)*sample_count/cluster_count, 1 );cvRandArr( &rng, &point_chunk, CV_RAND_NORMAL,cvScalar(center.x,center.y,0,0),cvScalar(img->width*0.1,img->height*0.1,0,0));  

cvGetRows根据该次迭代的当前类别k，得到points中的对应子矩阵point_chunk。每个类别行数为sample_count/cluster_count。

接着，使用cvRandArr为该子矩阵使用正态分布随机赋值。

下一个for循环中，打乱了数据样本的顺序。

[cpp] view plaincopy
CvPoint2D32f* pt1 = (CvPoint2D32f*)points->data.fl + cvRandInt(&rng)%sample_count;    CvPoint2D32f* pt2 = (CvPoint2D32f*)points->data.fl + cvRandInt(&rng)%sample_count;    CvPoint2D32f temp;    CV_SWAP( *pt1, *pt2, temp );  

我们可以看到，pt1，pt2是points中随机选取的样本点，并进行了交换。

然后，使用了cvKmeans2()进行聚类，知道聚类中心的最大移动小于1停止。最后用for循环画出结果。

让我们执行程序，看一下聚类结果吧！

聚类结果

转自http://blog.csdn.net/chenxin_130/article/details/5877831