KNN算法学习总结

来源：互联网发布：淘宝网汽车用品配件编辑：程序博客网时间：2024/06/06 03:00

前言

读完了集体智慧编程，初步了解了knn算法，可惜时间可能有点久远，当初没有进行总结吗，如今的印象也比较浅，所以写下这一片博客，用以总结和加深印象。ps：感觉自己还是不大会写博客，尽量按照自己能看懂的方式来记录吧。

正文

1. 理论

knn算法又被称为k近邻分类算法，主要内容是从训练集中寻找和需要测试的数据记录最相近的k条记录，然后根据他们来为测试集的数据确定的分类。
算法涉及3个主要因素。训练集，距离和相似度的衡量，k的大小。

2. 计算步骤

算距离计算测试集数据和训练集所有数据的距离
圈定k个数据作为近邻
根据近邻的种类或者数值来确定测试数据的种类或者数值

距离和相似度的衡量、类别判定

距离衡量的方法包括欧氏距离，余弦夹角等
衡量相似度时可以根据距离远近赋予训练集数据一个合适的权重。
根据权重和分类计算出最有可能属于的分类。
或者纯粹根据量的多少来判定分类。（感觉根据量的多少来判断差错会比较大，收到数据集的影响可能会比较严重)。
以下为复制来源：KNN算法理解

1、k值设定为多大？

k太小，分类结果易受噪声点影响；k太大，近邻中又可能包含太多的其>它类别的点。（对距离加权，可以降低k值设定的影响）

k值通常是采用交叉检验来确定（以k=1为基准）

经验规则：k一般低于训练样本数的平方根

2、类别如何判定最合适？

投票法没有考虑近邻的距离的远近，距离更近的近邻也许更应该决定最>终的分类，所以加权投票法更恰当一些。

3、如何选择合适的距离衡量？

高维度对距离衡量的影响：众所周知当变量数越多，欧式距离的区分能力就越差。

变量值域对距离的影响：值域越大的变量常常会在距离计算中占据主导>作用，因此应先对变量进行标准化。

4、训练样本是否要一视同仁？

在训练集中，有些样本可能是更值得依赖的。

可以给不同的样本施加不同的权重，加强依赖样本的权重，降低不可信赖样本的影响。

5、性能问题？

kNN是一种懒惰算法，平时不好好学习，考试（对测试样本分类）时才临阵磨枪（临时去找k个近邻）。

懒惰的后果：构造模型很简单，但在对测试样本分类地的系统开销大，因为要扫描全部训练样本并计算距离。

已经有一些方法提高计算的效率，例如压缩训练样本量等。

6、能否大幅减少训练样本量，同时又保持分类精度？

浓缩技术(condensing)

编辑技术(editing)

然后去试一下Digit Recognition，码完了回来补代码

血与泪的教训，安装python 一定要安装64位的，32位做运算害人不浅。。。。
早上代码跑起来，回去估计就收集到相关的数据了，下午点名完之后进行总结和整理。收到的教训：
1. 好好写gc模块
2. 64位的python
3. 对于数据库的运用是自己以后应当加强的
就这样吧，或许还有攒钱买内存条和固态了。

import csvfrom numpy import mat,shape,zeros,tile,argsort,arrayimport numpyimport operatorimport gcdef loadTrainData():    l=[]    with open('train.csv') as file:        lines=csv.reader(file)        for line in lines:            l.append(line)        l.remove(l[0])        l=array(l)        label=l[:,0]        data=l[:,1:]        del l        gc.collect()        return nomelizing(toInt(data)),toInt(label)def toInt(array):    array=mat(array)    m,n=shape(array)    newArray=zeros((m,n))    for i in xrange(m):        for j in xrange(n):            newArray[i,j]=int(array[i,j])    return newArraydef nomelizing(array):    m,n=shape(array)    for i in xrange(m):        for j in xrange(n):            if array[i,j]!=0:                array[i,j]=1    return arraydef loadTestData():    l=[]    with open('test.csv') as file:        lines=csv.reader(file)        for line in lines:            l.append(line)    l.remove(l[0])    data=array(l)    del l    gc.collect()    return nomelizing(toInt(data))def classify(inX,dataSet,lables,k):    inX=mat(inX)    dataSet=mat(dataSet)    lables=mat(lables)    dataSetSize=dataSet.shape[0]    diffMat=tile(inX,(dataSetSize,1))-dataSet    del inX    del dataSet    gc.collect()    sqDiffMat=array(diffMat)**2    sqDistance=sqDiffMat.sum(axis=1)    del sqDiffMat    gc.collect()    distances=sqDistance**0.5    del sqDistance    print 9    sortedDistIndicies=distances.argsort()    classCount={}    for i in range(k):        voteIlable=lables[0,sortedDistIndicies[i]]        classCount[voteIlable]=classCount.get(voteIlable,0)+1    sortedClassCount=sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)    return sortedClassCount[0][0]def saveResult(result):    with open('result.csv','wb') as myFile:        myWriter=csv.writer(myFile)        for i in result:            tmp=[]            tmp.append(i)            myWriter.writerow(tmp)def handwritingClassTest():    trainData,trainLabel=loadTrainData()    print 's1'    testData=loadTestData()    print's2'    m,n=shape(testData)    print 's3'    resultList=[]    print 's4'    for i in range(m):        classifierResult = classify(testData[i], trainData, trainLabel, 5)        resultList.append(classifierResult)        print  classifierResult        del classifierResult        gc.collect()    print resultList    saveResult(resultList)

开始自己用的32位python，老是超内存，所以gc模块乱写的，来源：
大数据竞赛平台——Kaggle 入门
完结

最后再补充一些吧，刚上完计算机网络脑子不是很好用没法接着写代码了：
可以稍微进行优化，依据距离远近来给不同的项一个权重值，权重函数有很多，算是一个优化方向吧。
如果还有其它可以优化的再做补充。

阅读全文

0 0