knn-2 利用knn算法实现手写数字识别

来源:互联网 发布:数控螺纹编程实例 编辑:程序博客网 时间:2024/05/02 02:29
# -*- coding: utf-8 -*-
from numpy import *
from os import listdir
import operator
def knn_classify0(inx,dataSet,labels,k):
    #inx 用于分类的输入向量
    #dataSet 输入的训练样本集
    #标签 labels
    #k 最近邻居的数目
    dataSetSize= dataSet.shape[0]
    #tile函数是重复函数
    diffmat = tile(inx, (dataSetSize,1)) - dataSet 
    sqdiffmat = diffmat**2
    #对数组按行求和
    sqdistance = sqdiffmat.sum(axis=1)
    distance=sqdistance**0.5
    #对数组按列排序,返回索引值
    sortedDisIndex = distance.argsort(axis=0)
    #建立字典
    classCount={}
    for i in range(k):
        votelabel=labels[sortedDisIndex[i]]
        #字典的get方法(a,b),如果字典里没有此key返回b,有返回key_value。不断的累积标签对应的数值
        classCount[votelabel]=classCount.get(votelabel,0)+1
    sortedclassCount=sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)
    return sortedclassCount[0][0]

#图形转矩阵
def img2vector(filename):
    fr=open(filename)
    returnVector = zeros((1,1024))
    
    for i in range(32):
        line=fr.readline()
        line=line.strip()
        for j in range(32):
            returnVector[0,32*i+j]=int(line[j])
    return returnVector
#my god!!路径一定要用//////////////////////////////啊!!!
testVector=img2vector('D:/learn/Ch02/digits/testDigits/0_13.txt')
# print testVector[0,0:31]
# print testVector[0,32:63]


def handwritingClassTest():
    errorCount=0.0
    hwlabels=[]
    #获取目录内容
    #训练集
    trainingFileList=listdir('D:/learn/Ch02/digits/trainingDigits')
    m=len(trainingFileList)
    trainingMat=zeros((m,1024))
    for i in range(m):
        fileNameStr=trainingFileList[i]
        #按.分割,将0_0.txt分割成0_0,txt两部分,然后取第一部分0_0
        fileStr=fileNameStr.split('.')[0]
        classNumStr=int(fileStr.split('_')[0])
        hwlabels.append(classNumStr)
        trainingMat[i,:]=img2vector('D:/learn/Ch02/digits/trainingDigits/%s' % fileNameStr)
    
    #测试集
    testFileList=listdir('D:/learn/Ch02/digits/testDigits')    
    mtest =len(testFileList)
    for j in range(mtest):
        fileNameStr=testFileList[j]
        fileStr=fileNameStr.split('.')[0]
        classNumStr=int(fileStr.split('_')[0])
        vectorUnderTest=img2vector('D:/learn/Ch02/digits/testDigits/%s' %fileNameStr)
        classFierResult=knn_classify0(vectorUnderTest, trainingMat, hwlabels, 3)
        print "the predict:%d,the real :%d" %(classFierResult,classNumStr)
        if(classFierResult!=classNumStr):errorCount=errorCount+1.0
        
    #总结果统计
    print "\n the total errors :%d" %errorCount
    print "\n the error rate :%f" %(errorCount/float(mtest))
        
handwritingClassTest()     
        
        
        
        
        
0 0
原创粉丝点击