机器学习实战——手写数字识别

来源：互联网发布：c4d下载mac 斯蒂芬周编辑：程序博客网时间：2024/05/16 16:14

前面探索了KNN的代码，KNN中唯一需要优化的参数就是K,前面还没涉及到训练K值使得获得的准确率最高，思想还是比较简单的，书上还附加了关于利用KNN进行手写数字识别的算法，主要思想是先将32*32的图片文件（图片本身用01序列构成的矩阵表示，TXT文档）转化为1*1024的向量，再使用K近邻的思想，利用前面已经写好的部分代码（classify0()）进行计算，下面是具体的代码。

def img2vector(filename):        #img2vecor将32*32的图片转化为向量
    returnVect = zeros((1,1024))   #返回一个1*1024的向量
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()         #每次读一行
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j]) #这个向量本身也完全是由01构成，相当于将原来的矩阵每一行首尾相连
    return returnVect

def handwritingClassTest():
    hwLabels = []
    trainingFileList = listdir('trainingDigits')           #load the training set，‘trainingDigits’是一个文件夹，包含若干个txt文件
    m = len(trainingFileList)                                 #得到“trainingDigits”目录下文件的个数
    trainingMat = zeros((m,1024))                       #将所有训练数据用一个m行，1024列的矩阵表示
    for i in range(m):
        fileNameStr = trainingFileList[i]                 #获得所有文件名，文件名格式‘x_y.txt’,x表示这个手写数字实际表示的数字（label）
        fileStr = fileNameStr.split('.')[0]     #take off .txt
        classNumStr = int(fileStr.split('_')[0])         #用‘_’分割，取得label
        hwLabels.append(classNumStr)               #将所有标签都存进hwLables[]
        trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr)       #将文件转化为向量后存入trainingMat[],这里展现了灵活的文件操作
    testFileList = listdir('testDigits')        #iterate through the test set
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]     #take off .txt
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)     #这部分针对测试集的预处理和前面基本相同
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3) #调用了前面写的classify0()函数
        print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr)
        if (classifierResult != classNumStr): errorCount += 1.0
    print "\nthe total number of errors is: %d" % errorCount
    print "\nthe total error rate is: %f" % (errorCount/float(mTest))

listdir() :获得指定目录中的内容

fileNameStr = trainingFileList[i] #获得所有文件名，文件名格式‘x_y.txt’,x表示这个手写数字实际表示的数字（label）
fileStr = fileNameStr.split('.')[0] #take off .txt

classNumStr = int(fileStr.split('_')[0]) #用‘_’分割，取得label

这里展现了灵活的文件操作，特别是对同一个文件夹下面有命名规律的文件的操作，作为初学者，以前没接触过，学习了

在默认参数下，错误率在 0.011628

第二章KNN算法的内容到此结束，作为入门小白，通过看代码收获还是很大的，这几天自己还要把这些代码自己重新写一遍，把基本操作掌握好，特别是文件操作还有矩阵，列表的计算，在原理上KNN是十分简单的，但是这个自己动手编程实战的过程不能省略。以前原理性的东西看的比较多，动手实战比较少，现在要好好弥补了！

0 0