K-近邻算法
来源:互联网 发布:淘宝网店从哪里注册 编辑:程序博客网 时间:2024/05/29 12:54
K-近邻算法原理:在一组样本数据中,每一个数据都有标签,然后输入没有标签的数据,通过输入数据的各个特征和样本数据进行比较,用算法分析出最合适输入数据的标签。
一般选择样本中k个相似的数据,最后选择k个中出现次数最多的标签,作为新输入数据的标签。
一般做法:
step.1—计算未知样本和每个训练样本的距离dist
step.2—得到dist,对dist进行排序
step.3—选取与当前点距离最小的k个点
step.4—确定前k个点所在类别的出现频率
step.5—选择出现频率最大的类标号作为未知样本的类标号
def classify1(inX,group,labels,k=3): m = group.shape[0] #计算距离,采用的是欧式距离 dataInx = np.tile(inX, (m,1)) - group dataInx = dataInx ** 2 dataSum = dataInx.sum(axis=1) dataSum = dataSum ** 0.5 #选取k个最近的数据中标签最多的一个 dataSorted = dataSum.argsort() classCount = {} for i in range(k): classIndex = dataSorted[i] classCount[labels[classIndex]] = 1 + classCount.get(labels[classIndex],0) #print(classCount) classCountSorted = sorted(classCount.items(), key=operator.itemgetter(1),reverse=True) return classCountSorted[0][0]
通过k-近邻算法,对手写数字进行识别
得到的手写数字是txt文件,例如0_1.txt,第一个0代表文件的数字是0。里面是32*32的矩阵。首先,要把txt文件化作np中的矩阵。
import osdef imgToVect(filename): returnVect = np.zeros((1,1024)) fr = open(filename) for i in range(32): lineStr = fr.readline() for j in range(32): returnVect[0,i*32+j] = int(lineStr[j]) return returnVect;
得到一个1*1024的矩阵。然后对训练数据进行读取,写进一个m*1024的矩阵中trainMat和hwLabels。在对测试数据进行读取,
用上面的classify1函数进行测试即可。
hwlabels = []trainingFileList = os.listdir('trainingDigits');m = len(trainingFileList)trainMat = np.zeros((m,1024)) for i in range(m): filename = trainingFileList[i]; trainIndex = filename.split('_')[0] hwlabels.append(int(trainIndex)) #print('trainingDigits/%s'%i) trainMat[i,:] = imgToVect('trainingDigits/%s'%filename)testFileList = os.listdir('testDigits');errorNum = 0.0m = len(testFileList)for i in range(m): fileName = testFileList[i].split('_')[0] testMat = imgToVect('testDigits/%s'%testFileList[i]) #print(testMat) resultData = classify1(testMat, trainMat, hwlabels ,3) if resultData != int(fileName): errorNum += 1 print('the real:%s,the classify is %s'%(fileName,resultData))print('the error rate is %f'%(errorNum/len(testFileList)))
最后打印的是错误率,大概是1.2%左右。
基于sklearn的neighbors.KNeighborsClassifier算法
from sklearn import neighbors neigh = neighbors.KNeighborsClassifier(n_neighbors = 1)def hendWrite1(): hwlabels = [] trainingFileList = os.listdir('trainingDigits'); m = len(trainingFileList) trainMat = np.zeros((m,1024)) for i in range(m): filename = trainingFileList[i]; trainIndex = filename.split('_')[0] hwlabels.append(int(trainIndex)) #print('trainingDigits/%s'%i) trainMat[i,:] = imgToVect('trainingDigits/%s'%filename) neigh.fit(trainMat, hwlabels) testFileList = os.listdir('testDigits'); errorNum = 0.0 m = len(testFileList) for i in range(m): fileName = testFileList[i].split('_')[0] testMat = imgToVect('testDigits/%s'%testFileList[i]) #print(testMat) #利用sklearn的knn算法 resultData = neigh.predict(testMat) if resultData != int(fileName): errorNum += 1 print('the real:%s,the classify is %s'%(fileName,resultData)) print('the error rate is %f'%(errorNum/len(testFileList)))
最后结果是1.2%左右。
阅读全文
0 0
- K近邻算法
- K近邻算法
- K近邻算法
- K近邻算法
- K近邻算法
- K近邻算法
- k近邻算法
- OpenCv K近邻算法
- k-近邻算法(kNN)
- k-近邻算法
- k-近邻算法(kNN)
- K近邻算法
- K近邻分类算法
- K近邻分类算法
- K近邻算法
- K近邻算法
- k最近邻算法
- K-近邻算法
- Shell echo命令
- shadowsocks后端一键脚本
- python__爬虫自学异常 (二)
- 读取MP3内嵌信息
- 10065---【Java多线程】线程池的工作原理详解(上)
- K-近邻算法
- POJ 2422 The Wolves and the Sheep 笔记
- IntelliJ IDEA安装、配置、测试(win7_64bit)
- 机器学习--神经网络算法系列--交叉熵(Cross_entropy)
- hashMap的原理 深入理解
- React Native网络请求fetch简单封装
- RMI——hello world程序
- cocos2d中游戏失败后再次回到游戏主界面出现“Node still marked as running on node destruction! Was base class onExit() “
- 尺取法