k近邻 - 改进约会网站的匹配效果

来源:互联网 发布:ubuntu 关闭swap 编辑:程序博客网 时间:2024/05/17 06:00
# -*- coding: utf-8 -*-import numpy as np import operatorfrom os import listdir# k近邻算法实现def classify0(inX, dataSet, labels, k):    # 得到数组的行数, 训练数据的大小    dataSetSize = dataSet.shape[0]    # 将inX这一个数据, 扩充成dataSetSize个大小一样的数据集    # 减去dataSet, 得到一个差集的数据集    diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet    # 平方, 数据集各个元素分别平方    sqDiffMat = diffMat ** 2    # 每行数据求和    sqDistances = sqDiffMat.sum(axis=1)    # 开方    distances = sqDistances ** 0.5    # 排序, sortedDistIndicies为得到的索引的序的列表    sortedDistIndicies = distances.argsort()    # 字典    classCount = {}    for i in range(k):        # voteIlabel为得到的label        voteIlabel = labels[sortedDistIndicies[i]]        # 字典classCount中标签voteIlabel对应的值加一, 0代表初始值从0开始        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1    # classCount.iteritems(): 迭代取出classCount的每个元素    # key: 需要排序的列表项    # reverse: 降序排序    sortedClassCount = sorted(classCount.iteritems(),                              key=operator.itemgetter(1), reverse=True)    return sortedClassCount[0][0]# 文件转成矩阵def file2matrix(filename):    # 打开文件    fr = open(filename)    # 获取文件的行数    numberOfLines = len(fr.readlines())    # 创建一个行数为:numberOfLines, 列数为3,以0填充的矩阵    returnMat = np.zeros((numberOfLines,3))    classLabelVector = []      fr = open(filename)    index = 0    # 循环读取文件的每一行    for line in fr.readlines():        # 去掉每行数据的回车符        line = line.strip()        # 将每行数据, 分割成一个元素列表        listFromLine = line.split('\t')        # 将每个元素列表的前3个元素, 存到特征矩阵中        returnMat[index,:] = listFromLine[0:3]        # 将每个元素列表的最后一个元素, 存到标签向量列表中        classLabelVector.append(int(listFromLine[-1]))        # 索引自加        index += 1    # 返回: 特征矩阵, 标签列表    return returnMat,classLabelVectorreturnMat,classLabelVector = file2matrix('datingTestSet2.txt')# 数据归一化# newValue = (oldValue - min)/ (max - min)def autoNorm(dataSet):    # 数据中最小值和最大值    minVals = dataSet.min(0)    maxVals = dataSet.max(0)    # 区间    ranges = maxVals - minVals    # np.shape(dataSet): 返回矩阵的行数和列数    # 创建名为normDataSet的用0填充的矩阵    normDataSet = np.zeros(np.shape(dataSet))    # 矩阵的行数    m = dataSet.shape[0]    # np.tile(minVals, (m,1): 扩充一个m行1列的用minVals填充的矩阵    # (oldValue - min)    normDataSet = dataSet - np.tile(minVals, (m,1))    # (oldValue - min)/ (max - min)    normDataSet = normDataSet/np.tile(ranges, (m,1))    return normDataSet, ranges, minValsdef datingClassTest():    hoRatio = 0.5    # 从文件中获取数据        datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')     # 数据归一化    normMat, ranges, minVals = autoNorm(datingDataMat)    # 数据的行数    m = normMat.shape[0]    # 测试数据的个数    numTestVecs = int(m*hoRatio)    errorCount = 0.0    for i in range(numTestVecs):        # k近邻分类的结果        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)        print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i])        # 对比k近邻分类的结果和真实的结果        if (classifierResult != datingLabels[i]): errorCount += 1.0    print "the total error rate is: %f" % (errorCount/float(numTestVecs))    print errorCountdatingClassTest()
0 0