kNN近邻算法改善约会网站配对效果案例
来源:互联网 发布:哈登数据库 编辑:程序博客网 时间:2024/05/16 15:17
示例:在约会网站上使用&近邻算法 ' ' ;;• f ^ , : , i
(1)收集数据:提供文本文件。
(2)_准备数据:使用?沖 00解析文本文件。
( 3 )分 析 数 据 :使用河3中10«化画二维扩散图。
(4)训练算法:此步驟不适用于卜近邻算法。
(5)测试算法:使用海伦提供的部分数据作为测试样本。
测试样本和非测试样本的区别在于:测试样本是已经完成分类的数据,如果预测分类
与实际类别不同,则标记为一个错误。
(6)使用算法:产生简单的命令行程序,然后海伦可以输入一些特征数据以判断对方是否
为自己喜欢的类型。
每年获得的飞行常客里程数
□ 玩视频游戏所耗时间百分比
□ 每周消费的冰淇淋公升数
# -*- coding: utf-8 -*-# 这样也行# coding:utf-8from numpy import *import operatorimport matplotlibimport matplotlib.pyplot as pltdef createDataSet(): group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels=['A','A','B','B'] return group,labels#k近邻算法def classify0(inx,dataset,labels,k): datasetsize=dataset.shape[0] #获取矩阵的行数 #距离计算 以下完成欧氏距离计算 d = 」(xA0 - xB0)2 + (xA{- xBt )2 # tile用于将数组第一维度扩展4倍,第二维度扩展一倍,再减去dataset diffmat=tile(inx,(datasetsize,1))-dataset #对差值矩阵进行平方运算 sqdiffmat=diffmat**2 sqdistance=sqdiffmat.sum(axis=1) #axis=1表示按行求和 ,axis=0表示按列求和 #进行开根号处理 distances=sqdistance**0.5 #欧式距离计算到此结束 sorteddistindiciles=argsort(distances) #argsort函数返回的是数组值从小到大的索引值 classcount={} #选择最小的k个点 for i in range(k): voteilabel=labels[sorteddistindiciles[i]] #获取对应的标签 classcount[voteilabel]=classcount.get(voteilabel,0)+1 #d对对应的标签进行计数累加 #排序 sortedclasscount=sorted(classcount.iteritems(), key=operator.itemgetter(1),reverse=True) #dictionary.iteritems()将classcount迭代成数组 #将字典分解为元组列表,然后使用程序第二行导入运算符模块的itemgetter ,按照第二个元素的次序对元组进行排序©。#排序为逆序,即按照从最大到最小次序排序,最后返回发生频率最高的元素标签 return sortedclasscount[0][0]#以下该函数用来读取文本文件转换为矩阵def file2matrix(filename): fr = open(filename) numberOfLines = len(fr.readlines()) #get the number of lines in the file 获取文件的行数 returnMat = zeros((numberOfLines,3)) #prepare matrix to return 准备一个numberOfLines行,3列的矩阵,并用0填充 classLabelVector = [] #prepare labels return fr = open(filename) index = 0 for line in fr.readlines(): #这里是对每行进行循环 line = line.strip() #去掉每行后的换行符 listFromLine = line.split('\t') #去掉制表符 returnMat[index,:] = listFromLine[0:3] #把每行的前三个数据存储到数组里去 classLabelVector.append(int(listFromLine[-1])) #把每行的最后一个数据插入标签数组中 index += 1 return returnMat,classLabelVector#用于归一化def autoNorm(dataSet): minVals = dataSet.min(0) #这里的0表示取列里面的最小值而不是行的,,,,这里的minVals是一个1*3的矩阵 maxVals = dataSet.max(0) #这里的0表示取列里面的最大值而不是行的,,,,这里的maxVals是一个1*3的矩阵 ranges = maxVals - minVals #对应的矩阵进行相减 normDataSet = zeros(shape(dataSet)) #建立一个与dataSet维度相同的全0矩阵 m = dataSet.shape[0] #获取dataset的第一维度的值 normDataSet = dataSet - tile(minVals, (m,1)) #tile(minVals, (m,1))用于把minVals扩充成与dataSet维度一样的矩阵 normDataSet = normDataSet/tile(ranges, (m,1)) #element wise divide n e w V a l u e = {o l d V a l u e - m i n ) / (max-min) 这就是归一化的公式 return normDataSet, ranges, minValsdef datingClassTest(): hoRatio = 0.50 #hold out 10% datingDataMat,datingLabels = file2matrix('datingTestSet2.txt') #load data setfrom file #调用函数读文件 normMat, ranges, minVals = autoNorm(datingDataMat) #对数据进行归一处理 m = normMat.shape[0] #第一维度的行数 numTestVecs = int(m*hoRatio) errorCount = 0.0 #用于错误计数 for i in range(numTestVecs): classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3) #调用分类器进行计算 print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i]) if (classifierResult != datingLabels[i]): errorCount += 1.0 #错误时进行累加 print "the total error rate is: %f" % (errorCount/float(numTestVecs)) #打印错误率 print errorCount #打印错误个数def classifyPerson(): resultList = ['not at all ' , ' in small doses', 'in large doses'] percenTas=float(raw_input( "percentage of time spent playing video games?")) ffMiles=float(raw_input("frequent flier miles earned per year?")) iceCream=float(raw_input("liters of ice cream consumed per year?")) datingDataMat, datingLabels = file2matrix('datingTestSet2.txt') # load data setfrom file #调用函数读文件 normMat, ranges, minVals = autoNorm(datingDataMat) # 对数据进行归一处理 inArr =array([ffMiles,percenTas,iceCream]) classifierresult=classify0((inArr- minVals)/ranges,normMat,datingLabels,3) print "you will probably like this person:",\ resultList[classifierresult-1]classifyPerson()#datingClassTest() ############对分类器进行检测"""datingDataMat,datingLabels =file2matrix('datingTestSet2.txt') normMat, ranges ,minVals = autoNorm(datingDataMat)#用于绘图fig=plt.figure()ax=fig.add_subplot(111) #表示创建一行一列的图ax.scatter(datingDataMat[:,0],datingDataMat[:,2], 15.0*array(datingLabels),15.0*array(datingLabels)) #这两个参数利用datingLabels使得图中点的颜色发生变化plt.show()#绘图结束"""
阅读全文
0 0
- kNN近邻算法改善约会网站配对效果案例
- k-近邻算法(KNN)--2改进约会网站的配对效果---by香蕉麦乐迪
- 机器学习实战—k近邻算法(kNN)02-改进约会网站的配对效果
- K-近邻算法改进约会网站的配对效果
- k-近邻算法改进约会网站的配对效果
- 使用k-近邻算法改进约会网站的配对效果。
- 基于KNN算法的约会网站配对效果 python3.2
- kNN算法改进约会网站的配对效果
- 基于KNN算法的约会网站配对效果 python3.2
- 使用KNN算法改进约会网站的配对效果
- 机器学习 & python 使用k-近邻算法改进约会网站的配对效果
- 读懂《机器学习实战》代码—K-近邻算法改进约会网站配对效果
- 学习笔记:使用k-近邻算法改进约会网站的配对效果
- 【机器学习实战02】使用k-近邻算法改进约会网站的配对效果
- 《机器学习实战》第二章 2.2用k-近邻算法改进约会网站的配对效果
- 机器学习实战——K-近邻算法【2:改进约会网站配对效果】
- 机器学习—使用k-近邻算法改进约会网站的配对效果
- 『机器学习实战』使用 k-近邻算法改进约会网站的配对效果
- session失效后跳转到登陆页面
- session失效后跳转到登陆页面
- 编程之美2.6 精确表达浮点数
- Dalvik虚拟机学习1——Dalvik虚拟机源码结构分析
- linux下安装composer以及使用composer安装laravel
- kNN近邻算法改善约会网站配对效果案例
- bzoj 3223 splay 解题报告
- myeclipse中快捷键
- 远程数据库备份到本地(本地无数据库)
- sql中exists,not exists的用法
- 单元测试Mock使用方法
- uC/OS-III之定时器管理
- 斐波那契数列问题汇总
- java word转pdf的几种方法