1.机器学习 学习心得 - k 近邻算法

来源:互联网 发布:阿金淘宝店 编辑:程序博客网 时间:2024/06/06 00:18

        最近学习了《机器学习实战》这本书,讲的很仔细,很适合我们这些初学者


        K-近邻算法是一种易于理解的机器学习算法,它的工作原理是:存在一个样本数据集合,并且样本中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似的分类标签。一般来说,只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中的k,通常k是不大于20的整数,最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类


        k-近邻算法通俗理解为计算样本数据中的点距离新数据点的距离,取最近的k个点作为最相似的点作为新数据的分类的判断依据


       python实现

def classify0(inX, dataSet, labels, k):    dataSetSize = dataSet.shape[0]    diffMat = tile(inX, (dataSetSize, 1)) - dataSet    sqDiffMat = diffMat**2    sqDistances = sqDiffMat.sum(axis=1)    distances = sqDistances**0.5    sortedDistIndicies = distances.argsort()    classCount = {}    for i in range(k):        voteIlabel = labels[sortedDistIndicies[i]]        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)    return sortedClassCount[0][0]


0 0
原创粉丝点击