1.机器学习学习心得 - k 近邻算法

来源：互联网发布：阿金淘宝店编辑：程序博客网时间：2024/06/06 00:18

最近学习了《机器学习实战》这本书，讲的很仔细，很适合我们这些初学者

K-近邻算法是一种易于理解的机器学习算法，它的工作原理是：存在一个样本数据集合，并且样本中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似的分类标签。一般来说，只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中的k，通常k是不大于20的整数，最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类

k-近邻算法通俗理解为计算样本数据中的点距离新数据点的距离，取最近的k个点作为最相似的点作为新数据的分类的判断依据

python实现

def classify0(inX, dataSet, labels, k):    dataSetSize = dataSet.shape[0]    diffMat = tile(inX, (dataSetSize, 1)) - dataSet    sqDiffMat = diffMat**2    sqDistances = sqDiffMat.sum(axis=1)    distances = sqDistances**0.5    sortedDistIndicies = distances.argsort()    classCount = {}    for i in range(k):        voteIlabel = labels[sortedDistIndicies[i]]        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)    return sortedClassCount[0][0]

0 0

1.机器学习 学习心得 - k 近邻算法

1.机器学习学习心得 - k 近邻算法