k近邻(KNN)的Python实现

来源：互联网发布：手机4g卡显示3g网络编辑：程序博客网时间：2024/05/21 09:52

K近邻算法：

复杂度：训练时间复杂度为0，如果训练集中文档总数为N特征维度为D则暴力做法分类时间复杂度为O(DN)。可以用K-D Tree或Ball-Tree优化成O(Dlog(N))。
优点：精度高、对异常值不敏感、无数据输入假定。
缺点：计算复杂度高、空间复杂度高。

K近邻算法原理：

输入一个新的没有标签的数据后，将新数据的每个特征值与训练样本集中数据的对应的特征进行比较，选择训练样本数据集中前K个最相似的数据，最后，选择K个最相似数据中出现次数最多的分类，作为新数据的分类。

k值设定：

k太小，分类结果易受噪声点影响；k太大，近邻中又可能包含太多的其它类别的点。（对距离加权，可以降低k值设定的影响）
k值通常是采用交叉检验来确定（以k=1为基准）
经验规则：k一般取3，上限为训练样本数的平方根。

kNN.py：

import numpy as np# 使用KNN分类def kNNClassify(newInput, dataSet, labels, k):    numSamples = len(dataSet)    # 计算欧拉距离    diff = np.tile(newInput, (numSamples, 1)) - dataSet    squaredDiff = diff ** 2    squaredDist = np.sum(squaredDiff, axis=1)    distance = squaredDist ** 0.5    # 距离排序    sortedDistIndices = np.argsort(distance)    # 计算前k个出现的次数    classCount = {}    for i in range(k):        voteLabel = labels[sortedDistIndices[i]]        classCount[voteLabel] = classCount.get(voteLabel, 0) + 1    # 找出最大的返回    maxCount = 0    for key, value in classCount.items():        if value > maxCount:            maxCount = value            maxIndex = key    return maxIndexdef main():    # 创建数据集    def createDataSet():        group = [[1.0, 0.9], [1.0, 1.0], [0.1, 0.2], [0.0, 0.1]]        labels = ['A', 'A', 'B', 'B']        return group, labels    dataSet, labels = createDataSet()    testX = [1.2, 1.0]    outputLabel = kNNClassify(testX, dataSet, labels, 3)    print("测试数据:", testX, "被分类到: ", outputLabel)    testX = [0.1, 0.3]    outputLabel = kNNClassify(testX, dataSet, labels, 3)    print("测试数据:", testX, "被分类到: ", outputLabel)if __name__ == '__main__':    exit(main())

输出结果：

测试数据: [1.2, 1.0] 被分类到:  A测试数据: [0.1, 0.3] 被分类到:  B

阅读全文

0 0

k近邻(KNN)的Python实现

K近邻算法：

K近邻算法原理：

输入一个新的没有标签的数据后，将新数据的每个特征值与训练样本集中数据的对应的特征进行比较，选择训练样本数据集中前K个最相似的数据，最后，选择K个最相似数据中出现次数最多的分类，作为新数据的分类。

k值设定：

k太小，分类结果易受噪声点影响；k太大，近邻中又可能包含太多的其它类别的点。（对距离加权，可以降低k值设定的影响）k值通常是采用交叉检验来确定（以k=1为基准）经验规则：k一般取3，上限为训练样本数的平方根。

kNN.py：

输出结果：

k太小，分类结果易受噪声点影响；k太大，近邻中又可能包含太多的其它类别的点。（对距离加权，可以降低k值设定的影响）
k值通常是采用交叉检验来确定（以k=1为基准）
经验规则：k一般取3，上限为训练样本数的平方根。