使用R完成K近邻分类

来源:互联网 发布:batch随机梯度下降算法 编辑:程序博客网 时间:2024/05/20 00:36

使用数据集iris, 验证Petal.Length, Petal.Width两个特征的分类能力。代码如下:

with(iris, plot(Petal.Length, Petal.Width, col=as.integer(Species)))text(2.2, 0.3, "setosa")text(3.0, 1.3, "versicolor")text(6.5, 1.7, "virginica")

效果如下,可以看出,Petal.Length, Petal.Width两个特征的分类能力很强:



调用kknn函数进行模型训练与预测,代码如下:

library(kknn) data(iris)m <- dim(iris)[1]  #获取数据集记录条数val <- sample(1:m, size =round(m/3), replace = FALSE, prob= rep(1/m, m))  #抽样,选取三分之二的数据作为训练集。iris.learn <- iris[-val,]  #选取训练集iris.valid <- iris[val,]   #选取验证集#训练模型并进行预测分类iris.kknn <- kknn(Species~Petal.Length + Petal.Width,iris.learn, iris.valid, k=7, distance=2)summary(iris.kknn)  #查看分类结果#判定分类准确性fit <- fitted(iris.kknn)table(iris.valid$Species, fit)
最终结果如下:

            fit
             setosa versicolor virginica
  setosa         14          0         0
  versicolor      0         21         1
  virginica       0          1        13

可以看出,只有两个个记录被误分类。


以可视化方式呈现误分类情况,调用如下代码:

pcol <- as.character(as.numeric(iris.valid$Species))plot(iris.valid[3:4], pch = pcol, col = c("green3", "red")[(iris.valid$Species != fit)+1])
可视化结果见下图:






1 0
原创粉丝点击