python scikit-learn机器学习算法库

来源:互联网 发布:大数据text下载 编辑:程序博客网 时间:2024/06/06 13:56

http://blog.csdn.net/shizhixin/article/details/50488520
分类算法

K最近邻算法(KNN)

原理:前提邻居都已分类,离自己最近的K个样本中占多数的类别就是最终的分类类别
邻居都已分类反应在代码上就是训练集是已分类的;
不足:

样本不均衡时,会导致结果不准

解决:增加权重值

计算量大,对每一个待分类的样本,都需算出自己和全体样本的距离,才能确定K个最近邻点

解决:对全体样本进行剪辑,减小数据量

KNN算法描述:

计算已知类别数据集中的点和待分类点的距离对距离递增排序取前K个点计算这K个点中,各个类别的出现频率出现频率最高的即为分类结果

pytyon安装模块或库的三种方法:

Anaconda

python的发行版,包含常用的python库,足矣

pip

pip install 库名

源码安装

将库的源码下载下来,解压,然后进入到解压目录,执行python setup.py install,就会把这个库安装到python的默认库目录中