1-4sklearn基础
来源:互联网 发布:神级优化单机游戏 编辑:程序博客网 时间:2024/06/05 01:50
sklearn基础
- sklearn基础
- sklearn 简介
- 安装
- 选择合适的机器学习方法模型
- 入门例子-分类-KNN算法-给花朵分类
笔记是观看莫烦的机器学习视频《莫烦Scikit-learn》的读书笔记,初学者强烈推荐他的视频。
1 sklearn 简介
Scikit learn 也简称 sklearn, 是机器学习领域当中最知名的 python 模块之一.
Sklearn 包含了很多种机器学习的方式:
- Classification 分类
- Regression 回归
- Clustering 非监督分类
- Dimensionality reduction 数据降维
- Model Selection 模型选择
- Preprocessing 数据预处理
我们总能够从这些方法中挑选出一个适合于自己问题的, 然后解决自己的问题.
2 安装
安装 Scikit-learn (sklearn) 最简单的方法就是使用 pip 安装它.
或者使用 Anaconda 很方便的安装所有 python 的科学计算模块.(Anaconda已经集成了许多有用模块,包括sklearn)
3 选择合适的机器学习方法(模型)
机器学习算法有四类,分类,回归,聚类,降维。
如图:
- 其中 分类和回归是监督式学习,即每个数据对应一个 label。
- 聚类 是非监督式学习,即没有 label。
- 另外一类是 降维,当数据集有很多很多属性的时候,可以通过 降维 算法把属性归纳起来。(例如 20 个属性只变成 2 个,注意,这不是挑出 2 个,而是压缩成为 2 个,它们集合了 20 个属性的所有特征,相当于把重要的信息提取的更好,不重要的信息就不要了。
4 入门例子-分类-KNN算法-给花朵分类
Sklearn 把所有机器学习的模式整合统一起来了,学会了一个模式就可以通吃其他不同类型的学习模式。
Sklearn 本身有很多数据库,可以用来练习。其中有个Iris数据库: Iris 是一种花,这种花有四个属性,花瓣的长宽,茎的长宽,根据这些属性把花分为三类。
我们要用 分类器 去把四种类型的花分开。
今天用 KNN classifier,就是选择几个临近点,综合它们做个平均来作为预测值。
下面是详细代码,过程见注释:
# 数组模块import numpy as np# 存储了许多有用的数据集from sklearn import datasets# 分割数据的模块,把数据集分为训练集和测试集from sklearn.cross_validation import train_test_split# KNN算法from sklearn.neighbors import KNeighborsClassifier# 导入iris花的数据集iris = datasets.load_iris()iris_X = iris.data # 输入是花的四个属性iris_y = iris.target # 输出是花的3个种类print(iris_X[0:5])print(iris_y[0:5])# 将数据集分割成 训练集 与 测试集,切顺序是打乱的。其中测试集占30%X_train,X_test,y_train,y_test = train_test_split(iris_X,iris_y,test_size=0.3)# print(y_train)# 创建KNN方法knn = KNeighborsClassifier()# 使用数据训练模型knn.fit(X_train,y_train)# 使用训练好的模型进行预测,并于真实的结果进行比较print(knn.predict(X_test))print(y_test)
阅读全文
1 0
- 1-4sklearn基础
- sklearn-基础使用
- sklearn中基础库函数笔记
- Sklearn
- sklearn
- sklearn
- Sklearn
- scikit-learn 即sklearn的基础学习
- 数据分析(4)-sklearn入门
- sklearn学习(1) 数据集
- sklearn 数据加载工具(1)
- sklearn 数据预处理1: StandardScaler
- 深度学习基础系列 (二) 用 sklearn 实现 ID3 算法
- scikit-learn 回归基础 分类:机器学习Sklearn
- 深度学习基础系列(四)之 sklearn SVM
- sklearn学习笔记1---cross-validation
- sklearn之样本生成(1)
- sklearn学习笔记(1)--make_blobs
- HDU2078 复习时间【水题】
- 语音识别真的比肩人类了?听听阿里iDST初敏怎么说
- Hadoop详解一:Hadoop简介
- 行为树_1
- 插入排序
- 1-4sklearn基础
- 解决VMware“该虚拟机似乎正在使用中”问题
- kettle A Java Exception has occurred
- 判断网络连接,没网进行设置
- ubuntu重装系统之后需要做的事情
- RxJava 搭建运行环境
- datetimepicker 年视图,年月视图设置
- Notepad++之基本设置
- UC伯克利教授迈克尔·乔丹采访:人类对机器学习期待过高,机器学习的发展还应当更广阔