python之scikit-learn的应用

来源:互联网 发布:淘宝耐克鞋正品 编辑:程序博客网 时间:2024/06/05 01:12

一.scikit-learn安装

1.准备工作:
  • Python (>= 2.6 or >= 3.3),
  • Numpy (>= 1.6.1)
  • Scipy (>= 0.9),
  • Matplotlib(可选).
2.下载地址:
  • python:https://www.python.org/downloads/
  • Numpy+Scipy+Matplotlib+scikit-learn:http://www.lfd.uci.edu/~gohlke/pythonlibs/  (目录中文件名为:库名-库版本号-python版本-平台)
3.安装过程:
  • 打开cmd,先输入python,进入编程模式则python已安装成功(exit()退出编程模式)
  • 将目录切换至Numpy等的存储目录下,输入pip install .\文件名
  • 安装成功显示successful installed 文件名

二.scikit-learn数据集

1.三类数据集函数:
  • datasets.load_XXX():获取小规模数据集,数据包含在datasets中
  • datasets.fetch_XXX():获取大规模数据集,数据需从网络上下载
  • datasets.make_XXX():本地生成数据集
1.1 datasets.load_XXX()中数据集格式:
  • data:特征数据数组,n_samples*n_features
  • target:标签数组
  • DESCR:数据描述
  • feature_names:特征名
  • target_names:标签名
1.2 dataset.load_XXX()中的数据集:
  • load_boston():房屋特征-房价,用于regression
  • load_diabetes():糖尿病数据,用于 regression
  • load_linnerud():Linnerud数据集,有多个标签,用于 multilabel regression
  • load_iris():鸢尾花特征和类别,用于classification
  • load_digits([n_class]):手写数字识别
  • load_sample_images():载入图片数据集,共两张图
  • load_sample_image(name):载入图片数据集中的一张图
  • load_files(container_path, description=None, categories=None, load_content=True, shuffle=True, encoding=None, decode_error=’strict’, random_state=0):从本地目录获取文本数据,并根据二级目录做分类
1.3 数据集加载:
from sklearn import datasetsiris=datasets.load_iris()x=iris.datay=iris.target
print iris.feature_names
print iris.target_names
print x.shape,y.shape

3.预处理——库函数使用

4.分类器
from sklearn import datasetsfrom sklearn.model_selection import train_test_splitfrom sklearn import linear_modeliris=datasets.load_iris()x=iris.datay=iris.targettrain_x,test_x,train_y,test_y=train_test_split(x,y,test_size=0.3)logistic=linear_model.LogisticRegression()logistic.fit(train_x,train_y)print logistic.score(test_x,test_y)