Scikit-learn:scikit-learn快速教程及实例

来源:互联网 发布:php app微信支付 编辑:程序博客网 时间:2024/06/11 06:31

http://blog.csdn.net/pipisorry/article/details/52251305

scikit-learn 教程导航

简介:使用scikit-learn进行机器学习

  • 机器学习:问题设定
  • 加载样例数据集
  • 学习和预测
  • 模型持久化
  • 惯例

统计学习教程

  • 统计学习:scikit-learn中的配置和estimator对象
  • 有监督学习:预测高维观测对象
  • 模型选择:选择estimator和参数
  • 无监督学习:寻找数据特征
  • 连接所有流程
  • 帮助

文本分析

  • 设置
  • 加载“Twenty Newsgroups”数据集
  • 抽取text文件的特征
  • 训练分类器
  • 建立管道
  • 评估测试集的表现
  • 使用网格搜索调整参数
  • 练习1:语言识别
  • 练习2:影评情感分析
  • 练习3:CLI文本分类应用
  • 路在何方

选择合适的estimator

通常机器学习最难的一部分是选择合适的estimator。

不同的estimator适用于不同的数据集和问题。

在本节中,sklearn官方文档提供了一个图,可以快速地根据你的数据和问题选择合适的estimator。单击相应的区域还可以获得更具体的内容。

推荐到官网看看flowchart ,很有意思,具有简单的普适性


其他的资源,视频和讨论

  • python 统计学新手
  • 其他的教程
  • 视频

具体参见官方文档http://scikit-learn.org/stable/presentations.html

[scikit-learn Tutorials]*

皮皮blog



如何开启机器学习之路

通常用Pandas包去进行主数据分析会比较好,而且这很容易你自己完成。所以,让我们集中精力在实现上。为了确定性,我们假设有一个特征-对象矩阵作为输入,被存在一个*.csv文件中。

数据加载

首先,数据要被加载到内存中,才能对其操作。Scikit-Learn库在它的实现用使用了NumPy数组,所以我们将用NumPy来加载*.csv文件。让我们从UCI Machine Learning Repository下载其中一个数据集。

我们将在下面所有的例子里使用这个数据组,换言之,使用X特征物数组和y目标变量的值。

数据标准化

我们都知道大多数的梯度方法(几乎所有的机器学习算法都基于此)对于数据的缩放很敏感。因此,在运行算法之前,我们应该进行标准化,或所谓的规格化。标准化包括替换所有特征的名义值,让它们每一个的值在0和1之间。而对于规格化,它包括数据的预处理,使得每个特征的值有0和1的离差。Scikit-Learn库已经为其提供了相应的函数。
特征的选取

毫无疑问,解决一个问题最重要的是是恰当选取特征、甚至创造特征的能力。这叫做特征选取和特征工程。虽然特征工程是一个相当有创造性的过程,有时候更多的是靠直觉和专业的知识,但对于特征的选取,已经有很多的算法可供直接使用。如树算法就可以计算特征的信息量。

其他所有的方法都是基于对特征子集的高效搜索,从而找到最好的子集,意味着演化了的模型在这个子集上有最好的质量。递归特征消除算法(RFE)是这些搜索算法的其中之一,Scikit-Learn库同样也有提供。

算法的开发

正像我说的,Scikit-Learn库已经实现了所有基本机器学习的算法。让我来瞧一瞧它们中的一些。

逻辑回归

大多数情况下被用来解决分类问题(二元分类),但多类的分类(所谓的一对多方法)也适用。这个算法的优点是对于每一个输出的对象都有一个对应类别的概率。

朴素贝叶斯

它也是最有名的机器学习的算法之一,它的主要任务是恢复训练样本的数据分布密度。这个方法通常在多类的分类问题上表现的很好。

k-最近邻

kNN(k-最近邻)方法通常用于一个更复杂分类算法的一部分。例如,我们可以用它的估计值做为一个对象的特征。有时候,一个简单的kNN算法在良好选择的特征上会有很出色的表现。当参数(主要是metrics)被设置得当,这个算法在回归问题中通常表现出最好的质量。

决策树

分类和回归树(CART)经常被用于这么一类问题,在这类问题中对象有可分类的特征且被用于回归和分类问题。决策树很适用于多类分类。

支持向量机

SVM(支持向量机)是最流行的机器学习算法之一,它主要用于分类问题。同样也用于逻辑回归,SVM在一对多方法的帮助下可以实现多类分类。

除了分类和回归问题,Scikit-Learn还有海量的更复杂的算法,包括了聚类, 以及建立混合算法的实现技术,如Bagging和Boosting。

如何优化算法的参数

在编写高效的算法的过程中最难的步骤之一就是正确参数的选择。一般来说如果有经验的话会容易些,但无论如何,我们都得寻找。幸运的是Scikit-Learn提供了很多函数来帮助解决这个问题。

作为一个例子,我们来看一下规则化参数的选择,在其中不少数值被相继搜索了:

有时候随机地从既定的范围内选取一个参数更为高效,估计在这个参数下算法的质量,然后选出最好的。

至此我们已经看了整个使用Scikit-Learn库的过程,除了将结果再输出到一个文件中。这个就作为你的一个练习吧,和R相比Python的一大优点就是它有很棒的文档说明。

[基于 Python 和 Scikit-Learn 的机器学习介绍]

皮皮blog



scikit-learn机器学习实例

[基于Scikit-Learn的五个文本分类案例研究]

[Kaggle入门——使用scikit-learn解决DigitRecognition问题]

from: http://blog.csdn.net/pipisorry/article/details/52251305

ref:  [[译]使用scikit-learn进行机器学习的简介(教程1)]

[[译]针对科学数据处理的统计学习教程(scikit-learn官方教程2)]


0 0
原创粉丝点击