机器学习 scikit-learn（1）

来源：互联网发布：outlook for windows 编辑：程序博客网时间：2024/05/16 04:28

1. 通过样本来预测未知的数据；通过学习数据集的特征（训练集 training set）来应用到新的数据上。

2. 监督学习：

分类：样本属于多于两个类，我们想要从已经标记过的数据来预测未标记数据的类---digits

回归：如果想要的输出包括多余一个连续的变量
无监督：

训练集包括一系列的矢量X而没有相对应的y（目标值）。

3. 学习和预测

在数字集中，任务是预测给出图片。

分类的估计量------fit(X,y) & predict（T）

估计量的一个例子是一个类sklearn-svm-SVC

>>> from sklearn import svm>>> clf = svm.SVC(gamma=0.001, C=100.)

我们把估计量例子clf当作分类器。它必须适应模型，换句话说就是学习模型。所以我们要传递数据集去给是适应模型。作为训练集，我们使用除了最后一个所有数据集的图片。

>>> clf.fit(digits.data[:-1], digits.target[:-1])  SVC(C=100.0, cache_size=200, class_weight=None, coef0=0.0,  decision_function_shape=None, degree=3, gamma=0.001, kernel='rbf',  max_iter=-1, probability=False, random_state=None, shrinking=True,  tol=0.001, verbose=False)

之后我们可以询问数据集最后一个是什么

>>> clf.predict(digits.data[-1:])array([8])

0 0