机器学习(二)

来源:互联网 发布:网络布线教程 编辑:程序博客网 时间:2024/05/17 04:06
1、基本概念:训练集,测试集,特征集,非监督学习,半监督学习,分类,回归
2、概念学习:概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数。
3、小例子
 
    概念定义在实例(instance)集合之上,这个集合表示为X(X:所有可能的日子,每个日子的值由天气等6个属性表示)。
    待学习的概念或目标函数成为目标概念(target concept),记为c。c(x) = 1,当享受运动时。
    x:每一个实例
    X:样例,所有实例的集合
    学习目标:f:X -> Y
5、


4、训练集(training set)/训练样例(training example):用来进行训练,也就是产生模型或者算法的数据集。
    测试集(testing set)/测试样例(testing example):用来专门进行测试已学习好的模型或者算法的数据集。
    特征向量(features/feature vector):属性的集合,通常用一个向量表示,附属于一个实例。
    标记(label):c(x) 实例类别的标记。
    正例、反例。
 6、分类问题:目标标记为类别型数据
       回归问题:目标标记为连续性数值
7、例子:研究肿瘤良性、恶性与尺寸、颜色的关系
    特征值:尺寸、颜色
    标记:良性/恶性

    有监督学习:训练集有类别标记
    无监督学习:训练集无类别标记
    半监督学习:有类别标记的训练集+无标记的训练集

8、机器学习的步骤框架、
    1、把数据拆分为训练集和测试集
    2、用训练集和训练集的特征向量泪训练算法
    3、用学习来的算法运用在测试集上评估算法