机器学习笔记一

来源:互联网 发布:windows网络编程模型 编辑:程序博客网 时间:2024/05/02 01:09

对比人类学习,给出机器学习的框架即:机器通过送给它的数据,利用学习算法,能够解决某个问题,或者改善某种预测。



使用ML的条件:

1.数据内部存在某种可以学习的模式

2.传统方法很难定义的问题

3.一定有输入数据(data)


机器学习的基本概念(以申请信用卡为例):



其实机器学习最终就是得到与f最接近的g,而更直观一点的图如下所示:



其中的Hypothesis set 就是g的取值域。


二元分类器

定义问题(还是申请信用卡)

x代表用户的特征,比如:年龄、收入、工作年限、负债等。

w代表各个特征所占的权重。

threshold代表发放信用卡的最低得分门限。

h即每一组x对应是否发放信用卡,其中得分为0,忽略掉,可以认为输出只有+1,-1


经过推导可以变换为向量形式:




当x是二维向量时,h(x)的形式可以认为是一条直线,直线上的点大于零,直线下的点小于零,Hypothesis set 就代表平面上任意直线。



g对应h,这个问题本质上就是寻找一条直线,可以恰当分割输入数据。



假如输入数据线性可分,可以使用PLA(Perceptron Learning Algorithm)算法,,PLA本质上就是“知错能改”,每次

迭代中使用不符合条件的点更新直线,直到最后找到一条直线,可以将所有data正确分类。




机器学习分类

按照输出空间不同:二元分类,多元分类,回归分析(输出一般是实数空间R),结构学习(比如语义分析)

按照样本data是否给出输入输出的关系:监督学习(给出所有data的x~y的对应关系),半监督学习(给出部分x~y对应关系),非监督学习(不给出data的关系),强化学习(存在辅助的标记,比如线上广告系统)

按照学习的策略:batch learning(批次学习,被动),online learning(在线学习,被动),active learning(主动学习,主动询问的交互方式)

按照样本data的特征:concrete features(具体特性),raw feature(计算机不能直接使用的特征但能够处理,比如,图像像素,音频信号),abstract feature(抽象特征,需要人为抽取出具体特征,才能交给机器)








0 0