机器学习一:监督学习笔记

来源:互联网 发布:insert into多个数据 编辑:程序博客网 时间:2024/05/21 09:10


首先,分类学习是对于事物类别的一个判断,一般通常以二分类为例子,结果只有yes 或者no,并且是针对离散变量而言的(如花的分类,泰坦尼克号生还率的预测,良性/恶性肿瘤的预测,新闻分类,对手写数字的识别等等)。

但回归预测是对事物的一个发展趋势的一个预测,并且是针对连续变量(如波士顿房价预测)

1.线性分类器:通过累加计算每个维度的特征与各自权重的乘积来帮助决策。

2.支持向量机:两个空间间隔最小的不同类别的数据点(手写数字的辨别)

3.朴素贝叶斯:单独考虑每维被分类的条件概率,然后合并这些概率从而做出决策。(常用于海量互联网文本分类任务,垃圾邮件的筛选)

4.决策树:是一种非线性关系,通过选取不同的特征来搭建节点。通常用信息熵和基尼不纯性来度量(泰坦尼克号)

5.K近邻:寻找最近的K个值作为预测参考。(近朱者赤,近墨者黑)

6.集成模型:利用相同的训练数据同时独立搭建多个模型,通过少数服从多数来决策。


其中随机森林Random Forest Classifier 一般被作为基线系统 baseline system(一种对比评价其它模型性能的标准)

在线性学习当中,一般用精度accuarcy,召回率call (值越大越好),F1来衡量一个模型的性能的。

在回归预测中,一般用R-squared验证了回归方面的能力(值越大越好),MAE平均绝对误差(值越小越好),MSE均方误差(值越小越好)来衡量一个模型的性能的。







阅读全文
1 0
原创粉丝点击