机器学习系列笔记(三)

来源:互联网 发布:怎么修改电脑mac地址 编辑:程序博客网 时间:2024/06/12 00:51

学习的类型
是非题 (前面的银行发信用卡的例子) 2元分类的问题
more binary classification problems
信用卡发卡
垃圾邮件
判别病人是不是生病
广告收益是不是收益
答案对不对

这是一类 把问题分为2类的问题 对与不对
从这里衍生 4元问题或者更多?–如何分别1分 1角 5角 一元的硬币 四种类型
可能从大小 重量来分辨?
那这里的输出 Y 就不是 +1 GOOD /-1 BAD 这么简单了 可能是{1,2,3,4,…..Y}
这里英文叫作multiclass classification 多元分类问题
那Multiclass classification问题有那些常见的呢
比如我写数字,1,2,3 你要分辨出来我写的是啥
比如我有一张图 ,你要分辨这里面有苹果?梨
比如我有一个邮件,你要分辨这个邮件是否是运动类型,广告啥的..
视觉听觉辨识

那么
在2元分类中 给一些输入X比如病人的一些身体情况,体温,血压 来判断是否有病
在多元分类中, 给一些输入X比如病人的一些身体情况,体温,血压 来判断是什么病
在辨识中 输入一些情况,给出需要多久康复, 那这里多久可以康复是几天,几小时
当然这里就有一个范围问题也就是Y的输出范围是R, 整体实数~ 或者有个上下限.
在统计学里叫回归分析, 有线性回归,等等.

回归分析的应用在哪里
输入一些公司的data–>分析出明天的股市价格
输入一些天气的data–>分析出明天的温度等得

结构化的学习 自然语言辨识
写出一段话,我能不能知道这句话中的词性是什么
i love ml.

supervised learning:监督式学习,我给你硬币,还告诉你这个硬币是什么意思
那么unsupervised learning:非监督式的学习,要分成一对一对的,一般叫分群问题clustering(更困难)
分群问题:
文章分成不一样的主题
用户特点,分成不同用户

非监督式的演算法就比较难衡量好坏

那有没有中间状态呢, 当然会有 semi-supervised 半监督式
在那几堆硬币中只指出几个硬币是什么~
应用在图片分析, 这个是林心如吗?
分辨药有无效果. 特点是,找到标记点的成本很高~

reinforcement learning:
增强式
宠物怎么学习坐下?
你说出了输入x:”坐下”
而你得到了狗狗尿尿的这个类别
但是你有不可能给直接让狗狗听懂你说的是坐下
但是可以通过惩罚/奖励来告诉它这个是错误/对的.
应用–>线上广告– 放在网页上,然后客户可能会去点击 ,点了就是好,没点就是不好.
策略.打牌,下棋,告诉它这个行为好还是不好,演算法就会知道怎么样是好还是不好

batch learning 批量学习:
已知的一批已经知道的data
进去出来,知道是好的
填鸭式教育

online learning 在线学习:
垃圾邮件, 你觉得不是就可以告诉他,这不是垃圾邮件
PLA 更容易用在垃圾邮件处理上
reinforcement learning也可以用在online learning上面
越变越好
一条一条教

active learning 主动学习:
可以问问题
比如手写辨识 比如你写2写到一半,机器就自己写出一个字来问你,你写的是不是这个字
有技巧的问问题,用很少的问题获得很快学的学习能力
用在取得标记成本很高的地方,标注的资料很少

concrete features 具体特征–>比较符合人类的分辨习惯–>经过人的处理
raw features 原始特征–>简单的物理特征
abstract features 抽象特征–>
数字辨识问题
典型的监督式的多类别机器学习问题
如果要分辨1和5
1有什么特性,1比5对称
5比1比较密集–>concrete features
这些图像就是在16*16的网格中的像素–>raw features

那么如果给的是raw features 那么就要转成 concrete features (可能机器自动做,可能人做)
(机器自动做的就是深度学习要做的事情,机器怎么样自动学习转换抽取具体方法)
那么有一个工程就是做这个事情的 叫features engineering特征工程

原创粉丝点击