机器学习(1)--绪论

来源:互联网 发布:oa与大数据库设计 编辑:程序博客网 时间:2024/05/17 01:41

什么是机器学习?

关于机器学习的定义有很多,机器学习重在学习,而所谓学习—通过经验自我提高。我们缺乏的是知识,作为补偿我们有数据,数据就是经验,我们需要从数据中学习知识。
机器学习使用实例数据或过去的经验训练计算机,以优化某种行能标准。机器学习在构建数学模型时利用统计学理论,因为其任务就是从样本中推理。

机器学习的应用实例

学习关联性

购物篮分析 发现关联规则

分类

分类是监督学习的一个核心问题。在监督学习中,当输入变量Y取有限个离散值时,预测问题便成为分类问题。这时,输入变量X可以是离散的,也可以是连续的。监督学习从数据中学习一个分类模型或分类决策函数,称为分类器。
例如信用评分 文本分类
可以用于分类的学习方法,包括K近邻法、感知机、朴素贝叶斯、决策树、决策列表、逻辑斯谛回归模型、支持向量机、提升方法、贝叶斯网络、神经网络等

回归

回归用于预测输入变量和输出变量之间的关系。回归模型正式表示从输入变量到输出变量之间的映射函数。回归问题也分为线性回归和非线性回归

标注

可以认为标注问题是分类问题的一个推广,标注问题又是更复杂的结构预测问题的简单形式。

增强学习

机器学习程序就应当能够评估策略的好坏程度,并从以往好的学习动作序列中学习,以便能够产生策略。这种学习方法称为增强学习

进化赋予我们大脑和学习机制,使得我们可以根据经验实现自我更新,从而适应各种各样的环境。

习题

1.设想你有两种选择:可以传真一份文档,即传送图像;或者先使用光学字符阅读器(OCR),然后再传送相应的文本文件。用对比方式论述这两种方法的优缺点,并讨论什么时候一种方法比另一种方法更好。

传送图像:优点:内容完整(颜色,格式,大小),无偏差。缺点:当传送图片分辨率高或者,文档内容多时,传送数据量大。传真无法变成电子版,电子版方便分享。经过OCR(optical character recognization)优点:经过OCR转换为电子版之后,分享传送的速度都很快(数据量也被压缩了–图像到字符)。缺点:会存在识别误差,跟具体OCR的软件有关。当传送图片除了文字还有很多格式,排版的时候推荐使用传真。当内容基本为文字的时候,且内容很多,推荐走OCR软件。

2.假定我们正在构建一个OCR,并且对于每一个字符,我们都存储该字符的位图作为与逐个像素读取的字符匹配的模板。请解释什么时候这样的系统会失败?为什么条码读取器目前仍在使用?

根据baidu资料了解OCR失败的原因有如下:1)手写内容2)许多排版格式和图片3)内容不完整,扫描时断句(可容错)分类

3.假定我们的既定目标是构建识别垃圾邮件的系统。请问是垃圾邮件中的什么特征使得我们能够确认它为垃圾邮件?计算机如何通过语法分析来发现垃圾邮件?如果发现了垃圾邮件,你希望计算机如何处理它:自动删除?转到另一个文件夹?还是仅仅在屏幕上标亮显示?

邮件过滤的技术分为三大类:a)基于特征过滤b)基于改进的SMTP协议c)应用知识体系1)邮件发送的ip,邮件标题,邮件内容;2)涉及到自然语言处理,现在世界通用的统计学模型,贝叶思分类器;3)发现的放到一个文件夹并且进行高亮提醒。分类。

4.如果给定任务是制造自动出租车,请定义约束。输入是什么?输出是什么?如何与乘客沟通?需要与其他的自动出租车沟通,即需要某种语言吗?

输入:目的地,人数;中途停靠点,停靠时间(是否有中途上车,上车多少人);输出:费用。出租车与人沟通可以通过按钮操作等,如果需要直接人工服务,客服可以直接远程操作;出租车之间需要有种语言–用协议的方式实现

5.在购物篮分析中,我们希望找出产品X和Y二者之间的依赖关系。对于给定的顾客交易数据库,如何能够发现这些数据之间的依赖关系?进而,如何将依赖关系发现算法推广到多于两个的产品之间?

X和Y的关系影响因素:a)商品状态:被浏览,被购买。(时间间隔 可能也是个考虑因素)b)商品的先后:X–>Y or Y–>X根据这些因素计算权重,找到X,Y之间的关系函数。用机器学习的回归算法计算新输入的训练数据(X1,Y1)的结果(依赖关系)。回归,增强学习

6.怎样能够预测用户下一次将键入的命令?或者,怎样能够预测Web上下一个将要被下载的网页?这样的预测什么时候是有用的?什么时候会变得令人讨厌?

1)这个和自然语言处理有点类似(数学之美里面提到语法分析使用概率关系是3个此之间的关系现在工程上面是可以实现的)。参照自然语言处理的语法分析,我们使用简单的二元关系,前后两个命令的关系。使用一张hash表来统计用户连续两个命令使用的频率。通过概率给出预测。(这里简单的使用了频率,可能还要考虑到当前时间,当前打开的应用等)。分类2)简单实现方式:当前页面被访问链接的概率,做个排行,返回概率最大的页面链接;可能的一种方式:客户端信息,访问时间,访问地区,性别等基础信息,站内的访问链路计算在学习样本下的当前页面的访问链接的概率。分类,增强学习

7.在你的日报中,为政治、体育和艺术类各找出5个新闻报道样例。阅读这些报道,找出每类报道频繁使用的词,这些词可能帮助我们区别不同的类别。例如,政治方面的新闻报道多半会包含“政府”、“经济衰退”、“国会”等词,而在艺术类的新闻报道中可能包括“专辑”、“油画”或“剧院”。还有一些词(如“目标”)是模棱两可的。

8.如果面部图像是100×100的图像,按行写出,则它是一个10000维向量。如果我们把图像向右移动一个像素,
18则将得到10000维空间中一个很不同的向量。如何构造一个对于这种扰动具有鲁棒性面部识别器?

9.取一个词,例如“machine”。写10次,请一位朋友也写10次。分析这20个图像,试找出区分你与朋友手书的特征、笔画类型、曲度、圆和如何画点等。

10.在估计二手车的价格时,估计它相对于原价的折旧率,而不是估计它的绝对价格则更有意义。为什么?

参考资料

  1. 机器学习导论-第一章
  2. 识别垃圾邮件的几种方式
0 0
原创粉丝点击