机器学习（1）--绪论

来源：互联网发布：oa与大数据库设计编辑：程序博客网时间：2024/05/17 01:41

什么是机器学习？

关于机器学习的定义有很多，机器学习重在学习，而所谓学习—通过经验自我提高。我们缺乏的是知识，作为补偿我们有数据，数据就是经验，我们需要从数据中学习知识。
机器学习使用实例数据或过去的经验训练计算机，以优化某种行能标准。机器学习在构建数学模型时利用统计学理论，因为其任务就是从样本中推理。

机器学习的应用实例

学习关联性

购物篮分析 发现关联规则

分类

分类是监督学习的一个核心问题。在监督学习中，当输入变量Y取有限个离散值时，预测问题便成为分类问题。这时，输入变量X可以是离散的，也可以是连续的。监督学习从数据中学习一个分类模型或分类决策函数，称为分类器。
例如： 信用评分 文本分类
可以用于分类的学习方法，包括K近邻法、感知机、朴素贝叶斯、决策树、决策列表、逻辑斯谛回归模型、支持向量机、提升方法、贝叶斯网络、神经网络等

回归

回归用于预测输入变量和输出变量之间的关系。回归模型正式表示从输入变量到输出变量之间的映射函数。回归问题也分为线性回归和非线性回归

标注

可以认为标注问题是分类问题的一个推广，标注问题又是更复杂的结构预测问题的简单形式。

增强学习

机器学习程序就应当能够评估策略的好坏程度，并从以往好的学习动作序列中学习，以便能够产生策略。这种学习方法称为增强学习

进化赋予我们大脑和学习机制，使得我们可以根据经验实现自我更新，从而适应各种各样的环境。

习题

1.设想你有两种选择：可以传真一份文档，即传送图像；或者先使用光学字符阅读器（OCR），然后再传送相应的文本文件。用对比方式论述这两种方法的优缺点，并讨论什么时候一种方法比另一种方法更好。

传送图像：优点：内容完整（颜色，格式，大小），无偏差。缺点：当传送图片分辨率高或者，文档内容多时，传送数据量大。传真无法变成电子版，电子版方便分享。经过OCR（optical character recognization）优点：经过OCR转换为电子版之后，分享传送的速度都很快（数据量也被压缩了–图像到字符）。缺点：会存在识别误差，跟具体OCR的软件有关。当传送图片除了文字还有很多格式，排版的时候推荐使用传真。当内容基本为文字的时候，且内容很多，推荐走OCR软件。

2.假定我们正在构建一个OCR，并且对于每一个字符，我们都存储该字符的位图作为与逐个像素读取的字符匹配的模板。请解释什么时候这样的系统会失败？为什么条码读取器目前仍在使用？

根据baidu资料了解OCR失败的原因有如下：1）手写内容2）许多排版格式和图片3）内容不完整，扫描时断句（可容错）分类

3.假定我们的既定目标是构建识别垃圾邮件的系统。请问是垃圾邮件中的什么特征使得我们能够确认它为垃圾邮件？计算机如何通过语法分析来发现垃圾邮件？如果发现了垃圾邮件，你希望计算机如何处理它：自动删除？转到另一个文件夹？还是仅仅在屏幕上标亮显示？

邮件过滤的技术分为三大类：a）基于特征过滤b）基于改进的SMTP协议c）应用知识体系1）邮件发送的ip，邮件标题，邮件内容；2）涉及到自然语言处理，现在世界通用的统计学模型，贝叶思分类器；3）发现的放到一个文件夹并且进行高亮提醒。分类。

4.如果给定任务是制造自动出租车，请定义约束。输入是什么？输出是什么？如何与乘客沟通？需要与其他的自动出租车沟通，即需要某种语言吗？

输入：目的地，人数；中途停靠点，停靠时间（是否有中途上车，上车多少人）；输出：费用。出租车与人沟通可以通过按钮操作等，如果需要直接人工服务，客服可以直接远程操作；出租车之间需要有种语言–用协议的方式实现

5.在购物篮分析中，我们希望找出产品X和Y二者之间的依赖关系。对于给定的顾客交易数据库，如何能够发现这些数据之间的依赖关系？进而，如何将依赖关系发现算法推广到多于两个的产品之间？

X和Y的关系影响因素：a)商品状态：被浏览，被购买。（时间间隔 可能也是个考虑因素）b)商品的先后：X–>Y or Y–>X根据这些因素计算权重，找到X，Y之间的关系函数。用机器学习的回归算法计算新输入的训练数据（X1，Y1）的结果（依赖关系）。回归，增强学习

6.怎样能够预测用户下一次将键入的命令？或者，怎样能够预测Web上下一个将要被下载的网页？这样的预测什么时候是有用的？什么时候会变得令人讨厌？

1)这个和自然语言处理有点类似（数学之美里面提到语法分析使用概率关系是3个此之间的关系现在工程上面是可以实现的）。参照自然语言处理的语法分析，我们使用简单的二元关系，前后两个命令的关系。使用一张hash表来统计用户连续两个命令使用的频率。通过概率给出预测。（这里简单的使用了频率，可能还要考虑到当前时间，当前打开的应用等）。分类2)简单实现方式：当前页面被访问链接的概率，做个排行，返回概率最大的页面链接；可能的一种方式：客户端信息，访问时间，访问地区，性别等基础信息，站内的访问链路计算在学习样本下的当前页面的访问链接的概率。分类，增强学习

7.在你的日报中，为政治、体育和艺术类各找出5个新闻报道样例。阅读这些报道，找出每类报道频繁使用的词，这些词可能帮助我们区别不同的类别。例如，政治方面的新闻报道多半会包含“政府”、“经济衰退”、“国会”等词，而在艺术类的新闻报道中可能包括“专辑”、“油画”或“剧院”。还有一些词（如“目标”）是模棱两可的。

8.如果面部图像是100×100的图像，按行写出，则它是一个10000维向量。如果我们把图像向右移动一个像素，
18则将得到10000维空间中一个很不同的向量。如何构造一个对于这种扰动具有鲁棒性面部识别器？

9.取一个词，例如“machine”。写10次，请一位朋友也写10次。分析这20个图像，试找出区分你与朋友手书的特征、笔画类型、曲度、圆和如何画点等。

10.在估计二手车的价格时，估计它相对于原价的折旧率，而不是估计它的绝对价格则更有意义。为什么？

参考资料

机器学习导论-第一章
识别垃圾邮件的几种方式

0 0