你绝对能懂的“机器学习”(五)
来源:互联网 发布:php常用函数200个 编辑:程序博客网 时间:2024/05/21 07:55
我们发展人工智能,核心目的是为了用人工智能来解决我们日常工作生活中的各种问题,机器学习当然也不例外。那机器学习适合解决哪些问题呢?
首先,我们一定要知道,机器学习不是万能的。你要问机器学习能不能解决光速星际旅行,能不能造出飞碟、宇宙飞船、火箭,我肯定的说不能。你要问机器学习能不能预测房价、股市的涨跌,我只能说可能行,但非常难实现。因为涉及因素太多,训练出来的模型不可能精确。
其次,我们要认识到日常工作生活中的最大任务是“决策”。不管是商业上的决策,上不上这个产品,投不投这个项目,要不要加大营销力度。还是工作生活中的决策,上哪个大学,学什么专业,买不买房,上哪吃饭,看不看电影等等。我们无时无刻不在做着“决策”。
最后,“决策”背后的本质是“分类”。这些房子好,那些房子差,这个电影好看,那个不好看,这个餐馆好吃,那个餐馆不好吃。有了“分类”,是不是决策起来就容易的多,而我们“决策”的过程本质上就是一个“分类”的过程。
所以,机器学习的主要任务就是分类。
我们以前介绍过,机器学习就是让计算机学会利用过往的经验完成指定任务。我们的目的是完成指定任务。但当时我们对指定任务是什么并没有说明。
这个指定任务一般分为3类:分类,聚类,回归。也就是说机器学习的任务就是完成这3类指定任务,其中分类是核心。
我们知道,开展机器学习有个前提:必须有过往的经验,或者说有过往的数据。这个数据的集合叫数据集。数据集的一般形式是:
序号
属性1
属性2
……
结果标记
1.
2.
3.
………
………
………
………
………
注意这个结果标记。如果结果标记是类别数据,那么机器学习的主要任务就是分类。如果是结果标记是数值数据,那么机器学习的主要任务就是回归。如果没有结果标记,而是需要将数据集分成不同的类别,那么机器学习的主要任务就是聚类。
举个鸟物种例子:
序号
体重
(克)
翼展
(厘米)
脚蹼
后背
颜色
种属
1.
1000.1
125.0
无
棕色
红尾鸟
2.
3000.7
200.0
无
灰色
鹭鹰
3.
3300.0
220.3
无
灰色
鹭鹰
4.
4100.0
136.0
有
黑色
潜鸟
5.
3.0
11.0
无
绿色
蜂鸟
6.
5.0
13.0
无
绿色
蜂鸟
7.
570.0
75.0
无
黑色
啄木鸟
8.
600.0
77.0
无
黑色
啄木鸟
……
……
……
……
……
……
这个数据集的结果标记是红尾鸟、蜂鸟、啄木鸟等,属于类别数据。如果我们找到一种鸟,测量其体重、翼展、脚蹼、后背颜色4个属性数据,例如是550克,74cm,无,黑色,通过机器学习就可以判定这种鸟属于啄木鸟。
像这样的机器学习任务就是“分类”。
我们再看个一个北京二手房的例子:
序号
面积
(平方米)
区域
学区
装修
价格
(万元)
1.
39
西城
有
无
690
2.
44
海淀
有
精装
440
3.
50
大兴
有
简装
150
4.
78
东城
无
精装
510
5.
90
房山
无
精装
270
6.
100
丰台
无
精装
430
……
……
……
……
……
……
这个数据集的结果标记690万元、440万元等属于数值数据。如果我们要买一套二手房,希望了解其大致价格,通过面积、区域、学区、装修4个属性数据,通过机器学习就可以预测这个二手房的价格是多少,这个任务就是“回归”。
至于为什么叫“回归”,这个是舶来词,是英文“regression”翻译过来的。翻译词的特点是带有原词的主要含义,但与原词表达的意思又不完全一样,甚至从中文字面上难以理解,例如大家最熟悉的函数,就是function的翻译词,在我们中学刚学“函数”这个词时,其含义并不是那么显而易见的。回归(regression)也一样,不好直白理解。简单化理解就像“地理上的回归线”一样,“回去归来,回归于事物的本来面目”。
也不用太纠结,在机器学习中,你记住以后看到需要预测出来的结果标记为数值型的,例如房价,体重,股票价格等,也就是与“实数”相关的,就叫做“回归”。
对于“聚类”,用个比较形象的词语就是“人以类聚,物以群分”。聚类不是用来做预测的,而是对事物进行“分门别类”的。例如前面那个鸟物种的例子,你现在是鸟类专家,抓住了1000只鸟,你根据这些鸟的特征,对这些鸟分别进行观察,长的很像的就聚为一类,例如有长嘴巴的就聚为啄木鸟类,有红尾巴的就聚为红尾鸟类。你办公室里有30名同事,你爱好抽烟,你根据观察和测试,逐渐把这30人聚成了抽烟和不抽烟的2类,于是工间休息期间你就知道找抽烟的那一类人。当然,你还可以把这30人聚成抽烟的、偶尔抽一下的、完全不抽的3类人。你还可以根据打羽毛球把30名同事分成会打的、不会打的2类,或者很会打的,一般的,完全不会的3类。也就是说聚类的个数和每个类别的内容是不定的,根据你的实际需要确定。
- 你绝对能懂的“机器学习”(五)
- 你绝对能懂的“机器学习”(二)
- 你绝对能懂的“机器学习”(三)
- 你绝对能懂的“机器学习”(四)
- 绝对经典 、好的机器学习教程
- 能改变你一生的五句话(转)
- 有趣的机器学习(五)
- 能改变你一生的五句话!
- 能改变你一生的五句话
- 能改变你一生的五句话
- 你能懂的
- 资讯精选 | 机器学习能为你的业务做什么?有些事情你肯定猜不到!
- 机器学习三人行(系列五)----你不了解的线性模型(附代码)
- 机器就能绘制这样的作品,你还去写生吗?(续)
- 机器学习(五)使用sklearn库的cross validation
- 机器学习(五)- 对于cost function的思考
- draw9patch.bat打不开的解决办法(绝对能解决)
- 一个Mybatis的简单模板(绝对能成功运行)
- 树莓派+L298N+马达
- POJ1001 Exponentiation 高精度
- CODEVS 1163 访问艺术馆
- 动态规划 01 (最长上升子序列)
- 第 1 章:Web基础技术 (HTTP响应消息 )
- 你绝对能懂的“机器学习”(五)
- 常用的排序算法
- Batch Normalization 反向传播(backpropagation )公式的推导
- JavaScript中的delete运算符
- 算法导论LUP分解
- Opencv4Android的OpenCL的测试,使用Opencv的ocl封装库
- Pat 1002 数字分类Java解法
- C++11 STL函数 UnorderedSet
- Spring的HibernateTemplate用法