周志华机器学习读后总结 第一章

来源:互联网 发布:程小青 知乎 编辑:程序博客网 时间:2024/05/21 04:16

第一章

什么是机器学习?
      学习机器学习的第一步就是先要了解什么是机器学习,在没有碰周志华老师的这本机器学习的书之前,我没有接触到过关于机器学习的知识,我所认为的机器学习就是让一些机器像学生一样去学习知识然后做事情!而周志华老师在书中说:机器学习研究如何通过计算的手段,利用经验(数据)来改善系统自身的性能;因此机器学习所研究的主要内容是在计算机中从数据中产生“模型”的算法,即“学习算法”。这个关于机器学习的概念看似晦涩难懂,但这句话的关键字无非就是“数据”、“学习”、“算法”,在我理解,这个概念无非就是说机器学习是研究一些算法,而这些算法能从经验数据中学习处理非经验数据。以写程序为例,我们写程序都要用到算法,但那些平常的算法需要我们把所有的情况预知到,输入什么输出什么我们都是心里有底的;但机器学习所研究的算法却不是这样,它可以输入一些未知数据,但所输出的结果是什么样的就要看我们怎么用经验数据去训练这个算法了。以上是我对机器学习的分析。
机器学习中的基本术语
      数据集、示例(样本)、属性(特征)、属性值、属性空间、标记、样例。以上这些术语在书中以西瓜为例,容易明白。例如10个西瓜,这十个西瓜10条信息的集合就是一个数据集,每个西瓜的信息是一个示例,每条信息中的西瓜的一个特征描述(例如颜色)就是属性,颜色是什么样的就是属性值。属性张成的空间就是属性空间。关于示例结果的信息称为标记,拥有了标记信息的示例称为样例。
      从数据中学得模型的过程称为学习或训练,训练过程需要训练数据以及训练样本组成的训练集,我们之所以训练就是为了习得这些训练数据所对应的潜在的规律。学习任务有分类和回归之分,这样看它们所预测的结果是离散值还是连续值。学习任务也有监督学习和无监督学习之分,这要看他们的训练数据是否有标记信息。
      我们学习到的模型(规律),适用于新样本的能力称为泛化能力。
假设空间
归纳:从特殊到一般。
演绎:从一般到特殊。
学习过程就是在一个所有假设组成的空间中进行搜索的过程,与训练集一致的假设空间称为版本空间。
归纳偏好
      机器学习算法在学习过程中对某种类型假设的偏好称为归纳偏好,任何一个有效的机器学习算法必有其归纳偏好。
      奥卡姆剃刀原则:若有多个假设与观察一致,则选最简单的那个。
      没有免费午餐定理:无论学习算法a多聪明,学习算法b多笨拙,它们的期望性能相同。
      我们只关注自己正在试图解决的问题,学习算法自身的归纳偏好与问题是否相配,往往起到决定性作用。
      大数据时代三大关键技术:机器学习、云计算、众包。机器学习提供数据分析能力,云计算提供数据处理能力,众包提供数据标记能力。
原创粉丝点击