【笔记】机器学习入门(一)

来源:互联网 发布:太湖超级计算机 知乎 编辑:程序博客网 时间:2024/06/05 05:46

准备这两个月跟随Andrew Ng大神结合西瓜书入门机器学习,在此记录一下学习情况,也顺便督促自己能够坚持下去。。

【什么是机器学习?】
Arthur Samuel(1959).Machine Learning:Field of study that gives computers the ability to learn without being explicitly programming.
即计算机能够在没有明确编程的情况下进行学习。

我的理解是这样的,机器学习就如同一个黑盒子,有输入有输出,黑盒子中没有什么具体的实现方法,只有我们的一个需求,比如判断西瓜的好坏,我们将大量的数据输入到黑盒子中,这个黑盒子会根据我们的需求对数据进行分析,并找出一定规律。

对于这些Tom Mitchell给出了更形式化的定义:
Tom Mitchell(1998).Well-posed Learning Problem:A computer program is said to learn from experience E with respect to some task T and some performance measure P,if its performance on T,as measure by P,improves with experience E.
即一个程序通过利用经验E在T任务上获得了性能提高(用P来衡量计算机程序的性能)
当黑盒子找到的规律越贴近现实情况,它的性能越高。

【广义机器学习算法】
机器学习算法:
-监督学习(supervised learning)
-无监督学习(unsupervised learning)
其他:强化学习(reinforcement learning),推荐系统(recommender system)

补充:还有一个半监督学习

【监督学习和无监督学习】
监督学习和无监督学习主要的区别在于是否有标签。就如同做算术题,它有一个答案对应,有对错的分别;但画画就不一样了,它没有什么固定的标签,没有什么对错之分。这里对错就可以作为标签,我可以通过大量做题数据来判断正确与否;而对于画画的数据而言,我们无法有一个具体的目标或任务来对数据进行处理,只能通过将相似的数据放在一起来分析筛选,这种方法称之为聚类(clustering)

对于监督学习来说,回归(regression)和分类(classification)是其代表。如NG老师举的例子预估房价就属于回归,而良性/恶性肿瘤的判断属于分类。这两者的区别在于输出的值是连续的还是离散的。对于房价来说,价格是一个连续的值,而对于良性/恶性来说只有良和恶两种值(也就可以转化为0或1),是一个离散的值。因此,回归和分类可以通过对输出值得改变来相互转化。比如将预估房价转化为判断房子是否值得买(由回归变为分类);又或者将良性/恶性肿瘤的判断转化为对肿瘤类型的判断(由分类变为回归)。

【鸡尾酒会问题】
鸡尾酒会问题(cocktail party problem)是由英国的认知科学家Edward Colin Cherry于1953年提出的,指的是人可以在嘈杂的环境中分辨清想要听到的声音信号,而忽略背景中其他的对话或噪音。这一点但是对于人造出来的智能机器来说是非常困难的。
自Cherry提出“鸡尾酒会问题”半个多世纪以来,大量的科学家试图去解决这个问题,包括自动语音识别(ASR)的预处理,说话人识别,说话人变化检测,说话人分离,结束指向和手动转录等。1985年,有学者提出了盲信号分离(blindsignal separation),在不知道原始信号的信息和混合方法时,可以比较有效地恢复独立的原始信号。后辈学者通过不断改进,引入了神经网络的方法,正在逐步提高信号分离的效果。
针对鸡尾酒会问题,出现了很多的理论方法,盲信号分离就是其中之一,指的是在不知道源信号和传输信道特性的情况下,从混合了多个信号的观测信号中分离或估计出源信号。“盲”就体现在不知道源信号,也不知道传输信道特性这两点上。
盲信号分离最主要的就是通过一种学习算法来确定分离矩阵W,通过W来分离或估计源信号。