浅谈机器学习

来源:互联网 发布:php self static 编辑:程序博客网 时间:2024/06/03 23:46

什么是机器学习

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
这里写图片描述

训练与测试

用一个形象的比喻理解有监督学习,它就像一个拿着一堆模拟考试题学习的学生, 这个过程里你通过不停的比较你和标准答案的差距来学习完成试卷, 而最终这个学生要面对的是真实的考试。 相对应的,我们通常在有监督学习里把我们的数据分成两部分, 一部分做学习的试题,另一个部分做考试用。 一个学生完全可能在平时练习的时候把每道考题被的滚瓜烂熟,而在真正的考试里一塌糊涂,这种情形我们称之为过拟合。
这里写图片描述

机器学习很美吗

机器学习这件事, 看上去很美, 事实上一点也不, 因为你面临的是变幻莫测的问题, 你训练的再好, 你的预测也是有风险的。首先, 因为存在模式,问题才可以预测, 如果你的问题本身就没有模式, 或者模式极为不可捉摸, 你的算法再强大也会失败。比如说你要预测某个商品网站上衣服的价格, 但是这个网站里的衣服都是一个疯狂销售者根据它每天的心情好坏定的, 而你却去找了一堆衣服的尺码材质特征来, 那你的算法终究要失败。 即使是一个模式存在的问题, 也总会在某个时点上, 碰到问题的边界。比如说你要做一个根据女生特征匹配对象的机器学习算法, 你的算法总是根据你过去掌握的男女匹配记录搞的, 而总会有某个时刻, 你的对象已经不符合历史数据的规律,这时候要不你调整算法, 要不你直接放弃服务这类无法预测的人。

机器学习最难的是什么?

如果你思考一遍上述流程, 你可能发现一切都很容易, 从数据清洗,特征提取,到模型选择, 事实上这你就错了。 因为机器学习最难的一部 , 这里根本就没提到, 那就是把现实生产生活中的问题, 提炼成一个机器学习问题 。这需要的是你对问题本身的深刻洞察。 有一天也许整个数据清洗到模型选择和交叉验证都自动化了。但始终有一个东西不能完全被机器搞定, 那就是你如何从一个全新的领域, 去提取机器学习可以有助解决的最重要的问题。 再有, 无论机器的预测多准确, 它的结果如果不是在解答人的需求, 也是一个没用的或至少不令人喜欢的东西。 比如我发明一个算法能够特别准的预测老人的寿命, 或者根据女生现在的长相推测她80岁的长相, 即使算法十分牛掰, 这样的产品估计也不是客户喜闻乐见的。

机器学习是未来AI发展的密钥,目前这门学科仅处于初步发展阶段,机器学习的发展也是人类未来走向的关键。(部分内容来源百度百科及知乎)

原创粉丝点击