【知乎转载】机器学习、数据挖掘 如何进阶成为大神?

来源:互联网 发布:蒙面唱将猜猜猜知乎 编辑:程序博客网 时间:2024/05/16 08:24
著作权归作者所有。
商业转载请联系作者获得授权,非商业转载请注明出处。
作者:淩清风
链接:https://www.zhihu.com/question/37256015/answer/85198013
来源:知乎

我不是大神。
背景:某二本院校大四学生;
说一说自己的学习经历吧。不知道能不能对题主有所帮助。
跟大多数人一样,是从Andrew Ng大神的coursera课程接触到机器学习。在学那门课的时候也就老老实实的看完,看到最后,听到Andrew说看完这些课程的人基本上已经超过硅谷半数的工程师了(具体不记得了,大意是说看完就屌屌的了),前一秒,我是信的,后一秒,我自问我到底会了啥,无非就知道些机器学习的名词,算法的基本思路。

然后我该干嘛?
找本书来看看啊,找另外一个公开课看看啊,给脑子里那个模型增加数据量啊。
《统计学习方法》+台大的公开课《机器学习基石》和《机器学习技法》这个组合简直杠杠,我敢拍着胸脯说我看了4遍,第1遍是照着课程进度配合书籍一起学习,第2遍是课程完结后的复习,第3、4遍在我参加kaggle比赛的时候进行知识的回顾。
这个组合里面的书籍可以换成该课程对应的教材,赞数较多了我再贴个网盘下载地址吧(这过年过节的,要个赞不过分吧哈哈哈)
看完书籍和公开课,我发现,数学很重要!数学很重要!数学很重要!在看Ng的课时倒还没有这个感觉,看台大课程的时候明显感觉到数学知识的比重陡然增加。然后就看了MIT的线性代数公开课和微积分,这才解决了公开课里面的部分疑惑。

理论的知识大概了解了,然后我该干嘛?
python大法好啊!什么C++,java啥的真复杂,直接做个调包侠多么愉快啊。二话不说,直接就学,Python 2.7教程,感谢廖叔叔。接下来就是热门的机器学习算法包scikit-learn: machine learning in Python 。什么,算法输入要求是pandas data frame ,来一本利用Python进行数据分析 (豆瓣)。 至此,已经学会基本的数据预处理了,这些无论是书籍还是公开课都直接略过不会教的。
在这里要隆重推荐 周志华老师的 机器学习 (豆瓣) ,目前看过的最好的中文的机器学习教材,涵盖了很多教材所没有的 数据预处理,特征工程。这书,得供起来。

会调用算法了,然后我该干嘛?
机器学习?数据挖掘?这两者到底界限在哪里?要不就都看看吧,有了这个想法后,我找了cousera上UIUC 的data mining 专项课程Specialization来看,里面有两门课是大名鼎鼎的韩家炜教授所教的。至此,我知道了pattern mining,搜索引擎的基本框架和原理,文本挖掘和自然语言处理的一点知识,聚类分析的大概。这些课程中都会夹杂着之前所学的机器学习算法。
每节课课后推荐的延伸阅读文章和书籍非常值得去看一看!

了解了一些应用,然后我该干嘛?
玩啊!当然是好好玩机器学习/数据挖掘比赛啊,Kaggle: The Home of Data Science,我把101,playground这两个级别的比赛刷了一遍,然后鼓足勇气参加了一个有奖金的比赛!最后排名状况是在1800多个队伍排300多名。
一开始不知道怎么去做一个kaggle比赛的时候,我照着 dataquest.io/section/ka 的教程过了一遍,大概就知道整个流程。
偶然一次,碰到数据量特别大的比赛,数据量上G,套了一个模型上去后,直接memory error。这让我知道了大数据处理平台 Apache Spark™的好用之处,也再一次证明了,学习python的好处Welcome to Spark Python API Docs!。我在windows 10的系统上尝试着跑一个单机版的spark来玩玩,配置过程一直出错,巨麻烦。这个时候我感受到了linux的友好!(没有黑windows的意思)也因为这样,顺便学习了linux操作系统。推荐鳥哥的 Linux 私房菜 -- 鳥哥的 Linux 私房菜 首頁

会玩了,然后我该干嘛?
找工作啊!我在拉勾网、100offer、哪上班和实习僧这些招聘网站找数据挖掘/机器学习的岗位,把招聘要求里面的共同需求点给标记出来。
  • 常见机器学习算法
  • 数据库
  • java、c++、python、R
  • linux操作系统
  • 数据结构与算法
在知道自己的不足之处后,自然就一直在填补这些简历上面的空缺。
当然我觉得自己在机器学习算法方面还有很多疑惑和不了解的地方,正准备去研读下经典的PRML。


其实说了这么多,无非是想说,我是在一次次的需求和兴趣的驱动下去学习的,题主不妨仔细地思考下自己的需求,从机器学习的应用方面去找找灵感,也许会是不错的选择。

然而我说了这么多,我学了这么些东西,我还是找不到实习!找不到实习!找不到实习!投了简历倒是给我个反馈啊喂!我容易吗我!!

____________________________________________________________________________
台大《机器学习基石》+《机器学习技法》 配套书籍

链接: pan.baidu.com/s/1dEkDfN
密码: dnrh
0 0