机器学习的学习路径和职业规划 (简单版)

来源：互联网发布：知乎的timeline 编辑：程序博客网时间：2024/06/06 08:54

从职位和知识上，本文所说的机器学习包含数据挖掘。

前言

一、这个小册子要写什么东西（关于哪些方面的问题进行思考和探讨）

第一部分内容，机器学习由基础到高级，由简单到应用，由理论到应用有哪些资源。如果要学习的话，可以选择从什么样的起点按照什么样的路线前进。

第二部分内容，机器学习相关的工作岗位有哪些？什么样的行业里的什么样的公司，在应用机器学习解决什么问题？设置了大概什么样的岗位？这些岗位的工作内容是什么，这些岗位未来有什么样的出路，怎么样才能顺利的应聘到这些岗位？

二、为什么要写这个小册子

我生于七十年代，在我的求学生涯中最令我激动的是中学时候学习的梁启超先生的《少年中国说》，写的激情澎湃，大概的意思是少年强大了国家才能强大，印象中花了很大的力气，用了大量的气壮山河的语句来描述国家强大是一件多么美好的事情，但是就是没有说什么叫做少年强大？怎么才能做到少年强大？

后来大学毕业了，开始尽量看一些有思考的人写的东西，甚至是书信原稿。后来就看了蔡元培的书信稿。我原来一直以为蔡元培就是当过北大的校长，然后后来在国民党政府里任职，五四运动的时候是北大的校长。只知道这么多。

后来看一本蔡元培自传，里边有大量的蔡元培的书信和日记之类的东西。才知道蔡元培是反对五四运动的，蔡元培当时的观点是“唯有学生认真学习，工人认真工作，科技发达了，人民体魄发达，才有能力去地域外敌，人民生活才能幸福。”再往前看，原来蔡元培先生早年是一个愤青，是文艺青年，相比五四运动的那些砸几个官员的学生来说，简直就是鼻祖。

蔡元培先生早年留学欧洲，给我印象最深的俩件事情，一个是思考为什么欧洲的青年身体简况，笑脸如花？蔡元培先生有了自己的答案，认为是艺术，体育和思考，让这些人不仅是物质条件上要比我们国家好很多，而且精神上很开心。蔡元培先生不论是在北京大学工作，还是后来去教育部工作，都是在实现这个理想。甚至具体到我国小学生在缺乏体育器械的情况下，如果通过游戏强健身体，增加和人的交往这样的细节问题都要进行考虑。

蔡元培先生做的第二件事情是学习制造炸弹，要炸死不遵守宪法的袁世凯。蔡元培的一个好朋友和蔡元培一起在欧洲学习制造炸弹，不幸实验失误身亡；蔡元培认真学习制造炸弹，学到了这个本领，然后在清华西门外去往颐和园的路上埋伏了半个月左右要炸死这个不遵守宪法，说话不算数的人，后来没有等到，没有成功。（这个事我没有继续追踪下去，但是我是反对暴力的。除非极端情况下。）（我想蔡老一定是意识到了杀死一个袁世凯，还有无数的想当皇帝的人，所以没有一直在这个方向上走下去。）

然后，等我到了工作，成家立业的阶段，我就看到中国社会有很多的问题，中国和其他国家相比，有很多非常落后的地方，我也曾经想着如何改变这个现状，最先想到的是通过武力手段，因此我第一份自己选择的工作是和武力对抗比较接近的一个工作，可以说是“竞争情报”，本来的初衷是通过做竞争情报相关的工作，掌握一些获取机密的技能，能够在关键的时候力挽狂澜。

我也同时在思考，作为一个有责任的中国人，该怎么办？后来我想到日本的兴起，欧美的发达等，以及苏联的解体和重新探索新的社会制度。我也想到了泰国的政变，台湾的民主进程。

也想到了秦晖“中国社会最大的问题是一批身体好的农村青年的存在，这些农村青年没有受过多少教育，只要给钱，认为杀人也是可以的，这样的人越多，中国的发展阻力就越大。”

想来想去，我觉得在一个社会，通过辛勤劳动，诚实的为别人提供服务或者产品，从而过上幸福的生活的人越多，社会就越有可能变得好。而屠杀，战争只是一种极端的手段，有极大风险的一种手段。

想想毛爷爷当年一再强调的一句话“人民群众才是决定历史方向的最重要的力量”，我想潜台词就是“如果中国社会上有一大批渴望把地主杀死，然后把田地分了，财产分了，吃几天好吃的的穷人，我不点这把火，也会有无数的投机分子点这把火。”（这一部分太暴力，三十岁以下的青年觉得劲太大可以忽略。）

而回头想想日本在明治维新前后就因为学习了西洋，就可以横行整个亚洲，甚至敢和美国俄罗斯开战；而苏联在坚持了几十年以后戈尔巴乔夫就说不干了，不行，走不通，基本上也没有什么流血就转变了轨道；泰国动不动就军队接管政府，但是基本上死不了多少人。我想都是和国民的心智相关的，如果大多数老百姓都想吃好喝好，而且不想通过贪污和杀人来满足自己对于权力，财产和美色的欲望，那些坏人哪里有忽悠的空间？

所以，我的想法是，我们这个社会是有很多的问题，但是每个人都坦诚的生活，通过辛苦吃饭，通过奉献得到回报，不乱丢垃圾，不偷东西，不贪污；同时影响尽量多的人按照这样的生活方式生活，这个社会才有希望。

很多人通过学习机器学习的相关知识，创立了伟大的公司；很多人通过学习机器学习相关的知识，挣到了比较多的钱，过着问心无愧的生活，如果能够让更多人成为这样的人，是一件很有意义的事情！

三、适合的阅读对象和可能的收获

1、打算从工程转到数据工作的人。

2、大四，研一，博一前后的学生。

3、刚进入机器学习领域工作，但是看的不够远，没有比较清晰的目标，也没有提升策略的人。

可能会借助这个册子的帮助找到一个职业的目标，开始能够借助一些资料向目标前进。

四、作为猎头的我为什么要学习机器学习的专业知识

猎头行业是近年来变动非常大，微博，Linkedin,技术沙龙，竞赛，行业会议，内部顾问，内推，拉勾，github,开源，创始人或投资人兼顾招聘，晒内裤。以上各个方面都对猎头行业有很大的影响。我觉得在这样的大环境下，猎头如果继续按照传统的Cold call+list+KPI的方式推进的话，猎头公司的生存空间会越来越小，猎头顾问的日子会越来越难过。

因此这俩年我在思考如何创新，尝试如何创新，猎头顾问专注在一个方向上并且积极的学习一些专业知识，是我创新的一个部分。举例来说，是想尽量达到这样的效果。

如果我是帮助企业找餐厅设计（假设包括地板，餐桌，餐具等）的猎头，那么我如果能够对于各个餐厅的设计有很强的评价能力的话，那么我就能够更容易的找到那些销售能力不强的公司里的设计能力很强的设计师。这个时候有一些专业知识有助于我评价的更好。

如果我是一个帮助收藏公司收购古画的人，那么对于各个时代的主要名家的创作特点，以及做旧手段有很深入的了解，我才能够找到真正有价值的古画。多做，才能学会。

另外一点，我有很强的好奇心。

五、致谢

感谢这几年我的女儿对我的鼓励，和对我的热烈的爱，让我在不论多么艰难的情况下都能够鼓足勇气向前走。

也非常感谢机器学习读书会的同学们的指导，鼓励，支持。虽然有的时候只能到寥寥的四五个人，但是执着的气氛马上就能够让我因敬佩而产生追赶的勇气；大多数时候是书本在虐我，但是将近2年的坚持下来，我觉得我还是感受到了很多的奥妙，是非常棒的一个历程。

第一章机器学习的学习路径

一、为什么是列出一堆可以探索的书，而不是要去寻找一条路

机器学习的研究和应用已经有很长的时间了。随着人类的发展，数据和计算能力都在不断的增加，因此机器学习这几年变得异常火热，很多公司开始部署相关的部门。

常常在各种途径看到和多人问问题，有没有什么好的入门书籍或者资料；也看到一旦有前辈推荐一些好的学习材料的时候，很多人都在积极的下载和学习；机器学习相关的讲座也非常的火热。

从2013年年初，我也开始了机器学习方面的学习，我参加了北京的机器学习读书会，我不断的收集各类资料。我也一直在寻找一条既不难，又能持续下去的路，这么长时间我基本上一直在退缩，最开始李航前辈的《统计学习方法》，后来的《MLAPP》，我都看不懂。后来我又往下走，补充微积分，线性代数和概率的东西。有的时候又耐不住性子，去看PRML。

机器学习的书籍和paper很多，学习机器学习的人各自的基础以及学习目的不同；常常看到很多前辈给出的一些书单建议，我觉得就我自己来说，给出书单这样的方式不如给出一大堆书单的方式更好。要给书单，就要对书很了解，然后对于学习者的基础和目的有很好的了解，这样的做法会是快速但是有的时候贴切性不太好的一种办法。

我的观点是可以把一大堆经过别人评价的书，放在一起，就象一个儿童的玩具屋一样，我们适当的把受别的儿童喜爱的东西尽量多准备一些，然后适当的做一下分类，让孩子自己在这个屋子里探索，我们的目的是让他们玩的开心，我们的方式是给他足够的东西，让他保持兴趣并且能够走下去，而不是只给三种大多数儿童很喜欢玩的玩具，让他去从那些玩具里获得乐趣。

二、书籍清单和使用方法建议

1、深长难基础

A User'sGuide to Measure Theoretic Probability

A coursein large sample theory

BayesianData Analysis 2nd

Introductory Functional Analysis withApplications

MatrixComputations(Golub,VanLoan,Hopkins,3rd Ed)

MonteCarlo StatisticalMethods

Probability and Random Processes, Geoffrey R. Grimmett,David R. Stirzaker, 3ed, OUP, 2001

Probability-Theoryand Examples

Elements_of_Large-sample_Theory

*Introductory Lectures on Convex Optimization1

*Asymptotic Statistics

*Introduction to Nonparametric Estimation

*Large-Scale_Inference

备注：根据MichaelJordan的建议书单整理。有基本没有找到电子版的书籍没有列出来。其中待星号的书籍是MichaelJordan第二次推荐的四本书中的俩本。关于第一批书单和第二批书单的不同，Michael Jordan是这样描述的“That list was aimed at entering PhD students atBerkeley,who I assume are going to devote many decades of theirlives to the field, and who want to get to the research frontierfairly quickly. I would have prepared arather different list if the target population was (say) someone inindustry who needs enough basics so that they can get somethingworking in a few months.”

2、浅短易基础

Thomas'Calculus

Gilbert_Strang-Linear_Algebra_and_Its_Applications_4ed

Casella_Berger_Statistical_Inference

Convexoptimization by Stephen；

NumericalOptimization

3、入门概论

Machine.Learning.with.R(2013.10).Brett.Lantz

Introduction to machine learning .Ethem

(Christopher M. Bishop) Pattern Recognition and MachineLearning

Anintroductio to statistical learning with applications in RHastie

TheElements of Statistical Learning secondedition

PatternClassification .Duda

Machine.Learning.A.Probabilistic.Perspective,.Kevin.P..Murphy,.MIT.Press

统计学习方法.李航（没有电子版）

4、应用专论书籍

Web datamining，LiuBING

Datamining for scientific and engineering applications

DataMining Techniques For Marketing, Sales, and Customer RelationshipManagement (2004)

Statistical Methods for SpeechRecognition JELINEK

ComputerVision:Algorithms and Applications.Richard Szeliski

Multiple_View_Geometry_in_Computer_Vision__2nd_Edition

Computational advertising, AZ Border,2008(没有找到电子版)

Foundations of Statistical Natural LanguageProcessing

Speech_and_Language_Processing

Recommender Systems Handbook

Collective Intelligence

Mining.the.Social.Web(2nd,2013.10).Matthew.A.Russell.

Urban Computing-An overview-Yu Zheng

Data Mining in Bioinformatics

Statistics for Spatio-Temporal Data 2011

5、使用方法

1）可以以the five elements of effecetive thinking作为点睛书目，不然容易有迷路的感觉。

2)这个部分的学习可以作为“开眼”过程，结合行业，公司，职位等信息就可以确定下一步的兴趣目标了。

4）确定了大概的兴趣目标目标以后，需要根据具体情况补充一些关于模型和paper方面的资料。然后尽早开始代码和系统方面的实际工作。（我认为比较有竞争力的求职者具备基础宽广扎实，同时及早的确定了自己的兴趣和目标，聚焦于特定的岗位和工作目标进行不断的提升优化的特点；常见的俩类误区一是基础没有扎实就去挑战应用，结果做出来的东西很烂，做起来很慢；另外一类误区是成天打基础，但是由于缺乏目标而茫然，也没有针对具体的问题为基础和衔接部分提出指导，也没有用具体的问题把知识进行锤炼，技能进行提升。）

5）我个人觉得企业创业，个人职业发展以及个人学习中最大的诱惑是选择了一个方向以后，因为太艰难而不断的动摇和转变方向；所以可以通过团队结伴学习，没有三次以上高水平的提升不考虑其他的方向，学习自己能够消化的简单资料等方式来确保自己坚持在这个道路上。

第三章机器学习的职业规划

一、含义与方法

1、本文所说的“职业规划”是指经过对自我的认知，和行业，公司，职业的认知，确定一个或者几个工作目标，并进行相应的差距分析和提升的过程。

2、职业规划可以理解为一个匹配的过程；将个人和众多的备选职位进行匹配。按照传统的职业相关理论，结合机器学习者的思维习惯，本文把职业规划分为个人认知（相当于取人的feature）,职业认知（相当于获取职业相关的信息和取出feature）,以及人职匹配（相当于模型算法部分）三个部分。

3、本文的重点是职业认知部分。

二、机器学习相关的公司分析

1、大的有师傅的公司

这类公司主要是百度，阿里和腾讯。共同的特点是数据很大，机器学习的团队比较庞大，一般进去的同学都可以有师傅带着学习，进步会比较快。

但是三个公司的特点也有所不同。

百度是我认为在业务和技术之间匹配的最好，并且从基础到应用搭配的最好的公司。机器学习方面的能力对于百度的广告，搜索，移动搜索，LBS,应用分发，移动音乐，移动阅读，移动新闻，图片搜索，语音输入，浏览器，视频等所有业务都非常重要；而百度也非常重视机器学习团队的搭建。目前在产品方面的表现也非常不错。如果近期加入的团队一旦在基础研究以及产品化方面有巨大突破的话，百度的各个核心产品都可能大大的超出其他公司的产品。

百度的机器学习人才的需求种类最宽。

阿里目前的机器学习人才主要用在业务挖掘，广告和推荐方面。和阿里的业务非常的匹配；根据IPO公告，以及近期的动作，阿里未来的业务发展方向主要是电商业务的区域扩张（向下是向县城扩张，向上是跨国业务的发展）以及产品品类的扩张（从实物产品的电商向服务，金融方向的扩张。）从这种趋势来看，未来阿里的机器学习人才需求还是以业务挖掘，广告和推荐方面的人才需求为主（图像处理和NLP作为feutrue的提供者，也有需求）。

腾讯公司过去的主要业务是建立在社交网络之上的游戏，互联网增值服务（会员和道具之类的），广告等。根据年报，我认为腾讯今后的重点是在微信的基础上来发展盈利性业务，目前能够看到的业务有游戏，电商，支付，嘀嘀打车等；腾讯也单独把广告和视频业务提出来当做重点业务。

结合以上对于腾讯的业务分析和预测，以及之前对于腾讯的职位的一些认识，我认为腾讯今后对于机器学习类人才的需求主要有业务挖掘，广告算法，推荐等。

从业务上来看，三家公司都具有收入和利润基本都来自核心业务（百度主要来自于搜索广告；腾讯主要来自于游戏和增值服务，阿里主要来自于电商广告），同时有向其他俩家的核心业务扩展的动作但是没有成功的特点（百度尝试过电商和社交；阿里尝试过社交，也正在做搜索；腾讯尝试过搜索，也在做电商）。

从战略和职位设置来看，百度是从基础到产品都做；而阿里和腾讯主要侧重于应用。

2、中等规模的团队搭建中的公司以及专业公司

有一些公司，相对于BAT来说，市场地位相对较弱，但是公司的市场地位也不错；同时机器学习的团队相对较小，或者布置的普遍程度相对较弱。

比如当当，携程，去哪儿，360,58同城，优酷，乐视。这类公司一般会设置俩类机器学习的岗位，一是业务挖掘类岗位，另外就是推荐和广告算法的团队。这类公司具有市场地位不够稳固，机器学习团队相对较弱或者较新的特点。

同样有一些中等规模的广告行业的专业公司，也有机器学习的团队，比如MediaV,品友互动等公司。这类公司主要的岗位是计算广告算法工程师。

3、小的专业公司

在移动互联网快速发展的今天，有一些专业性的小公司，产品本身对于机器学习技术的依赖性非常大，也设置了机器学习的岗位，这些小公司大多数是创业公司，业务发展的不确定性比较大，同时需要的机器学习人才和业务本身的相关性非常大。

比如口袋购物(主要需求的是推荐算法，广告算法，NLP和图像处理人才)，今日头条（主要需要的是文本挖掘，推荐等人才），微博易（主要需要的是文本挖掘类人才），出门问问（主要需要的是语音识别，搜索的人才）。

不同类型的公司对于人才的要求不同，对于能够带给人才的东西也不同，各有优劣。同学们可以根据自己的情况灵活的选择，每类公司中都有非常好的公司和岗位！

三、机器学习相关的职位分析

从面临的问题和考核方式来看，机器学习的职位可以分为研发类和应用类俩大类。

研发就是专门寻找没有好的解决办法的问题寻找解决办法，一旦找到了解决办法以后就基本上不管如何实现，以及如何迭代的问题了。这类职位一般都带有“research”字样。这类岗位的主要考核结果可能是paper的质量和数量。

应用类机器学习职位在工作中距离用户更近，和机器和代码更近，更加侧重于应用比较成熟的方法不断的提升解决问题的效果。这类岗位主要的考核结果是基于系统的“率”，比如CTR预估工作的点击率，推荐算法的各种率等。

本文主要介绍应用类的职位。

1、互联网业务挖掘

使用的主要数据和要解决的问题：

参考《Data MiningTechniques For Marketing, Sales, and Customer RelationshipManagement》

。初级的业务挖掘人员的工作会离数据和算法更近；高级的业务挖掘人员会离用户和业务更近。

职位需求趋势：

这类职位的需求量非常大，基本所有的主要互联网公司都设置了这个岗位。这个岗位的名字常常有“分析师”，“数据挖掘工程师”等。

零售，金融，电信，制造业等行业对于互联网业务挖掘人员也持欢迎态度。近几年对于这类人才的需求很能会有非常大的增长。

薪水状况：

从我接触到的猎头职位的情况来看，在这个岗位上工作三四年，能够独立和业务部门以及技术部门沟通，并且能够灵活的应用数据为业务部门提出解释和建议的人才的年度薪水在20万元到35万元左右。

2年前见过大的互联网公司的分析总监给到50万元以上。

职业发展前景：

我个人认为人类曾经经历过火车时代，电力时代，汽车时代，电子时代；当下的时代是数据时代。具有良好的数据分析能力的人对于越来越多的企业具有至关重要的作用。根据海德思哲公司的分析，未来的企业领袖人物往往是business+science+technology三方面都很强的人，业务挖掘工程师的工作内容和其中的俩项密切相关。

2、推荐算法

使用的数据和要解决的问题：

参考《Recommender Systems Handbook》。

解决的核心问题是给用户想要的，不要给用户不想要的，降低用户找东西的难度，给用户更多的惊喜。

不同的互联网产品在不同的阶段，可以通过推荐系统解决不同的问题和实现不同的目标。

职位的设置情况和需求趋势：

相对业务挖掘岗位，有推荐算法职位的公司数量相对比较少。能够看到的一些公司如下。

电商：淘宝，当当，京东，口袋购物。

视频：优酷土豆，爱奇艺，风行在线，乐视。

音乐：豆瓣，虾米，网易云音乐，百度。

新闻APP:今日头条，网易新闻客户端，百度新闻，指阅。

阅读：盛大文学，掌阅科技。

团购：美团，糯米。

社交：微博，linkedin。

手机助手：豌豆荚，

LBS推荐：百度，高德。

相对电脑，手机的私密性更强，屏幕资源更小，可能会有更多的移动应用公司会部署推荐算法的岗位。

薪水状况：

我接触到的推荐算法负责人的职位（能够直接面对工程和产品部门，对推荐系统的效果负责），招聘方给到的年度薪在30万元到50万元左右。

职业发展前景：

移动互联网是近几年互联网行业最大的潜力细分领域，而推荐对于移动互联网的所有产品都有非常重要的作用，从这个角度来讲推荐算法工程师的职业前景非常不错。

在多个移动互联网的细分领域，推荐都处于核心地位，因此成熟的推荐算法人才创业的机会也比较多。

3、广告算法

使用的数据和要解决的问题：

参考《Computational advertising, AZ Border,2008(没有找到电子版)》；另外刘鹏前辈也在做一些计算广告相关的课程，大家可以在网上搜索具体的课程内容。

数据主要是俩块，一块是用户的数据，除了公司自有的数据以外，也可以通过DMP(数据管理平台)获取到一些用户的数据；另外一块是关于广告的数据。

需要解决的问题就是把用户和进行更好的匹配，提升总体的市场效率。

其中CTR预估是非常重要的工作内容。

职位的设置情况和需求趋势：

和其他的职位相比，计算广告的公司数量比较集中。公司主要分为三类。

一类是有Exchange或者类似体量的公司（相当于有设局或者设立证券交易所的公司），有百度，淘宝，腾讯，搜狗，360，微软，雅虎。这类公司的流量很大，广告主的数量也很大，他们制定各自的市场内的游戏规则（主要是资源分配的办法以及结算办法。）

另外一类是DSP(Demand side platform),比如MediaV,品友互动，浪淘金等。这类公司本身没有大的流量，但是都在努力建立相对广告主更为有效的广告投放能力，主要从广告主挣钱。主要的目标是帮助广告主更有效率的把广告投放到目标群体身上。

第三类公司是类似五八同城，优酷，新浪微博这样的大媒体。或者多盟这样的SSP（Supply side platform）。这类公司自己有一定的流量，也有一些广告主客户。也需要有人来做市场效率的提升。

新增职业机会的来源，我能够看到的主要有以下几种。一种是在搜索市场上取得突破后需要建立商业变现体系的360；还有一些是来自于对淘宝模式模仿的电商公司，比如当当；还有一类是互联网广告公司的业务拓展和创新，比如SSP公司向DSP业务的拓展，或者互联网广告监测公司，或者广告生态种新的角色诞生带来的新职位机会。

近几年看到的互联网广告相关的变化主要有2个，一个是谷歌采用GSP（General second price）竞价方式并逐步被别的公司跟进；另外一个变化就是有些DSP公司大力倡导RTB（Real time bidding）。

这些变化都没有带来行业内计算广告人才需求量的急速增长。看未来，广告生态系统的逐渐完善而催生出的新的细分行业和公司，也没有看到能够带来大的新增职位的急速增长。

但是互联网广告行业面临的挑战和机会也很多，比如多屏互动的期望，以及广告主日益增长的需求，都对企业的创新提出了要求。

综合以上，计算广告行业未来的人才需求特点可能是“少而精”。

薪水状况：

广告目前是互联网行业最重要的收入来源。从百度公司和阿里集团招股书中就可以看出，这俩个公司收入的绝大部分都来自广告。

因此计算广告人才的薪水也非常的高。

我了解到的比较成熟的计算广告人才（同时在算法和工程方面很成熟）的年收入有50万元到150万元左右。

职位发展前景：

一旦进入计算广告行业，相对其他职位来说，创业机会较少。更有可能的是在行业内的少数几个公司成长。

该类人才的创业机会可能需要具备几个条件，第一是外围环境的重大变化导致的新类型公司的创立机会比较成熟，这个周期可能比较长；另外要有大量资金的支持；另外相对来说可能风险会比较大。

4、NLP

使用的数据和要解决的问题：

参考《Foundations of Statistical Natural LanguageProcessing》，《Speech_and_Language_Processing》。

使用的数据主要是人们日常随意写出来的或者说出来的话。比如新闻，文章，微博上的话，qq的聊天，贴吧里的话，博客上的话，企业呼叫中心的对话等。

要解决的问题主要是对这些内容进行抽象，映射或者响应。比如信息抽取（命名实体识别，情感分析等），机器翻译，聚类，分类，自动问答等。

职位的设置情况和需求趋势：

目前看到的NLP岗位设置主要有以下几类。

一类是在搜索公司的query处理相关的工作。目前我了解到的工作主要分俩个部分，一个部分是做query的纠正，改写，或者近义词分析等；另外一类工作是做Topic model的研究，意思就是把用户的需求抽象在一个“model”上，而同时预先把网页到抽象到一个“model”上，然后在model内部挑选出用户最感兴趣的网页优先展示。

还有一类是研发机构的研究岗位，比如微软，富士通研发，三星通信等机构都有NLP的研发岗位。

第三类岗位就是一些专业性公司，比如口袋购物，微博易，今日头条，掌阅科技，简网世纪这样的公司。在这些公司里NLP和图像处理的工作地位类似，就是为下一步的处理提供feature。

从用户端来看，WEB2.0的出现，以及社交网络的大力发展，为NLP积累下了大量的数据，同时企业也越来越重视通过网络来倾听用户，以及和用户进行沟通；同时信息的急速增长，导致用户对于个性化产品的需求越发明显，也促进了NLP工作的推进和岗位的设置。

今后NLP的岗位会急速增长。增长的来源一部分来自于搜索引擎公司，根据李航前辈的微博，未来搜索突破可能来自俩个方向，一个方向是LTR(Learning to rank),另外的一个方向是Semantic match。我的理解可能semantic mtach需要大量的NLP的工作和人才。

另外一类职位我觉得来自于大量的已经产生的大量非结构化的数据处理相关的公司，以及从大量的语音识别转化出来的数据的利用相关的公司。这个具体是在哪个方向上不好说，但是我想趋势上一定是企业对于海量用户产而生的嘈杂的声音的理解和利用。数据的量还在不断的急速增加，NLP工作量和任务类型也在增加，最终导致岗位需求的增加。

薪水状况：

NLP人才的需求不象数据挖掘和推荐那样量大和紧缺，和其他的职位相比薪水比较温和。

我接触过的猎头职位，有公司愿意给工作2年左右的NLP工程师20到30万元的年度工资；也有创业公司愿意给NLP leader50万元以上的年度工资。

职位发展前景：

我预测NLP工程师在原公司的职业生命活力会比较强（数据，算法以及工作目标可能都会有新的挑战和机会进来）；同时成熟的人才也会有很多创业机会可以考虑。

5、图像处理

使用的数据和要解决的问题：

参考《ComputerVision:Algorithms and Applications.RichardSzeliski》，《Multiple_View_Geometry_in_Computer_Vision__2nd_Edition》

面对的数据是图像，具体也会有处理静态图像和动态视频的区别。以及离线处理和在线处理的区别。

常见的要解决的问题有检测（就是看某个图片里是否有某类东西，比如是否有人脸），识别（就是输入一个图片，看这个图片和库里的哪个图片是一致的。）分割，拼接，3D重建，聚类，分类等。

职位的设置情况和需求趋势：

传统的图像处理岗位主要分布在类似智慧眼，汉王这样的IT公司和类似佳能，微软这样的研发机构中。

智慧眼和汉王这样的IT公司的产品，主要以行业用户为主，应用的场合有门禁，安全，社保识别等。

在大数据在中国兴起的前后，更多的互联网公司开始设立图像处理的岗位。其中百度是把图像和语音作为文字之外的新的搜索对象来看待的，设立了图像处理的岗位并招聘了人才，但是具体如何产品化目前还不太清楚，目前看到的只有图搜，就是把图片拷贝到检索栏里，然后可以看到一些检索的结果。

淘宝以及一些其他的电商公司也设立了图像处理或者正在招聘相关的人才，主要的工作目标是为广告和推荐等应用提供feature。

与数据挖掘，推荐和NLP职位相比，图像处理的职位数量相对较少，发展相对比较滞后，能够看到的大众用户使用的产品相对比较少。

我个人的感觉是图像处理行业正处在一个爆发的前夕；象智能交通事故报告系统（自动对摄像头采集到的图像进行处理，即使在夜间也可以自动的识别出来重大事故并且提醒交警去救援），自动驾驶，离群人群自动检测（比如机场和火车站的恐怖分子检测）等应用都具有足够的价值，目前系统能够做到的水平也非常接近商品化。

我的判断是随着技术的突破和外围配套（包括法规或者硬件等）的成熟，图像处理的岗位会有大的爆发。

薪水状况：

相对其他职位来说，图像处理的职位比较少一些；同时薪水不是很高。但是未来的收入前景不错。

职位发展前景：

不论在公司内部的提升，还是未来创业的角度来看，图像处理工程师的发展机会都会越来越多。

其他相对比较小众的语音识别，语音合成，网页或者广告反作弊，urban computing,生物信息挖掘，金融数据挖掘，社交网络挖掘等职位就不在这里介绍了。

总体来说，机器学习的职位类型，职位的人才需求数量，以及能够应用的行业都在增加，前景大好！

以上为个人观点，难免有误，欢迎大家通过以下方式和我联系，进行指正或者补充，最终能够帮到更多的朋友成为专业，敬业，优秀，正直的靠辛勤劳动过上幸福生活的人！

微博：猎头王俊宏

博客：blog.sina.com.cn/cikuangren

知乎：王俊宏

0 0