立委随笔:NLP 的童子功
来源:互联网 发布:高考人工智能专业 编辑:程序博客网 时间:2024/04/27 23:54
引自:http://www.confidencenow.com/nlp-seduction.htm转帖地址:http://blog.sciencenet.cn/home.php?mod=space&uid=362400&do=blog&quickforward=1&id=635692“NLP 不是魔术,但是,其结果有时几乎就是魔术一般神奇。”
另一方面,NLP 教育的缺失和断层也凸现出来。由于NLP领域一边倒倾斜于机器学习的方法论,新一代 NLP 从业人员普遍缺乏语言学的培训,缺乏对语言现象的多层次把握,他们追随国际潮流,花样翻新地尝试各种机器学习的新算法及其实现技巧,从而忽略了语言本身的复杂性及其问题领域的把握。算法有余而语言不足是新人普遍表现出来的NLP营养缺乏症。机器学习把一切智能过程看做黑匣子的方法论,在特定的任务和特定的条件下确实可以创造语言应用的奇迹,然而对于计算语言学教育,却带来了种种局限。培养出来的人重普适,少专才。NLP 博士可以不做语言,而去华尔街做金融系统。可是当面对语言问题的方方面面,他们的知识往往失之肤浅。典型的情形是,研究生教育阶段,他们下载过不同数据,尝试过不同项目,譬如训练出一个词性标注(POS:Part of Speech tagging)系统,实现过一个狭窄领域的褒贬分类的系统(譬如影评),做得好的甚至利用某现成的句法分析器(parser)去实现某种超越关键词分析或浅层分析的复杂语言系统,施行语义角色标注(semantic role labeling)或词义辨识(WSD:Word Sense Disambiguation)。可是,纵观这些培训项目的过程可以发现,这些项目强调的不是对语言和语言学的理解,受训者只是隔雾看花,语言的千变万化和多姿多彩被隐含在海量数据(labeled corpus)或者第三方的工具(如下载来的 parser,POS tagger,or morphology analyzer)之中。其结果是,他们缺乏解决复杂任务所需要的底蕴和对语言现象的控制能力。
这种营养缺失和语言学田野训练的断层在国内尤其严重。曾经与国内信息产业重量级人物谈过此事,他们千辛万苦追求人才到海外,我问:NLP 是朝阳领域,国内专于此项研究的教授和研究生越来越多,已经有相当规模的学业基础,在国际学界发表的论文数也直线上升,与我们当年入行时的隔离局面和手工业局面有天壤之别。怎么就要到海外来延揽人才,不能就地取材呢?回答是,领军人才真地是难寻,我们遴选面试了成百的国内优秀人才,还真地就是找不到合适的。大部分人才都缺乏某种东西。对NLP应用貌似有宏观把握的高级人才往往不 hands-on,遇到多变复杂的具体问题,缺乏具体的应对和实现措施。而对语言现象和语言学有深入了解和丰富经验的人,往往又跟不上时代,过于迂腐,难以在全局中对项目定位。总之是上去的人下不来,下面的人又上不去;文科的人太傻,理工的人太呆,此乃交叉学科之痛。
交叉学科之痛是普遍存在的。人无完人。文理两全不呆不傻的人比熊猫还珍贵。除了熊猫,文理全才据说只剩下方博士和镜子大师了,均属可遇不可求见首不见尾的人物。但NLP的知识和人才断层却不仅仅是交叉之痛,而是一个更为普遍的学科倾斜的后果。如果新一代的导师(我们的同辈或晚辈)由于学界潮流的影响(非统计方法的论文基本上无从发表),忽视了语言学,怎么能指望他们的学生可以接受全面的培训呢?取法乎上仅得其中,什么环境造就什么人才。
笔者认识一位美女文学家,电影明星出身。多数人的偏见都是,凡美女明星,难得文采。而文采斐然的女作家,则往往其貌不扬。她却是一个罕见的例外。原来她的明星之路实属偶然,而她的书香门第和特殊家教从小培养了她引为骄傲的“童子功”。这种文字的功力,加上她驰骋的文艺想象力,在她息影以后成就了她作家的道路。回到本文的主题,笔者以为,NLP 教育的缺失和断层很大原因也是一种语言学童子功的失传。
从这一点看,我们这一辈是幸运的。我们的导师都是语言应用的大师,我们一入行接触的就是当时国内顶尖的几位语言应用泰斗(刘先生、董先生等前辈),他们经历了几十年传统机器翻译的历练。回想起来,传统的机器翻译真是一个绝佳战场,在这里小鬼可以磨练成将军,童子功的传承即在此磨练之中。与现在流行的统计机器翻译不同,传统的机器翻译把语言掰碎了来分析(源语分析),然后做词汇意义和逻辑语义的转换,最后还要把语言碎片重新拼接成语言的表达(目标语生成),这等于孙悟空钻进语言的肚子里面大闹天宫,也好比大圣被扔进语言学的熔炉里冶炼成火眼金睛。这样的培训最见 NLP 童子功。现在的 NLP 学生,还有多少人能有这样的环境、机会和耐心呢?
【立委名言:技术改变世界,甚至总统】
- 立委随笔:NLP 的童子功
- 万氏童子功
- 万籁声童子功,练精化气详解
- 本文转自“我爱自然语言处理”:www.52nlp.cn ----立委随笔:机器学习和自然语言处理
- 科普随笔:NLP主流最大的偏见,规则系统的手工性
- 立委科普:语言学算法是 deep NLP 绕不过去的坎儿
- NLP的假设
- NLP的搭建
- 常见的nlp工具包
- LINGO的NLP问题
- NLP的派别
- NLP 的应用
- NLP
- nlp
- NLP
- NLP
- NLP
- NLP
- Android自定义字体方法
- 急诊室二三事
- Android 关于录音文件的编解码 实现米聊 微信一类的录音上传的功能
- 基于PyQt(Python+QT)的gui程序开发
- 如何生成javacore和heapdump
- 立委随笔:NLP 的童子功
- asp 网站 XSS跨站脚本漏洞如何修复
- SQL Server2008 排序函数应用RowNumber ,Rank,Dense_Rank ,Ntile
- Android Layout标签之-viewStub,requestFocus,merge,include【转】
- Mybatis源码研究5:数据源的实现
- to_char和to_date
- 关于IOS键盘遮住输入框以及关闭的方法。
- python的学习(十三)---- ftplib模块
- 如何成为嵌入式Linux系统工程师