跬步系列 - NLP

来源:互联网 发布:arcgis js 热点格网图 编辑:程序博客网 时间:2024/05/19 23:01

利用Ansj进行新闻关键词提取 中提到了几个用于NLP处理的工具,这里进行一些检索和了解:

FudanNLP

简介

复旦自然语言处理(简称FNLP),是上海复旦大学计算机学院邱锡鹏教授(微博:@邱锡鹏)带领的团队研发出的一套基于机器学习的中文自然语言文本处理的开发工具包,该工具包包含了为实现这些任务的机器学习算法和数据集。CSDN在14年的时候有过相关报道复旦邱锡鹏教授:云时代,NLP也将是一种基础服务

链接

FNLP
Penn Treebank

ictalas

ANSJ

Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。

英文官网: ANSJ
中文官网: NLPCN
Github地址: git@github.com:NLPchina/ansj_seg.git
相关采访: 开源 Java 中文分词器 Ansj 作者孙健专访

OpenNLP

开源的语料库

WordNet

NLP界有哪些神级人物?

首先想到的不应该是Michael Collins吗……
Michael Collins (Columbia), Jason Eisner (JHU), David Yarowsky (JHU)三位师兄弟(David > Michael > Jason)均师承于Upenn的Mitchell Marcus教授,也就是著名的Penn Treebank的作者。这三位是NLP界公认的大神,研究领域各有侧重。collins/eisner对NLP结构学习领域贡献极大,yarowsky早年研究词义消歧,是著名的yarowsky algorithm的作者,后来做了很多跨语言学习的开创性工作。
Michael Collins的学生中著名的有Terry Koo (Google), Percy Liang (Stanford), Luke Zettlemoyer (UW);Jason Eisner的得意弟子当首推Noah Smith (CMU->UW);David Yarowsky似乎没有什么特别杰出的学生。
Stanford NLP掌门Chris Manning,以《统计自然语言处理基础》一书以及Stanford NLP (toolkit) 而闻名。Dan Jurafsky,著有《语音与语言处理》一书,具有深厚的语言学背景。稍微提一下Manning的学生Richard Socher,近几年声名鹊起,在dl4nlp领域风头一时无两,属年轻一代翘楚。
UCBerkeley的Dan Klein,早些年在无指导学习领域建树颇多。Percy Liang也是他的学生。
UIUC的Dan Roth,Chengxiang Zhai (偏IR);MIT的Regina Barzilay;哦,当然还有Brown大学的Eugene Charniak大神(Charniak parser),Brown大学也可算是没落的贵族了,和UPenn有点儿相似。
欧洲方面,Joakim Nivre (Uppsala University),代表工作是基于转移的依存句法分析。Philipp Koehn,著名机器翻译开源系统Moses作者,14年加入JHU。
当然,在工业界也是NLP群星璀璨。Google有Fernando Pereira坐镇,此外还有Ryan McDonald,Slav Petrov等句法分析领域绕不开的名字;而最近Michael Collins也加入了Google;IBM则有Kenneth Church;提一嘴Tomas Mikolov (Facebook)吧,word2vec作者,虽然他严格意义上并不属于NLP核心圈子,但是不得不说,近两年acl/emnlp近半数文章都给他贡献了citation,能做到这种程度的人极少。
以上我提到的人都是对NLP领域有重要基础性贡献并经过时间考验的(citation超过或者接近1W),除了以上提到的,还有很多非常优秀的学者,比如Kevin Knight,Daniel Marcu, Mark Johnson,Eduard Hovy,Chris Callison-Burch,年轻一代的David Chiang,Hal Daume III等。
暂时想到的就这些人,水平有限,抛砖引玉。相对而言,虽然华人学者近几年在ACL/EMNLP等顶级会议上占据越来越重要的地位,但是对NLP领域具有重要基础性贡献的学者相对还是很少的。
希望能帮到你,求采纳。

0 0
原创粉丝点击