跬步系列 - NLP
来源:互联网 发布:arcgis js 热点格网图 编辑:程序博客网 时间:2024/05/19 23:01
利用Ansj进行新闻关键词提取 中提到了几个用于NLP处理的工具,这里进行一些检索和了解:
FudanNLP
简介
复旦自然语言处理(简称FNLP),是上海复旦大学计算机学院邱锡鹏教授(微博:@邱锡鹏)带领的团队研发出的一套基于机器学习的中文自然语言文本处理的开发工具包,该工具包包含了为实现这些任务的机器学习算法和数据集。CSDN在14年的时候有过相关报道复旦邱锡鹏教授:云时代,NLP也将是一种基础服务
链接
FNLP
Penn Treebank
ictalas
ANSJ
Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。
英文官网: ANSJ
中文官网: NLPCN
Github地址: git@github.com:NLPchina/ansj_seg.git
相关采访: 开源 Java 中文分词器 Ansj 作者孙健专访
OpenNLP
开源的语料库
WordNet
NLP界有哪些神级人物?
首先想到的不应该是Michael Collins吗……
Michael Collins (Columbia), Jason Eisner (JHU), David Yarowsky (JHU)三位师兄弟(David > Michael > Jason)均师承于Upenn的Mitchell Marcus教授,也就是著名的Penn Treebank的作者。这三位是NLP界公认的大神,研究领域各有侧重。collins/eisner对NLP结构学习领域贡献极大,yarowsky早年研究词义消歧,是著名的yarowsky algorithm的作者,后来做了很多跨语言学习的开创性工作。
Michael Collins的学生中著名的有Terry Koo (Google), Percy Liang (Stanford), Luke Zettlemoyer (UW);Jason Eisner的得意弟子当首推Noah Smith (CMU->UW);David Yarowsky似乎没有什么特别杰出的学生。
Stanford NLP掌门Chris Manning,以《统计自然语言处理基础》一书以及Stanford NLP (toolkit) 而闻名。Dan Jurafsky,著有《语音与语言处理》一书,具有深厚的语言学背景。稍微提一下Manning的学生Richard Socher,近几年声名鹊起,在dl4nlp领域风头一时无两,属年轻一代翘楚。
UCBerkeley的Dan Klein,早些年在无指导学习领域建树颇多。Percy Liang也是他的学生。
UIUC的Dan Roth,Chengxiang Zhai (偏IR);MIT的Regina Barzilay;哦,当然还有Brown大学的Eugene Charniak大神(Charniak parser),Brown大学也可算是没落的贵族了,和UPenn有点儿相似。
欧洲方面,Joakim Nivre (Uppsala University),代表工作是基于转移的依存句法分析。Philipp Koehn,著名机器翻译开源系统Moses作者,14年加入JHU。
当然,在工业界也是NLP群星璀璨。Google有Fernando Pereira坐镇,此外还有Ryan McDonald,Slav Petrov等句法分析领域绕不开的名字;而最近Michael Collins也加入了Google;IBM则有Kenneth Church;提一嘴Tomas Mikolov (Facebook)吧,word2vec作者,虽然他严格意义上并不属于NLP核心圈子,但是不得不说,近两年acl/emnlp近半数文章都给他贡献了citation,能做到这种程度的人极少。
以上我提到的人都是对NLP领域有重要基础性贡献并经过时间考验的(citation超过或者接近1W),除了以上提到的,还有很多非常优秀的学者,比如Kevin Knight,Daniel Marcu, Mark Johnson,Eduard Hovy,Chris Callison-Burch,年轻一代的David Chiang,Hal Daume III等。
暂时想到的就这些人,水平有限,抛砖引玉。相对而言,虽然华人学者近几年在ACL/EMNLP等顶级会议上占据越来越重要的地位,但是对NLP领域具有重要基础性贡献的学者相对还是很少的。
希望能帮到你,求采纳。
- 跬步系列 - NLP
- 跬步系列
- 跬步系列
- 跬步系列 - 梯度下降
- 跬步系列 - Metrics
- 跬步系列 - 决策树
- 跬步系列 - 距离
- 跬步系列 - word2vector
- 跬步系列 - 函数
- 跬步系列 - 反向传播 (Draft)
- 跬步系列 - ROC和AUC
- 跬步
- 跬步系列 - Sigmoid函数和Softmax函数
- 积跬步至千里系列之八--Android系统设置(一)
- 积跬步至千里系列之九--Android系统设置(二)
- 积跬步至千里系列之十--编译Android源码实践
- 积跬步至千里系列之十一--leetcode小结
- 积跬步至千里系列之十二--init进程
- 【Leetcode】189. Rotate Array
- WiFi流量劫持—— 浏览任意页面即可中毒!
- 玩转Google开源C++单元测试框架Google Test系列(gtest)之三 - 事件机制
- Brew Homebrew
- android-studio真机调试
- 跬步系列 - NLP
- 二进制小数的循环期-Period of an Infinite Binary Expansion
- GLSL中环境映射&菲涅尔反射效果
- Openjudge NOI题库2.4基本算法之分治 7620:区间合并
- RabbitMQ消息队列(二):”Hello, World“
- nginx支持动态模块
- python自动监控日志,发邮件通知
- c++ lua服务器框架
- RecyclerView的入门使用