Java开源自然语言处理工具-LingPipe
来源:互联网 发布:直销会员管理系统 php 编辑:程序博客网 时间:2024/04/28 16:44
LingPipe 是公司开发的一款自然语言处理开源Java软件包,目前最高版本是4.0.1
LingPipe的优势是:
- 比较全面的覆盖自然语言处理的各个分支,文本分词,聚类,语义情感分析,领域知识学习等等
- 具有全套在research上免费的源码,样列代码,测试代码(商业与非商业均同一套代码),并且文档详细,对于其中模型所参考的论文都引用出来,适合研究学习.
- 作为相对开源资源缺少的领域,项目一直持续更新中.
包含的模块:
- 主题分类(Top Classification) : 基于文本语言模型训练,归类
- 命名实体识别(Named Entity Recognition):基于first-best, n-best and per-entity confidencemodes识别,以及训练与评估识别器
- 聚类(Clustering): 基于single-link andcomplete-link多层聚类,包裹一些聚类评估技术
- 词性标注(Part-of Speech Tagging):
- 句题检测(Sentence Detection):
- 拼写更正(Spelling Correction):基于"你要找的是"风格的检查引擎
- 数据库文本挖掘(Database Text Mining)
- 字符串比较(String Comparison) :基于距离与相似度测量,包括权重距离,TF/IDF距离,Jaccard distance, Jaro-Winkler distance,等
- 兴趣短语检测(Interseting Phrase Detection)
- 字符语言建模(Character Language Modeling)
- 中文分词(Chinese WordSegmentation)基于空格分割类似训练库,机器学习,发现认知新词
- 数据库文本挖掘(Database Text Mining)
- 情感分析(Sentiment Analysis)基于文本聚类
- 断字识音(Hyphenation and Syllabification)
- 语言辨别(Language Identification)
- 奇异值分解(Singular Value Decomposition)
- 逻辑回归 (Logistic Regression)
- 期望最大化(Expectation Maximization)
- 词义排歧(Word Sense Disambiguation)
LingPipe包含资源:
- Papaer&language material :source,介绍中均包含有所引用资源
目前个人应用LingPipe包中的中文分词,结合情感分析模块研究中文情感检测与辨别。API接口均已高度概括化,便于快速实现,不过所运用的算法需要详尽的分析。
Res: http://www.vanjor.org/blog/2010/11/lingpipe/
- Java开源自然语言处理工具-LingPipe
- Java开源自然语言处理工具-LingPipe
- [转载][工具]Java自然语言处理 LingPipe
- Java语言名称揭秘,源自爪哇咖啡豆
- 开源自由的汉语言处理包
- 开源自动化测试工具selenium的使用
- Twitter的开源自动化测试工具diff
- JAVA AOP--源自技术
- JAVA JDBC--源自技术
- 使用lingpipe自然语言处理包进行文本分类
- 使用lingpipe自然语言处理包进行文本分类
- 开源自定义控件
- JAVA 错误集合--源自技术
- java图片处理工具
- java字符串处理工具
- Java字符串处理工具
- java图像处理工具
- 有关开源自动化测试工具--Selenium的一些简单介绍
- 使用样式控制gridview的宽度
- SQLT(SQLTXPLAIN)
- 2 双向链表 PushBack/PopFront
- 纵谈进程枚举
- linux-0.11 系统调用 int 0x80 实现
- Java开源自然语言处理工具-LingPipe
- exit,fread,fgetc
- C++第15周项目5——-电子词典
- IQueryable & IEnumberable 区别
- [C++]c++沉思录第10章例子“字符图像”
- 控制webbrowser控件
- java查找算法_001顺序查找
- javascript实现页面在指定秒后调转,并显示还有几秒
- friend的作用