什么是词干化处理
来源:互联网 发布:手机淘宝人工怎么联系 编辑:程序博客网 时间:2024/06/03 20:29
在NLP中,我们对一句话或一个文档分词之后,一般要进行词干化处理。词干化处理就是把一些名词的复数去掉,动词的不同时态去掉等等类似的处理。
R语言很多包可以词干化,如snowball,Rstem等,但是它们的词干化是比较机械的,比如掐头去尾,不少词干可读性差,词干化以后要词干还原不太方便。但运用python nltk的wordnet词料库却可以方便地实现词干化,不需词干还原。
from nltk.corpus import wordnet as wn
wn.morphy('dancing')
#'dancing'
wn.morphy('needs')
#'need'
wn.morphy('business')
#'business'
wn.morphy('got')
#'get'
我们可以看到needs->need,got->get,这就是词干化处理;
0 0
- 什么是词干化处理
- 什么是词干化处理
- Python自然语言处理:词干、词形与MaxMatch算法
- 什么是字点流?什么是处理流?
- 波特词干算法
- 英文分词+提取词干
- 波特词干算法
- 波特词干算法
- 波特词干算法
- 英文单词词干提取算法
- nltk词干提取
- 波特词干算法
- NLTK提取全文词干
- 波特词干算法
- 什么是多处理
- 什么是自然语言处理
- 什么是异常处理?
- 断字符和词干分析器
- 数据结构--容量可变数组
- 提高个人能力的几个小建议
- 51单片机驱动SD卡
- group by分组
- 数据结构--单链表
- 什么是词干化处理
- 跟Microsoft.AspNet.Identity学习哈希加盐法
- js的dom编程中opener父窗口和子窗口(封装document.getElementById问题)
- 手把手教你: LNK2019: 无法解析的外部符号
- 扩展阅读资料
- excel使用技巧
- cookie的使用
- leetcode - Palindrome Partitioning
- 周期串问题