《Natural Language Processing》斯坦福视频学习笔记——2.text processing
来源:互联网 发布:希拉里 邮件门 岛 知乎 编辑:程序博客网 时间:2024/06/07 10:43
本篇涉及到的文本处理,主要包含以下内容:
- Lemmatization
- Stemming
- Porter Stemming Algorithm
- 判断一个单词是否是句尾单词
- 判断句尾单词的扩展条件
- Lemmatization:使单词、句子还原
- Stemming:使有相同词根的词还原
- Porter Stemming Algorithm:词根还原算法,可以实现对英文单词进行还原英文单词的词性、词形变化,去掉前缀、后缀等等功能
[aeiou].*ing$:只有单词中存在aeiou才能删除结尾的ing,如king就不能删,而standing可以删。
缺陷:如living之类的词,删掉后变成liv,并没有真正意义上的还原 - 判断一个单词是否是句尾单词:
(1)之后有大量空白
(2)后面的标点是?!:
(3)当之后是一个片段时,之后无如etc等的缩略词。
决策树形式: - 判断句尾单词的扩展条件:
(1)带.的单词的开头字母大小写、是否数字等
(2).之后的单词开头字母大小写、是否数字等
(3)带.的单词长度
(4)带.的单词在句尾的概率
(5).之后的单词在句首的概率
总结:
- 词根还原,简单的做法就是直接删除类别,再进一步就是分析单词本身结构,如是否带元音、删除之后是否要在最后加e等
- 单词、句子分析,不仅要分析其本身结构,还要考虑上下文特征
0 0
- 《Natural Language Processing》斯坦福视频学习笔记——2.text processing
- 《Natural Language Processing》斯坦福视频学习笔记——1.introduction
- 《Natural Language Processing》斯坦福视频学习笔记——3.编辑距离
- 【Natural Language Processing】seq2seq学习笔记
- NLP:Natural Language Processing
- Natural Language Processing Knowledge
- Natural Language Processing
- Applied Natural Language Processing —— 读书笔记 第一章
- Applied Natural Language Processing —— 读书笔记 第二章
- Natural Language Processing On Coursera
- 20+ Natural Language Processing APIs
- Natural Language Processing (nlp) 路线图
- Stanford CS224n: Natural Language Processing with Deep Learning 课程笔记
- 【Natural Language Processing】语言模型(Language Modeling)
- Natural Language Processing With Python (3)
- 自然语言处理(Natural language processing) 1
- Natural Language Processing With Python (2)
- Natural Language Processing With Python (1)
- 排序算法稳定性
- IOS JSON数据解析(一)
- Java 入门 之 数组与循环
- MFC只运行一个实例
- php函数变量和传递
- 《Natural Language Processing》斯坦福视频学习笔记——2.text processing
- WPF-10:绑定时注意UpdateSourceTrigger
- BGP 地址族分析 - Address-family
- 中文和unicode互转
- 虚拟现实(VR)和增强现实(AR)背后的核心技术是什么?
- WKWebView和UIWebView及其四种交互
- Hello World
- objective-C学习 KVC
- Android笔记(10) - Animation详解