《Natural Language Processing》斯坦福视频学习笔记——2.text processing

来源:互联网 发布:希拉里 邮件门 岛 知乎 编辑:程序博客网 时间:2024/06/07 10:43
本篇涉及到的文本处理,主要包含以下内容:
  • Lemmatization
  • Stemming
  • Porter Stemming Algorithm
  • 判断一个单词是否是句尾单词
  • 判断句尾单词的扩展条件
具体的笔记内容如下:
  • Lemmatization:使单词、句子还原
  • Stemming:使有相同词根的词还原
  • Porter Stemming Algorithm:词根还原算法,可以实现对英文单词进行还原英文单词的词性、词形变化,去掉前缀、后缀等等功能

    [aeiou].*ing$:只有单词中存在aeiou才能删除结尾的ing,如king就不能删,而standing可以删。
    缺陷:如living之类的词,删掉后变成liv,并没有真正意义上的还原
  • 判断一个单词是否是句尾单词:
    (1)之后有大量空白
    (2)后面的标点是?!:
    (3)当之后是一个片段时,之后无如etc等的缩略词。
    决策树形式:


  • 判断句尾单词的扩展条件:
    (1)带.的单词的开头字母大小写、是否数字等
    (2).之后的单词开头字母大小写、是否数字等
    (3)带.的单词长度
    (4)带.的单词在句尾的概率
    (5).之后的单词在句首的概率
总结:
  • 词根还原,简单的做法就是直接删除类别,再进一步就是分析单词本身结构,如是否带元音、删除之后是否要在最后加e等
  • 单词、句子分析,不仅要分析其本身结构,还要考虑上下文特征
0 0