正则表达式的有益应用(未完待续)

来源:互联网 发布:知乎能用邮箱注册吗 编辑:程序博客网 时间:2024/04/29 05:11
  1. 提取字符块
    re.findall()方法,找出所有(无重叠的)匹配的指定正则表达式。例如找出一个词中的所有原因,并计数
word = "aairoweotiqkttms.ajkostalrtsetayk"re.findall(r'aeiou',word)
  1. 查找词干
re.findall(r'^.(*?)(ing|ly|ed|ious|ies|ive|es|s|ment)$',word)

但时存在很多问题,不仅会将“ponds”的s删除,也会将”basis”的”is删除”。

3.搜索已分词文本
使用一种特殊的正则表达式搜索一个文本中的多个词。例如:
搜索文本中所有“a man“的实例
lgy = nltk.Text(nltk.corpus.brown.words())
lgy.findall(r"<as><.*><as><.*>")

用来查找“as x as y”的brown文本库中实例

0 0
原创粉丝点击