NLTK中常见定义的函数

来源:互联网 发布:未来人工智能龙头股 编辑:程序博客网 时间:2024/06/06 18:15

一、NLTK频率分布类中定义的函数

用法                                                                   含义

fdist = FreqDist(sample)                 创建包含给定样本的频率分布

fdist.inc(sample)                                  增加样本

fdist['monstrous']                                 计数给定样本出现的次数

fdist.freq('monstrous')                          给定样本的频率

fdist.N()                                                样本总数

fdist.keys()                                           以频率递减顺序排列的样本链表

for sample in fdist:                               以频率递减顺序遍历样本

fdist.max()                                           数值最大的样本

fdist.tabulate()                                     绘制频率分布表

fdist.plot()                                            绘制频率分布图

fdist.plot(cumulative=True)                 绘制累积频率分布图

fdist1<fdist2                                        测试样本在fdist1中出现的频率是否小于fdist2


Note:fdist类似于字典 key-value

二、词汇比较相关函数

函数用法                                   含义                                         
s.startswith(t)                     测试s是否以t开头
s.endswith(t)                      测试s时候以t结尾
t in s                                   测试t是否包含于s
s.islower()                          判断s中的字符是否都是小写字母
s.isupper()                         判断s中的字符是否都是大写字母
s.isalpha()                          判断s中的字符是否都是字母
s.isalnum()                         判断s中的字符是否都是字母或数字
s.isdigit()                            判断s中的字符是否都是数字
s.istitle()                             判断s中的字符是否都是首字母大写

Note:函数返回类型都为True or false

三、NLTK中定义的基本语料库函数

函数                                                  描述
fileids()                                      语料库中的文件
fileids([categories])                   语料库中对应分类的文件
categories()                              语料库中的分类
categories([fileids])                   文件对应的语料库中的分类
raw()                                         语料库的原始内容
raw(fileids=[f1,f2,f3])                 指定文件的原始内容
raw(categories=[c1,c2])            指定分类的原始内容
sents()                                      指定分类中的句子
sents(fileids=[f1,f2,f3])              指定文件中的句子
sents(categories=[c1,c2])         指定分类中的句子
abspath(fileid)                           指定文件在磁盘中的位置
encoding(fileid)                         返回文件的编码
open(fileid)                                打开指定语料库文件的文件流
root()                                         到本地安装的语料库根目录的路径
readme()                                   语料库的readme内容

四、NLTK中的条件频率分布相关函数
用法                                                                                        描述
cfdist=ConditionalFreqDist(pairs)                pairs为一个配对链表,以此来创建条件频率分布
cfdist.conditions()                                        将条件按字母排序来分类
cfdist[condition]                                           此条件下的频率分布
cfdist[condition][sample]                             此条件下给定样本的频率
cfdist.tabulate()                                           为条件频率分布制表
cfdist.tabulate(samples,conditions)            在指定样本和条件限制下制表
cfdist.plot()                                                  为条件频率分布绘图
cfdist.plot(samples,conditions)                   在指定样本和条件下绘图
cfdist1 <cfdist2                                           测试样本在cfdist1中出现次数是否小于在cfdist2中出现的次数
原创粉丝点击