简单试水nltk

来源:互联网 发布:数据库的课程设计 编辑:程序博客网 时间:2024/05/29 12:54

导入nltk.book后,即可调用

(需要注意的是,每一次启动idle之后都需要import一次,因为import是导入进内存,具体还需要了解import的原理和机制,知识点:module)

1.searching text

//查找包含单词monstrous的上下文text1.concordance("monstrous")
//查找上下文与monstrous相似的单词text1.similar("monstrous")
//查找两个单词共同的上下文
text2.common_contexts(["monstrous", "very"])
//词在文本中的位置,需要安装NumPy的Matplotlib包text4.dispersion_plot(["citizens", "democracy", "freedom", "duties", "America"])


这里注意:nltk官网上NumPy目前最高版本1.11.2仅支持Python2.6-2.7,3.4-3.5 已哭瞎

然后试着用命令 py –m pip install NumPy安装成功NumPy-1.13.0py –m pip install matplotlib安装成功NumPy-1.13.0,此时会一起把cycler, python-dateutil, pyparsing, pytz, matplotlib一起下载安装

搞定~

import numpy后执行代码,出现

//生成不同风格的随机文本text3.generate()

2.counting vocabulary

//文本长度len(text3)
//text3中的词类型 word typesset(text3)
//给text3中词类型排序,顺序,A-Zsorted(set(text3))//计算text3中词类型个数len(set(text3))
//文本词汇丰富度len(set(text3))/len(text3)
//单词计数text3.count("smote")//单词出现百分比100 * text3.count("smote") / len(text3)
//使用def定义函数并调用def lexical_diversity(text):    return len(set(text)) / len(text)
def percentage(count, total):    return 100 * count / total




原创粉丝点击