NLTK学习笔记
来源:互联网 发布:福禄克网络中国 编辑:程序博客网 时间:2024/05/22 10:56
学习参考书: http://nltk.googlecode.com/svn/trunk/doc/book/
1. 使用代理下载数据
nltk.set_proxy("**.com:80")
nltk.download()
2. 使用sents(fileid)函数时候出现:Resource 'tokenizers/punkt/english.pickle' not found. Please use the NLTK Downloader to obtain the resource:
import nltk
nltk.download()
安装窗口中选择'Models'项,然后'在 'Identifier' 列找 'punkt,点击下载安装该数据包
3. 语料Corpus元素获取函数
from nltk.corpus import webtext
webtext.fileids() #得到语料中所有文件的id集合
webtext.raw(fileid) #给定文件的所有字符集合
webtext.words(fileid) #所有单词集合
webtext.sents(fileid) #所有句子集合
4.文本处理的一些常用函数
假若text是单词集合的列表
len(text) #单词个数
set(text) #去重
sorted(text) #排序
text.count('a') #数给定的单词的个数
text.index('a') #给定单词首次出现的位置
FreqDist(text) #单词及频率,keys()为单词,*[key]得到值
FreqDist(text).plot(50,cumulative=True) #画累积图
bigrams(text) #所有的相邻二元组
text.collocations() #找文本中频繁相邻二元组
text.concordance("word") #找给定单词出现的位置及上下文
text.similar("word") #找和给定单词语境相似的所有单词
text.common_context("a“,"b") #找两个单词相似的上下文语境
text.dispersion_plot(['a','b','c',...]) #单词在文本中的位置分布比较图
text.generate() #随机产生一段文本
NLTK's Conditional Frequency Distributions: commonly-used methods and idioms for defining,accessing, and visualizing a conditional frequency distribution.of counters.
to be continued
- NLTK学习笔记
- NLTK 学习笔记(3)
- NLTK学习笔记
- NLTK入门学习笔记
- NLTK学习笔记
- NLTK学习笔记
- NLTK 学习笔记(1)
- NLTK 学习笔记(2)
- NLTK 学习笔记(4)
- NLTK 学习笔记(5)
- NLTK学习笔记(6)
- Python NLTK 学习笔记0
- Python NLTK 学习笔记1
- NLTK学习笔记(三):NLTK的一些工具
- NLTK学习笔记(三):NLTK的一些工具
- python nltk自然语言处理学习笔记1
- python nltk自然语言处理学习笔记2
- NLTK学习笔记——开篇
- 【软工】内聚耦合
- 查看/修改Linux时区和时间
- 搭建VPN
- 【智能制造】尹丽波:工业信息安全态势与产业发展展望
- 查看系统资源信息
- NLTK学习笔记
- 修改cmd显示名称
- 程序员从复杂代码中找BUG的5种方法,你用过几个?
- MIT App Inventor
- cacti安装报错
- 解决Tomcat发布前端请求乱码问题
- 【智能零售】在逛了100家店之后,我从Stitch Fix上买到了我最喜爱的衣服...
- JavaScript 创建对象---工厂模式
- native关键字