NLTK学习笔记
来源:互联网 发布:微信分享淘宝链接赚钱 编辑:程序博客网 时间:2024/05/22 06:28
学习参考书: http://nltk.googlecode.com/svn/trunk/doc/book/
1. 使用代理 下载数据
nltk.set_proxy("**.com:80")
nltk.download()
2. 使用sents(fileid)函数时候出现:Resource 'tokenizers/punkt/english.pickle' not found. Please use the NLTK Downloader to obtain the resource:
import nltk
nltk.download()
安装窗口中选择'Models'项,然后'在 'Identifier' 列找 'punkt,点击下载安装该数据包
3. 语料Corpus元素获取函数
from nltk.corpus import webtext
webtext.fileids() #得到语料中所有文件的id集合
webtext.raw(fileid) #给定文件的所有字符集合
webtext.words(fileid) #所有单词集合
webtext.sents(fileid) #所有句子集合
4. 文本处理的一些常用函数
假若text是单词集合的列表
len(text) #单词个数
set(text) #去重
sorted(text) #排序
text.count('a') #数给定的单词的个数
text.index('a') #给定单词首次出现的位置
FreqDist(text) #单词及频率,keys()为单词,*[key]得到值
FreqDist(text).plot(50,cumulative=True) #画累积图
bigrams(text) #所有的相邻二元组
text.collocations() #找文本中频繁相邻二元组
text.concordance("word") #找给定单词出现的位置及上下文
text.similar("word") #找和给定单词语境相似的所有单词
text.common_context("a“,"b") #找两个单词相似的上下文语境
text.dispersion_plot(['a','b','c',...]) #单词在文本中的位置分布比较图
text.generate() #随机产生一段文本
- NLTK学习笔记
- NLTK 学习笔记(3)
- NLTK学习笔记
- NLTK入门学习笔记
- NLTK学习笔记
- NLTK学习笔记
- NLTK 学习笔记(1)
- NLTK 学习笔记(2)
- NLTK 学习笔记(4)
- NLTK 学习笔记(5)
- NLTK学习笔记(6)
- Python NLTK 学习笔记0
- Python NLTK 学习笔记1
- NLTK学习笔记(三):NLTK的一些工具
- NLTK学习笔记(三):NLTK的一些工具
- python nltk自然语言处理学习笔记1
- python nltk自然语言处理学习笔记2
- NLTK学习笔记——开篇
- linux 中特殊符号用法详解
- jQuery与属性和css样式
- Docker常用命令
- linux 查看CPU和内存使用情况
- HTML5里的input标签的required属性提示文字修改
- NLTK学习笔记
- linux 查看文件系统类型
- Web Service入门
- JavaWeb 图书推荐
- 安卓toolbar,toolbar替换actionbar,改变toolbar箭头颜色
- 关于jsonp实现跨域访问,以及存在的安全问题
- 日期工具类-DateTimeUtils
- activemq安装及自启动方法
- 从Poser中输出模型与向3ds Max导入模型