NLTK学习笔记
来源:互联网 发布:tao bao淘宝网 编辑:程序博客网 时间:2024/05/21 22:30
原文地址
学习参考书: http://nltk.googlecode.com/svn/trunk/doc/book/
1. 使用代理下载数据
nltk.set_proxy("**.com:80")
nltk.download()
2. 使用sents(fileid)函数时候出现:Resource 'tokenizers/punkt/english.pickle' not found. Please use the NLTK Downloader to obtain the resource:
import nltk
nltk.download()
安装窗口中选择'Models'项,然后'在 'Identifier' 列找 'punkt,点击下载安装该数据包
3. 语料Corpus元素获取函数
from nltk.corpus import webtext
webtext.fileids() #得到语料中所有文件的id集合
webtext.raw(fileid) #给定文件的所有字符集合
webtext.words(fileid) #所有单词集合
webtext.sents(fileid) #所有句子集合
4.文本处理的一些常用函数
假若text是单词集合的列表
len(text) #单词个数
set(text) #去重
sorted(text) #排序
text.count('a') #数给定的单词的个数
text.index('a') #给定单词首次出现的位置
FreqDist(text) #单词及频率,keys()为单词,*[key]得到值
FreqDist(text).plot(50,cumulative=True) #画累积图
bigrams(text) #所有的相邻二元组
text.collocations() #找文本中频繁相邻二元组
text.concordance("word") #找给定单词出现的位置及上下文
text.similar("word") #找和给定单词语境相似的所有单词
text.common_context("a“,"b") #找两个单词相似的上下文语境
text.dispersion_plot(['a','b','c',...]) #单词在文本中的位置分布比较图
text.generate() #随机产生一段文本
NLTK's Conditional Frequency Distributions: commonly-used methods and idioms for defining,accessing, and visualizing a conditional frequency distribution.of counters.
to be continued
- NLTK学习笔记
- NLTK 学习笔记(3)
- NLTK学习笔记
- NLTK入门学习笔记
- NLTK学习笔记
- NLTK学习笔记
- NLTK 学习笔记(1)
- NLTK 学习笔记(2)
- NLTK 学习笔记(4)
- NLTK 学习笔记(5)
- NLTK学习笔记(6)
- Python NLTK 学习笔记0
- Python NLTK 学习笔记1
- NLTK学习笔记(三):NLTK的一些工具
- NLTK学习笔记(三):NLTK的一些工具
- python nltk自然语言处理学习笔记1
- python nltk自然语言处理学习笔记2
- NLTK学习笔记——开篇
- 用CornerStone配置SVN,HTTP及svn简单使用说明
- Unity3D 5.X Pro破解方法
- 模仿腾讯QQ的web登陆面板
- Xcode常用插件
- Ultraedit中编辑go语言源代码
- NLTK学习笔记
- 使用Go语言开发iOS应用(Swift版)
- iOS解决json串中的NSNull类型
- Java中Calendar.DAY_OF_WEEK需要减一的原因 month +1
- iOS解析json中null终极解决方案
- Swift 注释技巧
- 无障碍集成微信第三方登录,解决WXEntryActivity不回调onResp
- Objective-C 注释技巧
- 2017年网易有道校园招聘内推笔试