NLTK查看

来源：互联网发布：ce6.7源码编辑：程序博客网时间：2024/06/07 19:12

nltk.sent_tokenize(text) #对文本按照句子进行分割

nltk.word_tokenize(sent) #对句子进行分词，当输入的是包含多个句子的文档时，返回列表，每个列表包含对应句子的分词结果。

for word in word_tokenize(document):            texts_tokenized_tmp += jieba.analyse.extract_tags(word,10)        texts_tokenized.append(texts_tokenized_tmp)

document包含很多个句子，那么word_tokenize(document)返回一个列表，表示每个句子为单位的分词结果。所以for循环时，变量word其实是很多个词。jieba.analyse.extract_tags(word, 10)是从word中根据TF-IDF顺序选取10个得分最高的，目的是过滤低词频单词。

0 0

NLTK查看
NLTK
nltk
在使用nltk的时候，怎样在wordnet中查看一个词的意思？
安装NLTK
安装NLTK
nltk function
nltk词性
nltk应用
nltk-1
NLTK下载
NLTK使用
nltk学习
nltk入门
nltk学习
nltk练习题
nltk断句
nltk入门
Python -- 获取文件所在目录和文件名
为什么手机充电这么慢？别用错数据线
编译错误—Linux 配置文件要区分大小写
boost
利用sqoop将hive和mysql数据互导简单实验
NLTK查看
第六天、打渔晒网问题
使用docker快速构建rails开发环境
向量的点乘和叉乘
Android 之窗口小部件高级篇--App Widget 之 RemoteViews
Protocol Buffer技术详解(语言规范)
2016SDAU课程练习一 1012
常见视频文件的编码方式和封装格式
自定义EditText的两种方法