NLTK查看
来源:互联网 发布:ce6.7源码 编辑:程序博客网 时间:2024/06/07 19:12
nltk.sent_tokenize(text) #对文本按照句子进行分割
nltk.word_tokenize(sent) #对句子进行分词,当输入的是包含多个句子的文档时,返回列表,每个列表包含对应句子的分词结果。
for word in word_tokenize(document): texts_tokenized_tmp += jieba.analyse.extract_tags(word,10) texts_tokenized.append(texts_tokenized_tmp)document包含很多个句子,那么word_tokenize(document)返回一个列表,表示每个句子为单位的分词结果。所以for循环时,变量word其实是很多个词。jieba.analyse.extract_tags(word, 10)是从word中根据TF-IDF顺序选取10个得分最高的,目的是过滤低词频单词。
0 0
- NLTK查看
- NLTK
- nltk
- 在使用nltk的时候,怎样在wordnet中查看一个词的意思?
- 安装NLTK
- 安装NLTK
- nltk function
- nltk词性
- nltk应用
- nltk-1
- NLTK下载
- NLTK使用
- nltk学习
- nltk入门
- nltk学习
- nltk练习题
- nltk断句
- nltk入门
- Python -- 获取文件所在目录和文件名
- 为什么手机充电这么慢?别用错数据线
- 编译错误—Linux 配置文件要区分大小写
- boost
- 利用sqoop将hive和mysql数据互导简单实验
- NLTK查看
- 第六天、打渔晒网问题
- 使用docker快速构建rails开发环境
- 向量的点乘和叉乘
- Android 之窗口小部件高级篇--App Widget 之 RemoteViews
- Protocol Buffer技术详解(语言规范)
- 2016SDAU课程练习一 1012
- 常见视频文件的编码方式和封装格式
- 自定义EditText的两种方法