NLTK查看

来源:互联网 发布:ce6.7源码 编辑:程序博客网 时间:2024/06/07 19:12

nltk.sent_tokenize(text) #对文本按照句子进行分割

nltk.word_tokenize(sent) #对句子进行分词,当输入的是包含多个句子的文档时,返回列表,每个列表包含对应句子的分词结果。

for word in word_tokenize(document):            texts_tokenized_tmp += jieba.analyse.extract_tags(word,10)        texts_tokenized.append(texts_tokenized_tmp)  
document包含很多个句子,那么word_tokenize(document)返回一个列表,表示每个句子为单位的分词结果。所以for循环时,变量word其实是很多个词。jieba.analyse.extract_tags(word, 10)是从word中根据TF-IDF顺序选取10个得分最高的,目的是过滤低词频单词。

0 0
原创粉丝点击