NLTK使用
来源:互联网 发布:文化部对网络直播 编辑:程序博客网 时间:2024/05/20 13:15
Sentence Tokenize(分割句子)
1、直接使用sent_tokenize
from sklearn.datasets import fetch_20newsgroupsnews = fetch_20newsgroups(subset='train')X,y = news.data,news.targettext = X[0]from nltk.tokenize import sent_tokenizesent_tokenize_list = sent_tokenize(text)print(sent_tokenize_list)2、使用nltk.tokenize.punkt中包含了很多预先训练好的tokenize模型。
from sklearn.datasets import fetch_20newsgroupsnews = fetch_20newsgroups(subset='train')X,y = news.data,news.targetprint(X[0])news = X[0]from bs4 import BeautifulSoupimport nltk,renews_text = BeautifulSoup(news).get_text()print(news_text)tokenizer=nltk.data.load('tokenizers/punkt/english.pickle')raw_sentences=tokenizer.tokenize(news_text)print(raw_sentence)
Word Tokenize(分割单词)
1.使用word_tokenize
from nltk.tokenize import word_tokenizetext='The cat is walking in the bedroom.'sent_tokenize_list = word_tokenize(text)print(sent_tokenize_list)
Part-Of-Speech Tagging and POS Tagger(对词进行标注)
from nltk.tokenize import word_tokenizetext='The cat is walking in the bedroom.'sent_tokenize_list = word_tokenize(text)print(sent_tokenize_list) pos_tag = nltk.pos_tag(sent_tokenize_list)print(pos_tag)
Stemming(提取词干)
import nltksent1='The cat is walking in the bedroom.'sent2='A dog was running across the kitchen.'tokens_1=nltk.word_tokenize(sent1)print (tokens_1)stemmer = nltk.stem.PorterStemmer()stem_1 = [stemmer.stem(t) for t in tokens_1]print(stem_1)
0 0
- NLTK使用
- 使用C++调用NLTK
- NLTK使用总结
- NLTK
- nltk
- Python安装nltk使用Ngram
- NLTK中使用Stanford parser
- nltk中文语料库使用总结
- 使用NLTK计算word的相似度
- Python 使用nltk获取TF-IDF
- Python 使用nltk计算词的搭配
- Python的Nltk包安装使用
- 安装和使用NLTK分词和去停词
- 自然语言处理工具 nltk 安装使用
- 使用Python+NLTK实现英文单词词频统计
- 安装和使用NLTK分词和去停词
- 使用Python+NLTK实现英文单词词频统计
- Python在NLTK下使用stanfordNLP
- sql的aggregate
- 简单聊聊8583
- windows下怎么判断一个程序是否卡死了?例如:导入oracle的pde文件时,进度条不走了,怎么判断还在进行输入导入?
- AndroidUI:PopupMenu
- UIScrollView复用节点示例
- NLTK使用
- 论文笔记| 几分钟看完ResNet的融合特性及冗余性分析的三篇文章
- HTTP学习笔记(一)
- Android Studio插件整理
- 关于console.log()在IE浏览器的兼容模式下不可用的问题
- 奇异值分解和特征值分解
- 石子合并-环
- 指针与数组名
- 使用fluentd监控docker日志时加入容器id