奋战聊天机器人(一)初识NLTK库

来源:互联网 发布:华为交换机 端口详解 编辑:程序博客网 时间:2024/06/15 08:02

一、初识NLTK库

NLTK是一个比较优秀的自然语言处理工具包,是我们聊天机器人需要工作中较为重要的

1. NLTK库安装

Step 1: pip安装

pip install nltk

Step 2:执行python并下载书籍

import nltknltk.download()

Step 3:选择book后点Download开始下载

  • 选择book,然后点Download开始下载

Step 4:下载完成后

加载全部书籍,并显示其中一本书的标题

from nltk.book import *print('--', text1)

2. 搜索文本

Step 1:显示25个包含“great”的语句上下文

text1.concordance("great")

Step 2: 搜索相关词

text1.similar("ship")

输入了ship,查找了boat,都是近义词

Step 3:查看某个词在文章里出现的位置

text4.dispersion_plot(["citizens","democracy","freedom","duties","America"])

3.词统计

  • len(text1):返回总字数
  • set(text1):返回文本的所有词集合
  • len(set(text4)):返回文本总词数
  • text4.count(“is”):返回“is”这个词出现的总次数
  • FreqDist(text1):统计文章的词频并按从大到小排序存到一个列表里
  • fdist1 = FreqDist(text1);fdist1.plot(50, cumulative=True):统计词频,并输出累计图像(纵轴表示累加了横轴里的词之后总词数是多少)
  • fdist1.hapaxes():返回只出现一次的词
  • text4.collocations():频繁的双联词

参考资料来源:http://www.shareditor.com/

原创粉丝点击