nltk练习题

来源:互联网 发布:月薪8000能招到java 编辑:程序博客网 时间:2024/06/05 07:16
1.制作《理智与情感》中四个主角:Elinor,Marianne,Edward 和Willoughby 的分布图。
在这部小说中关于男性和女性所扮演的不同角色,你能观察到什么?你能找出一对夫妻

吗?

text2.dispersion_plot(["Elinor", "Marianne", "Edward", "Willoughby"])

2.使用的语法my_sent = ["My", "sent"],定义一个词链表变量my_sent(用你
自己的词或喜欢的话)。
a. 使用' '.join(my_sent)将其转换成一个字符串。
b. 使用split()在你指定的地方将字符串分割回链表。

"".join(my_sent) my_string.split()

3.我们已经看到如何用词链表表示一个句子,其中每个词是一个字符序列。sent1[2][2]
代表什么意思?
phrase1=["ni","hao","ma"] phrase1[1][0] 'h'
4.聊天语料库(text5)中查找所有以字母b 开头的词。
按字母顺序显示出来。

 sorted([w for w in set(text5) if w.startswith('b')])

5.使用text9.index()查找词sunset 的索引值。你需要将这个词作为一个参数插入到圆
括号之间。通过尝试和出错的过程中,找到完整的句子中包含这个词的切片。

text9.index("sunset")629text9[620:640]
6.使用for和if语句组合循环遍历《巨蟒和圣杯》(text6)的电影 
剧本中的词,输出所有的大写词,每行输出一个。

for word in [w for w in text6 if w.isupper()]:          print ("%s;"%word,)
7.除了首字母外是全部小写字母的词(即titlecase)

list(set([w for w in text6 if w.istitle()]))

8:set(sent3) < set(text1)

用来测试词汇表sent3是否为text1子集。