R语言文本分析(2)
来源:互联网 发布:张家港网络ankin 编辑:程序博客网 时间:2024/05/16 12:14
R语言文本分析(2)
在获得了数据之后,通常需要对文本中的每个词出现的频次进行统计,以便获得出现频次较高的词汇。当然,在英文中,冠词以及be动词可能是出现次数最多的一部分词汇了,后续的学习和处理中通常需要将这部分的词汇移除之后再进行处理。
初学者,先统计之,后续处理以待明天。
下面代码,简单统计频次,进行排序,找出指定词汇出现的频次,绘制在文本中出现的时间,并根据章节对novel进行分节处理。
代码来自上篇提到的书。
# 使用table统计每个单词出现的频数moby.freqs <- table(moby.words)# 使用sort将单词按照出现的频数由大到小进行排序sorted.moby.freqs <- sort(moby.freqs, decreasing = TRUE)head(sorted.moby.freqs)# 使用plot绘制图形plot(sorted.moby.freqs[1:10])sorted.moby.freqs["he"]sorted.moby.freqs["she"]sorted.moby.freqs["him"]sorted.moby.freqs["her"]moby.words[4:6]sorted.moby.rel.freqs <- 100*(sorted.moby.freqs/sum(sorted.moby.freqs))plot(sorted.moby.rel.freqs[1:10], type="b", xlab="Top Ten Words", ylab="Percentage of Full Text", xaxt ="n")axis(1,1:10, labels=names(sorted.moby.rel.freqs [1:10]))n.time <- seq(1:length(moby.words))whales <- which(moby.words == "whale")w.count <- rep(NA, length(n.time))w.count[whales] <- 1plot(w.count, main="Dispersion Plot of `whale' in Moby Dick", xlab="Novel Time", ylab="whale", type="h", ylim=c(0,1), yaxt='n')chapter.position <- grep("^CHAPTER \\d", novel.lines)novel.lines[chapter.position]
0 0
- R语言文本分析(2)
- R语言-文本分析
- R语言文本分析(1)
- R语言文本分析(3)
- R语言文本分析(4)
- R语言文本分析(5)
- R语言文本分析篇
- R语言の文本分析
- 红楼梦文本分析-R语言
- R语言文本分析问题
- R语言:实现文本分析实例(基础篇)
- 【R语言】文本挖掘-情感分析
- [R语言]文本分类(2)
- R语言文本分类
- R语言做文本挖掘 Part5情感分析
- R语言做文本挖掘 Part5情感分析
- R语言做文本挖掘 Part5情感分析
- R文本情感分析(3)
- 重新学javaweb---文件下载
- Fedora 17 系统安装
- 图像特效---连环画滤镜
- 异星人
- AYITACM2016省赛第四周 j-最短路(Dijkstra算法)
- R语言文本分析(2)
- hibernate中关系操作(inverse)和级联操作(cascade)详解
- Jquery换肤
- Fedora 18 系统安装
- String的split()函数的用法总结
- 第九周第三项目——数组类
- uva 1225 - Digit Counting
- 1-(2)
- Fedora 19 系统安装