R语言文本分析(4)

来源:互联网 发布:微控加群软件 编辑:程序博客网 时间:2024/06/06 01:30

R语言文本分析(4)

经查,上次做的代码中myCorpus <- tm_map(myCorpus, removeURL)似乎有问题,具体情况尚不清楚。今天在做term-document matrix生成的时候也是一样,出现上次的问题。将removeURL这段代码去掉之后可以正常生成TDM矩阵了。

今天将之前建立的文档生成一个项目文档矩阵(也可以生成文档项目矩阵,行列转置),统计项目出现频次,绘制词云~

# 建立一个项目-文档矩阵myTdm <- TermDocumentMatrix(myCorpus2)# 找出出现次数10次以上的项目findFreqTerms(myTdm, lowfreq = 10)# 统计每个项目出现的次数termFrequency <- rowSums(as.matrix(myTdm))# 出现次数在10次以上的项目termFrequency <- subset(termFrequency, termFrequency >= 10)# 绘图library(ggplot2)# qplot(names(termFrequency), termFrequency, geom = "bar", xlab = "Terms") + coord_flip()barplot(termFrequency, las=2)# 找出相关性大于0.25的项目findAssocs(myTdm, "mine", 0.25)# 词云library(wordcloud)m <- as.matrix(myTdm)# 计算单词出现的频率并降序排列之wordFreq <- sort(rowSums(m), decreasing = TRUE)# 生成词云set.seed(1)grayLevels <- gray((wordFreq + 10) / (max(wordFreq) + 10))wordcloud(words = names(wordFreq), freq = wordFreq, min.freq = 3, random.order = F, colors = grayLevels)
0 0