R实战:【统计分析】词频统计

来源:互联网 发布:品质退款率被淘宝管控 编辑:程序博客网 时间:2024/05/18 01:14

R实战系列专栏

本文代码来自《R语言编程艺术》

本文代码和使用的文本文件百度云下载

本文使用的文本文件为《雾都孤儿》英文版,其中文本文件中经过处理只有英文单词,大写也已经转换成小写。

源代码:

setwd("D:/R/")getwd()txt<-scan("OliverTwist.txt","") #read all words in file to txtwl<-list()for(i in 1:length(txt)){wrd<-txt[i]wl[[wrd]]<-c(wl[[wrd]],i) # for every word create a list with location list}nms<-names(wl)sn<-sort(nms)#wl[sn] freqs<-sapply(wl,length) #for every element use length() ,and result is c([[i]] length)wlOrder<-wl[order(freqs)]index<-(length(wlOrder)-10):length(wlOrder)top10<-wlOrder[index]sapply(top10,length)barplot(sapply(top10,length))


原创粉丝点击