R语言文本分词以,词频统计,云图显示的简洁方法

来源:互联网 发布:大数据 挽回流失客户 编辑:程序博客网 时间:2024/05/16 16:57

安装相应的包

install.packages('jiebaR')install.packages('wordcloud')



程序代码(RStudio平台上)

#对于不同类型结构的数据,导入的方式要有所选择!!! file <-readLines("C:\\Users\\Administrator\\Documents\\R\\data.txt",encoding ="gbk")   seg <- qseg[file]    #使用qseg类型分词,并把结果保存到对象seg中seg <- table(seg) #统计词频seg <- seg[!grepl('[0-9]+',names(seg))] #去除数字length(seg)      #查看处理完后剩余的词数seg <- sort(seg, decreasing = TRUE)[1:100] #降序排序,并提取出现次数最多的前100个词语seg           #显示如下图1   bmp("comment_cloud.bmp", width = 500, height = 500)       #设置图片形成效果     par(bg = "black")wordcloud(names(seg), seg, colors = rainbow(100), random.order=F)     #云图显示如下图2dev.off()     #关闭词云

图1:



图2:



附:

实验数据  data.txt

#海澜之家双11预售# 九亿少女们看了我们页面吗满屏都是你们的梦先生因为双11华丽丽地来了大额优惠券、定金翻倍、3倍膨胀专区现在就可以抢起来了!! ????,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"男人一辈子最帅的时候就是穿上稳重的西装迎娶最爱的她给她最暖的安全感 ????,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"#踮起脚尖都亲不到女神# 你与女神之间的零距离只差一件大衣! ????,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"#海澜之家双11预售# 是不是觉得林帅在盯着你看?是不是觉得他这样看你,你特么开心?其实他在说今日3倍膨胀专区可以抢起来啦!! ????,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"种草一款格纹保暖加绒衬衫色织面料 柔软手感外搭羽绒,大衣轻松hold住时尚定金翻倍中 ????,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"#偶遇林更新# 全世界都在偶遇林更新你们知道在海澜之家有满屏的林更新吗? ????,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"海澜之家官方旗舰店发布真爱粉召集令,快来打call赢取50元无门槛优惠券吧! O网页链接 ????,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"#海澜之家双11预售# Good morning!快!快瞅瞅!!今日3倍定金膨胀专区里有你喜欢的款式吗?老时间10点整!!前200名!!! ????,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"无锡的气温他的衣装告诉你你懂了吗? ????,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"霜降已至早晚寒意阵阵选一款轻薄羽绒服简洁大方舒适保暖休闲有型温暖自在...展开全文c,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"#今日霜降#霜降至天渐冷你的腹部、膝盖、足部等细节部位注意保暖! ????,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"#海澜之家双11预售#今日是个开心的日子因为你看中的一款衣服正好3倍膨胀的机会啦10点整!!前200名!!还等什么??...展开全文c,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"周末就是弥补无法陪伴家人的时间,今天你陪伴家人了吗? ????,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"Get时髦单品你猜这是T恤?还是毛衫呢? ????,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"


注意:

1,关于数据的来源获取方式,自己可以百度下数据获取方法;

2,文本分词之后还有进一步的去掉停止词等一些杂质的操作,

上面的“qseg”   是  “jiebaR” 包里面的一个分词函数,可以直接调用!  

3,还有其它的方法以后学习之后再进行介绍!~!~






原创粉丝点击