R语言文本分词以,词频统计,云图显示的简洁方法
来源:互联网 发布:大数据 挽回流失客户 编辑:程序博客网 时间:2024/05/16 16:57
安装相应的包
install.packages('jiebaR')install.packages('wordcloud')
程序代码(RStudio平台上)
#对于不同类型结构的数据,导入的方式要有所选择!!! file <-readLines("C:\\Users\\Administrator\\Documents\\R\\data.txt",encoding ="gbk") seg <- qseg[file] #使用qseg类型分词,并把结果保存到对象seg中seg <- table(seg) #统计词频seg <- seg[!grepl('[0-9]+',names(seg))] #去除数字length(seg) #查看处理完后剩余的词数seg <- sort(seg, decreasing = TRUE)[1:100] #降序排序,并提取出现次数最多的前100个词语seg #显示如下图1 bmp("comment_cloud.bmp", width = 500, height = 500) #设置图片形成效果 par(bg = "black")wordcloud(names(seg), seg, colors = rainbow(100), random.order=F) #云图显示如下图2dev.off() #关闭词云
图1:
图2:
附:
实验数据 data.txt
#海澜之家双11预售# 九亿少女们看了我们页面吗满屏都是你们的梦先生因为双11华丽丽地来了大额优惠券、定金翻倍、3倍膨胀专区现在就可以抢起来了!! ????,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"男人一辈子最帅的时候就是穿上稳重的西装迎娶最爱的她给她最暖的安全感 ????,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"#踮起脚尖都亲不到女神# 你与女神之间的零距离只差一件大衣! ????,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"#海澜之家双11预售# 是不是觉得林帅在盯着你看?是不是觉得他这样看你,你特么开心?其实他在说今日3倍膨胀专区可以抢起来啦!! ????,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"种草一款格纹保暖加绒衬衫色织面料 柔软手感外搭羽绒,大衣轻松hold住时尚定金翻倍中 ????,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"#偶遇林更新# 全世界都在偶遇林更新你们知道在海澜之家有满屏的林更新吗? ????,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"海澜之家官方旗舰店发布真爱粉召集令,快来打call赢取50元无门槛优惠券吧! O网页链接 ????,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"#海澜之家双11预售# Good morning!快!快瞅瞅!!今日3倍定金膨胀专区里有你喜欢的款式吗?老时间10点整!!前200名!!! ????,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"无锡的气温他的衣装告诉你你懂了吗? ????,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"霜降已至早晚寒意阵阵选一款轻薄羽绒服简洁大方舒适保暖休闲有型温暖自在...展开全文c,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"#今日霜降#霜降至天渐冷你的腹部、膝盖、足部等细节部位注意保暖! ????,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"#海澜之家双11预售#今日是个开心的日子因为你看中的一款衣服正好3倍膨胀的机会啦10点整!!前200名!!还等什么??...展开全文c,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"周末就是弥补无法陪伴家人的时间,今天你陪伴家人了吗? ????,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"Get时髦单品你猜这是T恤?还是毛衫呢? ????,"如何靠一件卫衣穿出与众不同?很简单选择一款假两件,连帽时髦又个性 ????"
注意:
1,关于数据的来源获取方式,自己可以百度下数据获取方法;
2,文本分词之后还有进一步的去掉停止词等一些杂质的操作,
上面的“qseg” 是 “jiebaR” 包里面的一个分词函数,可以直接调用!
3,还有其它的方法以后学习之后再进行介绍!~!~
阅读全文
0 0
- R语言文本分词以,词频统计,云图显示的简洁方法
- 基于Python和R语言的分词/词频统计/词云图
- Python生成词云图,TIIDF方法文本挖掘: 词频统计,词云图
- 【java】以词频升序统计文本词频
- 分词及词云图绘制-R语言
- 用R进行文本挖掘与分析--软件分词统计词频
- C语言实现英文文本词频统计
- 利用word分词来对文本进行词频统计
- 分词统计词频
- R语言文本挖掘-分词
- 【实战】词频统计及词云图制作
- R语言的学习-词云图生成
- R语言文本挖掘展示:画词云图
- HashMap统计词频的方法
- python统计词频的方法
- R语言:词云图
- R语言の云图
- java进行文本单词的词频统计
- makefile的使用
- maven项目改别名
- aliyun阿里云Maven仓库地址——加速你的maven构建
- 数据结构实验之二叉树八:(中序后序)求二叉树的深度
- 说说TLS协议里的wireshark抓包内容(二)
- R语言文本分词以,词频统计,云图显示的简洁方法
- SpringMvc+Spring+mybatis整合
- timer
- jquery层级选择器;jquery的css() 方法
- 值传递与引用传递
- Win7 U盘安装Ubuntu16.04 双系统详细教程
- 【八】机器学习之路——梯度下降法python实现
- 会员模块 phpcms
- Filter-Policy工具