R语言文本挖掘-分词
来源:互联网 发布:淘宝上门安装服务申请 编辑:程序博客网 时间:2024/04/30 15:18
#导入数据
#读入数据
housedetail<-read.csv("C:\\Users\\PC\\Desktop\\lianjia.csv",stringsAsFactors = F)
#整理数据,数据处理,取子集
housetitle<-housedetail[,1]
#数据分析
#函数:实现字符串的连接,并去除数字,标点
combindString <- function(s){
tem <- ''
for (i in 1:length(s)) tem <- paste(tem,s[i],sep = "")
tem <- gsub("[0-9 ,、!?。]","",tem)
tem
}
#获取 所有的标题描述并连接
title<-combindString(housetitle)
#分词
library(jiebaRD)
library(jiebaR)
analyzer<-worker()
results<-(analyzer<=title)
#分好的词是一个向量,我们需要进行词频统计
#可以通过制造一个数据框,分组数数的方法
#创建包含词汇、词频的数据框
wordseg<-data.frame("词汇"=results,stringsAsFactors = F)
wordseg$词频<-1
wordseg
#使用plyr包中的函数进行分组统计
library(plyr)
#求和
sumBygroup<-function(df)sum(df[,2])
#分组统计
groupstatis<-ddply(wordseg,.(词汇),sumBygroup)
#查看分组后的结果?
View(head(groupstatis,30))
#更改列名
names(groupstatis)<-c("词汇","词频")
#为了避免小概率的词出现太多,我们找出词频
#大于5的词进行绘图
groupstatis<-subset(groupstatis,词频>5)
#绘图
#导入包
library(RColorBrewer)
library(wordcloud)
#定义颜色向量
color<-c("#FF8C00","purple","orange","brown","green")
#调用词云函数
par(mar = c(0, 0, 3, 0), bg = "black")
wordcloud(groupstatis$词汇,groupstatis$词频,min.freq=5,max.words=200,random.order = F,colors = color )
#读入数据
housedetail<-read.csv("C:\\Users\\PC\\Desktop\\lianjia.csv",stringsAsFactors = F)
#整理数据,数据处理,取子集
housetitle<-housedetail[,1]
#数据分析
#函数:实现字符串的连接,并去除数字,标点
combindString <- function(s){
tem <- ''
for (i in 1:length(s)) tem <- paste(tem,s[i],sep = "")
tem <- gsub("[0-9 ,、!?。]","",tem)
tem
}
#获取 所有的标题描述并连接
title<-combindString(housetitle)
#分词
library(jiebaRD)
library(jiebaR)
analyzer<-worker()
results<-(analyzer<=title)
#分好的词是一个向量,我们需要进行词频统计
#可以通过制造一个数据框,分组数数的方法
#创建包含词汇、词频的数据框
wordseg<-data.frame("词汇"=results,stringsAsFactors = F)
wordseg$词频<-1
wordseg
#使用plyr包中的函数进行分组统计
library(plyr)
#求和
sumBygroup<-function(df)sum(df[,2])
#分组统计
groupstatis<-ddply(wordseg,.(词汇),sumBygroup)
#查看分组后的结果?
View(head(groupstatis,30))
#更改列名
names(groupstatis)<-c("词汇","词频")
#为了避免小概率的词出现太多,我们找出词频
#大于5的词进行绘图
groupstatis<-subset(groupstatis,词频>5)
#绘图
#导入包
library(RColorBrewer)
library(wordcloud)
#定义颜色向量
color<-c("#FF8C00","purple","orange","brown","green")
#调用词云函数
par(mar = c(0, 0, 3, 0), bg = "black")
wordcloud(groupstatis$词汇,groupstatis$词频,min.freq=5,max.words=200,random.order = F,colors = color )
0 0
- R语言文本挖掘-分词
- R语言做文本挖掘 Part2分词处理
- R语言文本挖掘之jieba分词与wordcloud展现
- R语言做文本挖掘 Part2分词处理
- 文本挖掘系统的实现之R语言分词
- R语言做文本挖掘 Part2分词处理
- R语言做文本挖掘 Part2分词处理
- R语言文本挖掘(1):分词(Rwordseg)
- 【R文本挖掘】中文分词Rwordseg
- 【R文本挖掘】中文分词Rwordseg
- 【R文本挖掘】中文分词Rwordseg
- R文本挖掘之二分词
- R文本挖掘-中文分词Rwordseg
- R语言做文本挖掘
- R语言之文本挖掘
- R语言-文本挖掘例子
- R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
- 用R进行文本挖掘与分析:分词、画词云【2】
- winfrom之图片PictureBox显示滚动条
- 前端开发中的地理定位问题小总结
- 论文解析:人脸检测中级联卷积神经网络的联合训练
- 测试团队所处的阶段和水平
- Charles抓包工具破解和https抓包问题解决:中文乱码,Android抓包https乱码
- R语言文本挖掘-分词
- javascript(触发此事件,跳到指定action或页面)
- java IO流(File类的使用)
- Google Dapper,大规模分布式系统的跟踪系统
- JVM内存模型及垃圾回收算法
- 经纬度和行列号的转换工具
- Iterator接口
- 访问图像内像素的两种常用方法
- UVALive