R语言的微博数据处理

来源：互联网发布：淘宝金币换流量编辑：程序博客网时间：2024/05/17 08:32

用R语言处理微博数据，用到TM包，rJava包，slam包，自己还对李舰老师的Rwordseg进行了反编译，将最新的ansj弄了进去。

首先来进行下微博的处理，我将每一个用户的微博放在一个文档中，文档名为用户id+.txt。

首先导入需要用的包：

##################导入相关包，设置workspace#######################
library(tm)
library(rJava)
library(slam)
library(Rwordseg)
setwd("D:/ps/")

紧接着导入数据

#导入数据
ovid <- Corpus(DirSource("D:/weibodata/temp1/",encoding="UTF-8"),
readerControl = list(language = "CHS"))

之后要对每一条微博进行处理，正则匹配去掉@，去掉标点，去掉里面出现的图片什么的

s1 <- gsub('<a(.+?)>|</a>','',ovid[[1]][[28]])
s1 <- gsub('<i(.+?)>|</i>','',s1)
s1 <- gsub('<em(.+?)>|</em>','',s1)
s1 <- gsub('[[:punct:][:digit:]a-zA-Z\\-]+'," ",s1)

s1 <- gsub('@([0-9a-zA-Z\u4e00-\u9fa5_-]+)','',s1)

对于去掉@的这部分匹配，其实分为两部分，如果你处理的是twitter语料，你可能需要第一条，如果是中文预料需要第二条。而上面的一行是中英文都可以去掉的。

s3 <- gsub('@([a-zA-z0-9_]+)', '', s4)
s3 <- gsub('(^|[^@\\w])@(\\w{1,15})\\b','',s3)

0 0