R语言的微博数据处理

来源:互联网 发布:淘宝金币换流量 编辑:程序博客网 时间:2024/05/17 08:32

用R语言处理微博数据,用到TM包,rJava包,slam包,自己还对李舰老师的Rwordseg进行了反编译,将最新的ansj弄了进去。

首先来进行下微博的处理,我将每一个用户的微博放在一个文档中,文档名为用户id+.txt。

首先导入需要用的包:

##################导入相关包,设置workspace#######################
library(tm)
library(rJava)
library(slam)
library(Rwordseg)
setwd("D:/ps/")

紧接着导入数据

#导入数据
ovid <- Corpus(DirSource("D:/weibodata/temp1/",encoding="UTF-8"),
               readerControl = list(language = "CHS"))

之后要对每一条微博进行处理,正则匹配去掉@,去掉标点,去掉里面出现的图片什么的

s1 <- gsub('<a(.+?)>|</a>','',ovid[[1]][[28]])
s1 <- gsub('<i(.+?)>|</i>','',s1)
s1 <- gsub('<em(.+?)>|</em>','',s1)
s1 <- gsub('[[:punct:][:digit:]a-zA-Z\\-]+'," ",s1)

s1 <- gsub('@([0-9a-zA-Z\u4e00-\u9fa5_-]+)','',s1)

对于去掉@的这部分匹配,其实分为两部分,如果你处理的是twitter语料,你可能需要第一条,如果是中文预料需要第二条。而上面的一行是中英文都可以去掉的。

s3 <- gsub('@([a-zA-z0-9_]+)', '', s4)
s3 <- gsub('(^|[^@\\w])@(\\w{1,15})\\b','',s3)

0 0
原创粉丝点击