R语言的微博数据处理
来源:互联网 发布:淘宝金币换流量 编辑:程序博客网 时间:2024/05/17 08:32
用R语言处理微博数据,用到TM包,rJava包,slam包,自己还对李舰老师的Rwordseg进行了反编译,将最新的ansj弄了进去。
首先来进行下微博的处理,我将每一个用户的微博放在一个文档中,文档名为用户id+.txt。
首先导入需要用的包:
##################导入相关包,设置workspace#######################
library(tm)
library(rJava)
library(slam)
library(Rwordseg)
setwd("D:/ps/")
紧接着导入数据
#导入数据
ovid <- Corpus(DirSource("D:/weibodata/temp1/",encoding="UTF-8"),
readerControl = list(language = "CHS"))
之后要对每一条微博进行处理,正则匹配去掉@,去掉标点,去掉里面出现的图片什么的
s1 <- gsub('<a(.+?)>|</a>','',ovid[[1]][[28]])
s1 <- gsub('<i(.+?)>|</i>','',s1)
s1 <- gsub('<em(.+?)>|</em>','',s1)
s1 <- gsub('[[:punct:][:digit:]a-zA-Z\\-]+'," ",s1)
s1 <- gsub('@([0-9a-zA-Z\u4e00-\u9fa5_-]+)','',s1)
对于去掉@的这部分匹配,其实分为两部分,如果你处理的是twitter语料,你可能需要第一条,如果是中文预料需要第二条。而上面的一行是中英文都可以去掉的。
s3 <- gsub('@([a-zA-z0-9_]+)', '', s4)
s3 <- gsub('(^|[^@\\w])@(\\w{1,15})\\b','',s3)
- R语言的微博数据处理
- R语言微博数据处理(2)
- R语言数据处理(一)
- r语言数据处理(三)
- R语言日期数据处理
- R 语言-数据处理基础
- R语言-数据处理
- R语言数据处理详解
- R语言-数据处理包 dplyr
- R语言-数据处理包 dplyr
- R语言数据处理(1)
- R语言数据处理(2)
- R语言之数据处理难题的一套解决方案
- 走进R语言的世界——简单数据处理
- 【R语言 数据处理】R做数据处理中的小技巧
- 【R语言 数据处理】R语言数据变形melt用法
- R语言___数据处理1向量
- R语言__数据处理2列表
- TimesTen学习系列之一:TT的迁移和备份
- 面向对象第十八课,回调的实现,模板方法模式
- UVA 784-Maze Exploration(dfs)
- iOS 面向对象思想之封装
- 是男人就坚持20秒—python版本
- R语言的微博数据处理
- DNS故障始末以及分析,DNS劫持详解,什么是DNS污染
- POJ 题目2226 Muddy Fields(最小点覆盖)
- 小寒假第六天总结
- 没有手机的第一天
- HDU 3294 Girls' research (Manacher算法 + 记录区间)
- 搭建一个wordpress网站需要做哪些工作
- Uva 489 - Hangman Judge
- Sticks