R语言文本分析(3)
来源:互联网 发布:网页分类算法 编辑:程序博客网 时间:2024/06/05 18:37
R语言文本分析(3)
跟着《R and Data Mining: Examples and Case Studies》中Text Mining节写代码。前面的步骤还算顺利,心中窃喜。但从stem completion就开始出错。尚未找到解决办法。
代码抄上:
library(twitteR)load("rdmTweets.RData")df <- do.call("rbind", lapply(rdmTweets, as.data.frame))dim(df)head(df)library(tm)myCorpus <- Corpus(VectorSource(df$text)) # convert to lower case myCorpus <- tm_map(myCorpus, content_transformer(tolower))# remove punctuationmyCorpus <- tm_map(myCorpus, removePunctuation)# remove numbersmyCorpus <- tm_map(myCorpus, removeNumbers)# remove UrlsmyCorpus <- tm_map(myCorpus, removeURL)# my stop wordsmyStopwords <- c(stopwords('english'), "avaialbe", "via")myStopwords <- setdiff(myStopwords, c("r", "big"))# remove stopwordsmyCorpus <- tm_map(myCorpus, removeWords, myStopwords)myCorpusCopy <- myCorpus# stem wordsmyCorpus <- tm_map(myCorpus, stemDocument)inspect(myCorpus[11:15])for(i in 11:15) { cat(paste("[[",i,"]]", sep = "")) writeLines(strwrap(myCorpus[[i]], width = 73))}# stem completionmyCorpus <- tm_map(myCorpus, stemCompletion, dictionary=myCorpusCopy)
至此,开始出错,错误信息为:
> myCorpus <- tm_map(myCorpus, stemCompletion, dictionary=myCorpusCopy)Warning message:In mclapply(content(x), FUN, ...) : all scheduled cores encountered errors in user code
求助stackoverflow后找到以下几个Solutions:
- Solution 1:
myCorpus <- tm_map(myCorpus, tolower)
替换为myCorpus <- tm_map(myCorpus, content_transformer(tolower))
结果: 无效。 Solution 2
# Stem completion
myCorpus <- tm_map(myCorpus, stemCompletion, dictionary = myCorpusCopy)
替换为:
# Stem completionstemCompletion_mod <- function(x,dict) { PlainTextDocument(stripWhitespace(paste(stemCompletion(unlist(strsplit(as.character(x)," ")), type = "shortest"), sep = "", collapse = " ")))}# apply workaround function myCorpus <- lapply(myCorpus, stemCompletion_mod, myCorpusCopy)
结果:无效。
0 0
- R语言文本分析(3)
- R语言-文本分析
- R语言文本分析(1)
- R语言文本分析(2)
- R语言文本分析(4)
- R语言文本分析(5)
- R语言文本分析篇
- R语言の文本分析
- 红楼梦文本分析-R语言
- R语言文本分析问题
- R语言:实现文本分析实例(基础篇)
- R文本情感分析(3)
- 【R语言】文本挖掘-情感分析
- [R语言]文本分类(3)
- R语言文本分类
- R语言做文本挖掘 Part5情感分析
- R语言做文本挖掘 Part5情感分析
- R语言做文本挖掘 Part5情感分析
- HDU 2093 考试排名 (结构体+排序+简单但麻烦)
- 字符串的全排列组合(去重复)的相关问题
- 剑指Offer——入栈与出栈序列
- java 中的内部类 解释
- final关键字
- R语言文本分析(3)
- Android项目之HiTomato源码
- 猴子吃桃问题的解法以及分析
- Oracle dblink详解
- android开发中Listview中显示不同的视图布局
- Linux 异步IO
- Nignx负载均衡存在的seesion问题
- 第一章习题
- nyoj 495 少年 DXH