R语言文本分析(1)

来源:互联网 发布:有网址怎么搜淘宝店 编辑:程序博客网 时间:2024/05/17 23:57

R语言文本分析(1)

R语言在数据挖掘中应用广泛,并有越来越火的趋势。R语言进行文本挖掘也是相当好使。作为一个R语言新手,追随着众多牛人的脚步,尝试使用R语言进行文本挖掘分析,过程应是充满艰辛,道路曲折坎坷之处Write down以记录之。

我从Text Analysis with R for Students of Literature (by Matthew L. Jockers)开始,一步一步走起~

环境配置

R的安装与配置教程很多,不提。

文本分析第一个尝试

简单的导入、分割、查看以及分析尝试。

setwd("R/tm/1st/")text <- scan(file = "../data/test.txt", what="character", sep = "\n")start.metadata<- text[1:start -1]end.metadata <- text[(end+1):length(text)]metadata <- c(start.metadata, end.metadata)novel.lines <- text[start:end]novel <- paste(novel.lines, collapse = " ")novel.lower <- tolower(novel)moby.words.l <- strsplit(novel.lower, "\\W") # split wordsmoby.words <- unlist(moby.words.l)not.blanks <- which(moby.words != "")moby.words <- moby.words[not.blanks]length(moby.words[which(moby.words=="whale")])
0 0
原创粉丝点击