【R文本挖掘】中文分词Rwordseg

来源:互联网 发布:python用来做什么 编辑:程序博客网 时间:2024/05/09 16:31

下载安装方法:

install.packages("Rwordseg", repos = "http://R-Forge.R-project.org")

注意在之前要安装好JAVA,并配置后JAVA环境

 

1.      分词操作:

1segmentCN(strwords)

> segmentCN("你好北京")
[1] "你好" "北京"

 

2)如果输入参数是字符向量,则返回列表

> segmentCN(c("你好北京","今天是个好天气"))

[[1]]

[1] "你好" "北京"

[[2]]

[1] "今天" ""   ""   ""   "天气"

 

3returnType参数默认是输出向量或列表,若设置成”tm”,则可以输出tm格式的字符串

4strwords还可以是某个文本文件的路径,并且可用outfile参数指输出,默认是原路径下。

5blocklines 表示每次读入的行数,默认是1000

2.词典管理

词典支持普通格式的文本词典和搜狗的secl格式的细胞词典。

(1)  安装词典

installDict(dictpath, dictname,dicttype = c("text", "scel"), load = TRUE)

dictname 是自定义词典的名称(英文)

dicttype 默认是txt

load 表示安装后是否自动加载到内存,默认是TRUE


> segmentCN("真武七截阵和天罡北斗阵哪个厉害")
[1] ""  ""   ""   ""   ""   ""   "天罡" "北斗" ""   "哪个" "厉害"
> installDict("C:\\Users\\Administrator\\Desktop\\金庸武功招式.scel","jinyong")
932 words were loaded! ... New dictionary 'jinyong' was installed!

安装之后的效果

> segmentCN("真武七截阵和天罡北斗阵哪个厉害")
[1] "真武七截阵" ""         "天罡北斗阵" "哪个"       "厉害

(2)    listDict() 显示安装的词典

(3)    uninstallDict() 删除安装的词典

(4)  自定义词典

默认词典的安装目录是%R_HOME%\library\Rwordseg\dict,只需将自己的词典放到这里即可,后缀为.dic

修改之后每次重启都会导入dict目录下的词典,若想立即就生效可使用

LoadDict()函数

5)如果这是在内存中临时添加或删除词汇,可以使用insertWord()deleteWord()函数

0 0
原创粉丝点击