[R语言]快速安装用户自定义词典——用于分词

来源:互联网 发布:女神威捏脸数据 编辑:程序博客网 时间:2024/05/18 22:13

介绍下我使用的分词包:Rwordseg。

摸索了下如何安装词典,相信不少人有这个需求。我整理下,非常的简单。当然这只针对我个人而言,新手一枚,可能有某位大神有更好的方法。

1、词典准备

直接新建一个txt的文件,将词典写入这个文档,格式最好如下:
这里写图片描述
我因为个人需要保存为dep.txt。路径任意,为了方便,我是放在我的工作目录下的(所以等会安装路径不需要写上d:\path之类的)。

2、开始安装

–加载Rwordseg包
library(Rwordseg)

–安装命令(dictpath可以指定自己的安装路径)
installDict(dictpath = “dep.txt”,dictname = “dep”,dicttype = “text”,load = “TRUE”)

提示:New dictionary ‘dep’ was installed!

安装完成后记得重启RStudio或者RGui。就是重启下环境

开始测试分词,因为我的词典里有”食品药品监管局“:

words <- “食品药品监管局是什么地方”

words_seg <- segmentCN(words)

打印出word_seg为:

“食品药品监管局” “是” “什么” “地方”

识别”食品药品监管局“成功!

3、也可以查看下已安装词典

使用命令:listDict()

输出:

Name Type Des
1 dep Text dep.txt

0 0