[R语言]快速安装用户自定义词典——用于分词
来源:互联网 发布:女神威捏脸数据 编辑:程序博客网 时间:2024/05/18 22:13
介绍下我使用的分词包:Rwordseg。
摸索了下如何安装词典,相信不少人有这个需求。我整理下,非常的简单。当然这只针对我个人而言,新手一枚,可能有某位大神有更好的方法。
1、词典准备
直接新建一个txt的文件,将词典写入这个文档,格式最好如下:
我因为个人需要保存为dep.txt。路径任意,为了方便,我是放在我的工作目录下的(所以等会安装路径不需要写上d:\path之类的)。
2、开始安装
–加载Rwordseg包
library(Rwordseg)
–安装命令(dictpath可以指定自己的安装路径)
installDict(dictpath = “dep.txt”,dictname = “dep”,dicttype = “text”,load = “TRUE”)
提示:New dictionary ‘dep’ was installed!
安装完成后记得重启RStudio或者RGui。就是重启下环境
开始测试分词,因为我的词典里有”食品药品监管局“:
words <- “食品药品监管局是什么地方”
words_seg <- segmentCN(words)
打印出word_seg为:
“食品药品监管局” “是” “什么” “地方”
识别”食品药品监管局“成功!
3、也可以查看下已安装词典
使用命令:listDict()
输出:
Name Type Des
1 dep Text dep.txt
0 0
- [R语言]快速安装用户自定义词典——用于分词
- R语言中文分词Rwordseg的安装
- jieba 分词自定义词典问题
- jieba 分词自定义词典问题
- Ik分词器自定义词典
- 庖丁解牛分词之自定义词库[自定义词典]
- 学习R语言 分词
- ICTCALS中科院分词 用户词典说明
- IK中文分词扩展自定义词典!!!
- R语言︱情感分析—词典型代码实践(最基础)(一)
- 几种R语言中文分词工具安装尝试
- R语言-Rwordseg中文分词包安装步骤
- 中文分词算法—— 基于词典的方法
- elasticsearch中文分词(mmseg)——手动添加词典
- (2)中文分词——基于词典的方法
- Lucene—IKAnalyzer分词器配置扩充词典
- R语言进行中文分词
- R语言中文分词jiebaR
- AngularJS 官方案例:angular-phonecat
- PCM与DSD究竟是什么??
- 简明20世纪东亚史--刘仲敬
- 使用Sqlserver事务发布实现数据同步
- PAT(甲级)1089
- [R语言]快速安装用户自定义词典——用于分词
- [前端] 定位光标位置
- tomcat性能调优
- 谈业务流程全生命周期管理支撑业务流程再造(3)
- 城市天气三小时预报,天气预报接口实现
- Android 回调实例详解
- PAT(甲级)1090
- 青少年如何使用 Python 开始游戏开发
- jQuery.validate验证上传文件大小