【R文本挖掘】中文分词Rwordseg
来源:互联网 发布:python用来做什么 编辑:程序博客网 时间:2024/05/09 16:31
下载安装方法:
install.packages("Rwordseg", repos = "http://R-Forge.R-project.org")
注意在之前要安装好JAVA,并配置后JAVA环境
1. 分词操作:
(1)segmentCN(strwords)
> segmentCN("你好北京")
[1] "你好" "北京"
(2)如果输入参数是字符向量,则返回列表
> segmentCN(c("你好北京","今天是个好天气"))
[[1]]
[1] "你好" "北京"
[[2]]
[1] "今天" "是" "个" "好" "天气"
(3)returnType参数默认是输出向量或列表,若设置成”tm”,则可以输出tm格式的字符串
(4)strwords还可以是某个文本文件的路径,并且可用outfile参数指输出,默认是原路径下。
(5)blocklines 表示每次读入的行数,默认是1000行
2.词典管理
词典支持普通格式的文本词典和搜狗的secl格式的细胞词典。
(1) 安装词典
installDict(dictpath, dictname,dicttype = c("text", "scel"), load = TRUE)
dictname 是自定义词典的名称(英文)
dicttype 默认是txt
load 表示安装后是否自动加载到内存,默认是TRUE
> segmentCN("真武七截阵和天罡北斗阵哪个厉害")
[1] "真" "武" "七" "截" "阵" "和" "天罡" "北斗" "阵" "哪个" "厉害"
> installDict("C:\\Users\\Administrator\\Desktop\\金庸武功招式.scel","jinyong")
932 words were loaded! ... New dictionary 'jinyong' was installed!
安装之后的效果
> segmentCN("真武七截阵和天罡北斗阵哪个厉害")
[1] "真武七截阵" "和" "天罡北斗阵" "哪个" "厉害"
(2) listDict() 显示安装的词典
(3) uninstallDict() 删除安装的词典
(4) 自定义词典
默认词典的安装目录是%R_HOME%\library\Rwordseg\dict,只需将自己的词典放到这里即可,后缀为.dic
修改之后每次重启都会导入dict目录下的词典,若想立即就生效可使用
LoadDict()函数
(5)如果这是在内存中临时添加或删除词汇,可以使用insertWord()和deleteWord()函数
- 【R文本挖掘】中文分词Rwordseg
- 【R文本挖掘】中文分词Rwordseg
- 【R文本挖掘】中文分词Rwordseg
- R文本挖掘-中文分词Rwordseg
- R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
- R语言文本挖掘(1):分词(Rwordseg)
- R语言中文分词Rwordseg的安装
- 中文分词工具Rwordseg
- 中文分词Rwordseg
- R语言-Rwordseg中文分词包安装步骤
- R语言文本挖掘-分词
- 中文文本挖掘包tm、tmcn、Rwordseg、Rweibo的安装
- 用R做中文文本分析--用R进行文本挖掘与分析:分词、画词云
- R文本挖掘之二分词
- 64位的R中使用Rwordseg做文本分词遇到的安装问题
- R语言文本挖掘1——词云制作,基于Rwordseg包
- R语言·文本挖掘︱Rwordseg/rJava两包的安装(安到吐血)
- R中中文分词包Rwordseg的下载与离线安装
- 欢迎使用CSDN-markdown编辑器
- 矩阵快速幂入门-斐波拉契数列
- Servlet_05_反射
- 表单 action mailto发邮件
- 消息队列的技术选择分析
- 【R文本挖掘】中文分词Rwordseg
- Myeclipse8.5中安装findbugs
- Gradle常用命令记录
- pixhawk 光流核心问题录
- Android RenderScript 高性能计算
- 互联网下的测试模式流程
- AngularJS $http service
- 深度卷积神经网络——Deep Convolutional Neural Networks
- 54. Spiral Matrix