jcseg分词自动识别填充数据属性
来源:互联网 发布:phpmyadmin linux 安装 编辑:程序博客网 时间:2024/06/05 23:07
前段时间,我在公司接到一项任务,大概功能需求模型如下:比如给一系列字符串,其中包含地区的行政代码、机器ID、机器类型ID、操作人员编号ID等大部分都是一连串的数字。这些信息使用“-”或者“/”分割开,但是这些信息出现的前后顺序是不一定的。
刚领到任务,我连jcesg是什么都没听说过。后来大概看了看有点明白了,尤其是看了jcseg的官方文档N多遍之后。下面我谈谈我的实现思路:
Step1:把各个属性正确切割出来。jcseg里面定义了一个wordstop的词典,可以在里面定义分词的标识符。在项目启动后自动加载wordstop词典,然后我们就可以正确切割字符串。这里需要注意的一点是:分词后要避免jcseg自动二次分词,在properties文件中有个属性可以关闭二次分词。
Step2:遍历分词后的结果,并且依次加载自定义的词典进行匹配。
原理介绍完了,下面举个例子来说明一下过程:
比如有一串字符串信息:110000-machineA-OperatorB。
第一步:通过分词取得三个词:110000、machineA、OperatorB。
第二步:遍历上述分词结果,匹配词典:
110000对应行政代码词典里面的北京市行政区代码。所有上述字符串附加属性有:行政区:北京市。
machineA对应机器词典里面的机器A代码。所有上述字符串附加属性有:机器:机器A。
OperatorB对应操作员词典里面的张三代码。所有上述字符串附加属性有:操作人:张三。
以上就是整个使用jcseg解析字符串数据信息的过程。
0 0
- jcseg分词自动识别填充数据属性
- jcseg分词
- 中文分词器 jcseg
- Jcseg分词 介绍
- Lucene中文分词Jcseg
- Solr4 + Jcseg 数据导入
- Luence 4.4 Jcseg中文分词简单测试
- Jcseg分词器的实现详解
- jcseg中文分词器去除不需要的分词
- word分词器、ansj分词器、IKanalyzer分词器、mmseg4j分词器、jcseg分词器对比
- word分词器、ansj分词器、IKanalyzer分词器、mmseg4j分词器、jcseg分词器对比
- Luence 4.4 Jcseg分词器构建索引以及检索测试
- Solr4 + Jcseg(分词器) 安装配置--源自技术
- Solr4 + Jcseg(数据导入) 安装配置--源自技术
- jcseg-1.9.2 发布 - Java开源轻量级中文分词器+里程碑版本
- jcseg-1.9.4 发布 - Java轻量级开源中文分词器-检测模式切分
- 搜索引擎:solr--搭建和分析中文分词器。下(jcseg和ICTCLAS)
- IKanalyzer、ansj_seg、jcseg三种中文分词器的实战较量
- 粒子群算法(二):Python实现
- pandas常用函数
- Properties文件解析的坑
- kafka入门:简介、使用场景、设计原理、主要配置及集群搭建
- PAT乙级(Basic Level)真题 >福尔摩斯的约会
- jcseg分词自动识别填充数据属性
- 使用ab对nginx进行压力测试
- 五年软件开发的一点自我总结(转)
- [JAVA基础汇总]第十三章 异常处理
- Kafka文件存储机制那些事
- 如何获取Android唯一标识(唯一序列号)
- 剑指Offer16:反转链表
- Chart图表应用
- Kafka 设计与原理详解