(9-4)词库分词
来源:互联网 发布:vb.net asp网站实例 编辑:程序博客网 时间:2024/05/22 00:15
---------------------------------------------------------------------------------------------------------------
//词库发分词 环境搭建
用的分词软件:IK Analyzer 2012FF_hf1.zip
[root@baozi ik]# pwd
/usr/local/ik
[root@baozi ik]# unzip IK\ Analyzer\ 2012FF_hf1.zip
[root@baozi ik]# ll
总用量 9204
drwxr-xr-x. 5 root root 4096 10月 23 2012 doc
-rw-r--r--. 1 root root 1165908 10月 26 2012 IKAnalyzer2012FF_u1.jar
-rw-r--r--. 1 root root 414 2月 14 2012 IKAnalyzer.cfg.xml
-rw-r--r--. 1 root root 841268 10月 24 2012 IKAnalyzer??+-??-??V2012_FF-??+-??.pdf
-rw-r--r--. 1 root root 17778 1月 17 2012 LICENSE.txt
-rw-r--r--. 1 root root 278 1月 19 2012 NOTICE.txt
-rw-r--r--. 1 root root 161 4月 15 2011 stopword.dic
[root@baozi ik]#
[root@baozi ik]# cp IKAnalyzer2012FF_u1.jar /usr/local/solr/example/solr-webapp/webapp/WEB-INF/lib/
[root@baozi WEB-INF]# pwd
/usr/local/solr/example/solr-webapp/webapp/WEB-INF
[root@baozi WEB-INF]# mkdir classes
[root@baozi ik]# cp IKAnalyzer.cfg.xml /usr/local/solr/example/solr-webapp/webapp/WEB-INF/classes/
[root@baozi ik]# cp stopword.dic /usr/local/solr/example/solr-webapp/webapp/WEB-INF/classes/
网页查看:
http://192.168.1.200:8983/solr
在网页分词模块输入:
输入“我们是中国人”;
我们
我
们
是
中国人
中国
国人
---------------------------------------------------------------------------------------------------------------
//自定义索引库:
配置schema.xml: 加个分词器别名 text_ik:
[root@baozi conf]# pwd
/usr/local/solr/example/solr/collection1/conf
[root@baozi conf]# vi schema.xml
<fieldType name="text_ik" class="solr.TextField">
<!--索引时候的分词器-->
<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
<!--查询时候的分词器-->
<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
//自定义分词段:
[root@baozi classes]# ll
总用量 12
-rw-r--r--. 1 root root 15 5月 12 20:58 baozi.dic
-rw-r--r--. 1 root root 416 5月 12 20:53 IKAnalyzer.cfg.xml
-rw-r--r--. 1 root root 161 5月 12 20:46 stopword.dic
[root@baozi classes]# more baozi.dic
我爱吃包子
[root@baozi classes]#
//把自定义分词段加入到配置文件:IKAnalyzer.cfg.xml:
[root@baozi classes]# vim IKAnalyzer.cfg.xml
[root@baozi classes]# more IKAnalyzer.cfg.xml
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典-->
<entry key="ext_dict">baozi.dic;</entry>
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords">stopword.dic;</entry>
</properties>
[root@baozi classes]#
//再分词就会把‘我爱吃包子’作为一个整体:
分词是输入“我爱吃包子”,就会分成整个单词出现;
我爱吃包子
我
爱吃
包子
0 0
- (9-4)词库分词
- SharpICTCLAS分词系统简介(9)词库扩充
- 分词:一种分词词库设计
- 庖丁解牛分词自定义词库
- 斯坦福分词有无词库对比
- SHOP++中文分词检索词库扩展
- 中文分词器扩充中文词库IKAnalyzer
- 庖丁解牛分词之自定义词库[自定义词典]
- 自建个性化的coreseek分词词库-备查
- solr配置IK分词,使用sogou词库
- solr学习文档之添加分词词库
- 中文分词 mmseg4j 的词库格式
- Solr配置IK分词器自定义词库
- coreseek之mmseg分词和词库拓展
- asp 分词搜索(带爬虫的),分词词库。
- 分词器,使用中文分词器,扩展词库,停用词
- Lucene.net+盘古分词:如何做到按需分词,新增盘古分词词库
- Solr动态加载分词器的自定义词库扩展词库解决方案
- 黑马程序员--学习日志4--JAVA循环体语句和控制跳转语句
- Leetcode Happy Number
- BNUOJ 1010 Deli Deli
- linux shell的一些技巧(一)使用{X..Y}以及${!XXX}
- XSLFO BLOCK
- (9-4)词库分词
- c++程序设计——实验2
- Servlet自学第16讲:HttpServletResponse对象详解
- java 线程(二)
- Android Bound Service(二) ----- Using AIDL
- Windows 驱动开发 - 1
- c++程序设计——实验1
- 操作系统引论
- Tigase XMPP Server在CentOS部署与配置