中文分词组件
来源:互联网 发布:虎贲计算机二级软件 编辑:程序博客网 时间:2024/06/05 06:32
1.下载mecab-chinesedic-binary,放在MeCab bin目录下,具体参考:详细详细可参考《用MeCab打造一套实用的中文分词系统》
cmd运行命令:mecab -d mecab-chinesedic-binary wakati wiki.zh.text.jian -o wiki.zh.text.jian.seg -b 10000000
其中,wiki.zh.text.jian是一个中文数据集,wiki.zh.text.jian.seg为分割后文本。
2.使用中文分词工具jieBa
- #encoding=utf-8
- import jieba
- #全模式
- text = "我来到北京清华大学"
- seg_list = jieba.cut(text, cut_all=True)
- print u"[全模式]: ", "/ ".join(seg_list)
- #精确模式
- seg_list = jieba.cut(text, cut_all=False)
- print u"[精确模式]: ", "/ ".join(seg_list)
- #默认是精确模式
- seg_list = jieba.cut(text)
- print u"[默认模式]: ", "/ ".join(seg_list)
- #新词识别 “杭研”并没有在词典中,但是也被Viterbi算法识别出来了
- seg_list = jieba.cut("他来到了网易杭研大厦")
- print u"[新词识别]: ", "/ ".join(seg_list)
- #搜索引擎模式
- seg_list = jieba.cut_for_search(text)
- print u"[搜索引擎模式]: ", "/ ".join(seg_list)
#当然也可以用自己定义的词典
如:
- #导入自定义词典
- jieba.load_userdict("dict.txt")
#读取文件并保存
从BaiduSpider文件中读取0001.txt~0204.txt文件,分别进行分词处理再保存。
阅读全文
0 0
- 中文分词组件
- scws中文分词组件
- scws中文分词组件
- scws中文分词组件
- scws中文分词组件
- scws中文分词组件
- scws中文分词组件
- Python中文分词组件
- 中文分词组件
- Nutch 中文分词 庖丁分词组件
- Java中文分词组件 - word分词
- Java中文分词组件 - word分词
- Java中文分词组件 - word分词
- 中文分词组件链接地址
- Python中文分词组件jieba
- Python中文分词组件 jieba
- Python中文分词组件jieba
- Python中文分词组件 jieba
- 放大器:A类、B类、AB类、D类、G类、H类
- 会话控制系统session和Cookie
- 页面中验证码和文本框不对齐的情况
- 百度上传webuploader
- python3 如何转换html到pdf
- 中文分词组件
- C#自定义控件背景色透明的方法
- 视频监控中的多目标识别与跟踪技术
- Kafka,storm,Zookeeper,flume,Dubbo,Spark简介及应用
- C++ 简易string类实现(三)-抽离引用计数
- Call From SparkMaster/192.168.237.128 to 0.0.0.0:10020 failed on connection exception
- 格雷码Gray Code
- winform将图片嵌入到exe
- js 去掉字符串最后一个逗号