py jieba 分词库
来源:互联网 发布:科勒淘宝授权 编辑:程序博客网 时间:2024/06/07 07:49
py jieba 分词库.
官方 git地址.
安装: pip install jieba
原理
- 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)
- 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
- 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法
分词
支持自定义词典, 支持三种分词模式:
- 精确模式,试图将句子最精确地切开,适合文本分析;
- 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
- 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词
关键词抽取
有 tf-idf 与 textRank 两种方法. 参考 [1].
from jieba import analyseimport jieba_word_segmentation.skateboard_lyric as skateboard_lyricprint('tf-idf method:')tags=analyse.extract_tags(skateboard_lyric.lyric)for tag in tags: print(tag,end='/')print('\n\ntextrank method:')tags=analyse.textrank(skateboard_lyric.lyric)for tag in tags: print(tag,end='/')"""tf-idf method:摩擦/滑板鞋/一步/光滑/地上/我要/魔鬼/两步/步伐/天黑/月光/时尚/美丽/华晨/不怕/庞麦郎/有时/真的/约瑟/自己/textrank method:时尚/时间/滑板鞋/摩擦/看到/寻找/美丽/城市/时刻/月光/完成/驱使/夜幕/力量/街道/魔鬼/步伐/喜欢/脚步/舞蹈/"""
pos tagging
# encoding=utf-8import jiebaimport jieba.posseg as psegimport jieba_word_segmentation.skateboard_lyric as skateboard_lyricjieba.add_word('约瑟翰')jieba.add_word('庞麦郎')jieba.add_word('华晨宇')lyric_arr=skateboard_lyric.lyric.split('\n')for sentence in lyric_arr: for (word, flag) in pseg.cut(sentence): print(word,flag,end='/ ') print('')"""我 r/ 的 uj/ 滑板鞋 n/ 时尚 n/ 时尚 n/ 最 d/ 时尚 n/ 回家 n/ 的 uj/ 路上 s/ 我 r/ 情不自禁 i/ 摩擦 vn/ x/ 摩擦 vn/ x/ 摩 nz/ 在 p/ 这 r/ 光滑 a/ 的 uj/ 地上 s/ 摩擦 vn/ 摩擦 vn/ """
参考
- 一篇cnblog 结巴分词5–关键词抽取
阅读全文
0 0
- py jieba 分词库
- 安装jieba分词库
- Python学习——jieba分词库和time模块
- 一个挺好的python中文分词库jieba
- 使用C重写jieba结巴分词库,大幅提速50%-60%
- SCWS分词库自定义
- IKAnalyzer 扩展分词库
- scws自定义分词库
- python中文分词库finalseg
- [solr] - IKAnalyzer 扩展分词库
- [solr] - IKAnalyzer 扩展分词库
- solr中添加扩展分词库和停止词库
- smallseg---又一个开源python分词库
- solr5.0增加中文分词库
- Solr6配置中文分词库mmseg4j
- Solr6配置中文分词库 IKAnalyzer
- python中文分词库结巴使用示例
- 【转】libscws(简体中文分词库)
- FFXI-darkstar源码阅读
- SSH和SSM对比总结
- 2017.09.04
- 按第一列的相同名称合并行
- py pypinyin 拼音库
- py jieba 分词库
- Java实例变量和类变量
- Android ListView
- Python学习笔记(五)——模块|图形界面|网络编程
- spring boot shiro权限管理
- 05:最高的分数
- navigation图标尺寸
- Button去掉自带的阴影效果
- 基于gabor的纹理识别