jieba 分词自定义词典问题

来源:互联网 发布:网络通信基础知识 编辑:程序博客网 时间:2024/05/22 14:13
只对长词起作用

对如果定义的词比jieba自己分的短,则没有用

下面是三种分词方式的影响

原始:

[python] view plain copy
  1. #encoding=utf-8  
  2. import jieba  
  3. import os  
  4. import sys  
  5. test_text="电话号码查询"  
  6. #精确模式  
  7. seg_list = jieba.cut(test_text,cut_all=False)  
  8. seg_list = " ".join(seg_list)  
  9. print "cut_all=False: "+seg_list  
  10. #全模式  
  11. seg_list2 = jieba.cut(test_text,cut_all=True)  
  12. seg_list2 = " ".join(seg_list2)  
  13. print "cut_all=True: "+seg_list2  
  14. # 搜索引擎模式  
  15. seg_list3 = jieba.cut_for_search(test_text)  
  16. seg_list3 = " ".join(seg_list3)  
  17. print "cut_for_search: "+seg_list3  


输出:


[python] view plain copy
  1. cut_all=False: 电话号码 查询  
  2. cut_all=True: 电话 电话号码 号码 查询  
  3. cut_for_search: 电话 号码 电话号码 查询  






使用短分词:



[python] view plain copy
  1. jieba.add_word("电")  


输出:
[python] view plain copy
  1. cut_all=False: 电话号码 查询  
  2. cut_all=True: 电话 电话号码 号码 查询  
  3. cut_for_search: 电话 号码 电话号码 查询  




使用三字词:



[python] view plain copy
  1. jieba.add_word("电话号")  

输出:
[python] view plain copy
  1. cut_all=False: 电话号码 查询  
  2. cut_all=True: 电话 电话号 电话号码 号码 查询  
  3. cut_for_search: 电话 号码 电话号 电话号码 查询  




使用长词:


[python] view plain copy
  1. jieba.add_word("电话号码查询")  


输出:
[python] view plain copy
  1. cut_all=False: 电话号码查询  
  2. cut_all=True: 电话 电话号码 电话号码查询 号码 查询  
  3. cut_for_search: 电话 号码 查询 电话号码查询  
原创粉丝点击