使用jieba维护自定义词、停用词表
来源:互联网 发布:图书管理 php 源码 编辑:程序博客网 时间:2024/05/10 23:15
对于文本处理来说,好的分词结果,是一切开始的基础。下面结合我的使用,简要说说使用jieba分词,如何添加、删除自定义词,以及使用停用词表,方便自己以后查阅。
1 维护自定义词
1.1 添加自定义词
方法一:
import jiebajieba.add_word("自定义词1")jieba.add_word("自定义词2")
方法二:
方法一需要我们手动一个个添加,当自定义词较多时,我们可以用下面的方法:
import jiebajieba.load_userdict(file_name)
其中, file_name 为文件类对象或自定义词典的路径,词典格式和 dict.txt 一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。file_name 若为路径或二进制方式打开的文件,则文件必须为 UTF-8 编码。
词频省略时使用自动计算的能保证分出该词的词频。在实际使用时,发现没有给词频时,并不能将有些词正确分词,自己尝试几遍后,发现人为给一个比较大的词频就可以分出来了。具体原因还没有深挖。
1.2 删除自定义词
与添加相对应的,删除的方法也有两个。
方法一:
import jiebajieba.del_word("自定义词1")
方法二:
将词从自定义的文本文件中删除。
2 停用词过滤
停用词过滤主要是自己构造停用词表文本文件,并将文本中的内容读入list,对分词后的结果逐个检查是否在停用词列表中,如果在,就过滤掉,最后得到过滤后的结果。
这篇博客写作时参考了一下内容:
1 http://blog.csdn.net/u012052268/article/details/77825981
2 https://github.com/fxsjy/jieba/blob/master/test/test_userdict.py
阅读全文
0 0
- 使用jieba维护自定义词、停用词表
- python结巴分词、jieba加载停用词表
- jieba分词增加自定义词表
- Lucene 测试 自定义停用词表 StopAnalyzer
- Ansj添加停用词表
- Stop_Word 中英文停用词表
- FAQ停用词表
- 常用的中文停用词表
- 常见中文停用词表整理
- 文本分析 停用词表 停用词过滤
- 文本分析--停用词集合(结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等)
- 最全英文停用词表整理(891个)
- 最全中文停用词表整理(1893个)
- 最全英文停用词表整理(891个)
- sae上使用jieba
- jieba的简单使用
- jieba库的使用
- jieba分词简单使用
- [转]【OpenCV入门教程之十八】OpenCV仿射变换 & SURF特征点描述合辑
- js 如何获取浏览器的高度和宽度
- 在鉴定名画真伪这件事上,专家可能要被AI代替了
- 决策树和随机森林算法
- 然并卵,苹果还是那个掉队的巨头
- 使用jieba维护自定义词、停用词表
- 2018年IEEE Fellow名单:32位中国学者入选,清华成最大赢家
- 三星中文AI助手Bixby发布,现在,这是“一家AI商用技术公司”
- python的exec的一个小问题
- jdk环境配置
- Spring 之AOP 使用@AspectJ注解方式
- Hadoop完全分布式安装Flume
- oracle数据库相同id去重
- Laravel入门教程(二)C