使用jieba维护自定义词、停用词表

来源：互联网发布：图书管理 php 源码编辑：程序博客网时间：2024/05/10 23:15

对于文本处理来说，好的分词结果，是一切开始的基础。下面结合我的使用，简要说说使用jieba分词，如何添加、删除自定义词，以及使用停用词表，方便自己以后查阅。

1 维护自定义词

1.1 添加自定义词

方法一：

import jiebajieba.add_word("自定义词1")jieba.add_word("自定义词2")

方法二：

方法一需要我们手动一个个添加，当自定义词较多时，我们可以用下面的方法：

import jiebajieba.load_userdict(file_name)

其中， file_name 为文件类对象或自定义词典的路径，词典格式和 dict.txt 一样，一个词占一行；每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。file_name 若为路径或二进制方式打开的文件，则文件必须为 UTF-8 编码。
词频省略时使用自动计算的能保证分出该词的词频。在实际使用时，发现没有给词频时，并不能将有些词正确分词，自己尝试几遍后，发现人为给一个比较大的词频就可以分出来了。具体原因还没有深挖。

1.2 删除自定义词

与添加相对应的，删除的方法也有两个。

方法一：

import jiebajieba.del_word("自定义词1")

方法二：

将词从自定义的文本文件中删除。

2 停用词过滤

停用词过滤主要是自己构造停用词表文本文件，并将文本中的内容读入list，对分词后的结果逐个检查是否在停用词列表中，如果在，就过滤掉，最后得到过滤后的结果。

这篇博客写作时参考了一下内容：
1 http://blog.csdn.net/u012052268/article/details/77825981
2 https://github.com/fxsjy/jieba/blob/master/test/test_userdict.py

阅读全文

0 0