中文分词(一)

来源：互联网发布：电脑淘宝详情页的尺寸编辑：程序博客网时间：2024/06/03 17:30

jieba分词实践

用python搭建一个websever，通过调用jieba提供一个分词服务。

Code如下

#!/usr/bin/pythonimport osimport sysos.system('tar xvzf jieba.tar.gz > /dev/null')reload(sys)sys.setdefaultencoding('utf-8')sys.path.append("./")import jiebaimport jieba.possegimport jieba.analysedef mapper_func():    for line in sys.stdin:        ss = line.strip().split('\t')        if len(ss) != 2:            continue        music_id = ss[0].strip()        music_name = ss[1].strip()        tmp_list = []        for x, w in jieba.analyse.extract_tags(music_name, withWeight=True):            tmp_list.append((x, float(w)))        final_token_score_list = sorted(tmp_list, key=lambda x: x[1], reverse=True)        print '\t'.join([music_id, music_name, ''.join([''.join([t_w[0], str(t_w[1])]) for t_w in final_token_score_list])])if __name__ == "__main__":    module = sys.modules[__name__]    func = getattr(module, sys.argv[1])    args = None    if len(sys.argv) > 1:        args = sys.argv[2:]    func(*args)

效果如下

这里写图片描述

中文分词基础

背景

• 一段文字不仅仅在于字面上是什么，还在于怎么切分和理解。
• 例如：
– 这苹果不大好吃：

这/苹果不大/好吃（苹果味道好）
这/苹果/不大好吃（苹果味道不好）

• 和英文不同，中文词之间没有空格，所以实现中文搜索引擎，比英文多了一项分词的任务。

• 要解决中文分词准确度的问题，是否可以提供一个免费版本的通用分词程序？
– 像分词这种自然语言处理领域的问题，很难彻底完全解决;
– 每个行业或业务侧重不同，分词工具设计策略也是不一样的。

切分方案

• -方案一:切开的开始位置对应位是1，否则对应位是0，来表示“这/苹果不大/好吃”的bit内
容是：1100010
• -方案二:还可以用一个分词节点序列来表示切分方案，例如“这/苹果不大/好吃”的分词节点
序列是{0,1,5,7}

这里写图片描述

最常见方法

• 最常见的分词方法是基于词典匹配——效率低
– 最大长度查找（前向查找，后向查找）
• 增加数据结构
– 为了提高查找效率，不要逐个匹配词典中的词
– 查找词典所占的时间可能占总的分词时间的1/3左右，为了保证切分速度，需要选择一个好
的查找词典方法
– Trie树常用于加速分词查找词典问题

Trie树

这里写图片描述

切分词图(一种DAG图)

这里写图片描述

概率语言模型

• 假设需要分出来的词在语料库和词表中都存在，最简单的方法是按词计算概率，
而不是按字算概率。
• 从统计思想的角度来看，分词问题的输入是一个字串C=c1,c2……cn ，输出是一
个词串S=w1,w2……wm ，其中m<=n。对于一个特定的字符串C，会有多个切
分方案S对应，分词的任务就是在这些S中找出一个切分方案S，使得P(S|C)的值
最大。
• P(S|C)就是由字符串C产生切分S的概率，也就是对输入字符串切分出最有可能的
词序列。
这里写图片描述

例子

贝叶斯公式：
这里写图片描述
• P(C)只是一个用来归一化的固定值
• 另外：从词串恢复到汉字串的概率只有唯一的一种方式，所以P(C|S)=1。
• 所以：比较P(S1|C)和P(S2|C)的大小变成比较P(S1)和P(S2) 的大小

• 因为P(S1)=P(南京市,长江,大桥)=P(南京市)*P(长江)*P(大桥)> P(S2)=P(南京,市
长,江大桥)，所以选择切分方案S1。

• 为了容易实现，假设每个词之间的概率是上下文无关的，则：
这里写图片描述

• 其中，P(w) 就是这个词出现在语料库中的概率。因为函数y=log(x)，当x增大，
y也会增大，所以是单调递增函数。 ∝是正比符号。因为词的概率小于1，所以取
log后是负数。
• 最后算 logP(w)。取log是为了防止向下溢出，如果一个数太小，例如
0.000000000000000000000000000001 可能会向下溢出。
• 如果这些对数值事前已经算出来了，则结果直接用加法就可以得到，而加法比乘
法速度更快。

一元模型

• 对于不同的S，m的值是不一样的，一般来说m越大，P(S)会越小。也就是说，
分出的词越多，概率越小。
这里写图片描述
• 因此：

• 这个P(S)的计算公式也叫做基于一元模型的计算公式，它综合考虑了切分出的词数和词频。

N元模型

• 假设在日本，[和服]也是一个常见的词。按照一元概率分词，可能会把“产品和
服务”分成[产品][和服][务]。为了切分更准确，要考虑词所处的上下文。
• 给定一个词，然后猜测下一个词是什么。当我说“NBA”这个词时，你想到下
一个词是什么呢？我想大家有可能会想到“篮球”，基本上不会有人会想到“足
球”吧。
• 之前为了简便，所以做了“前后两词出现概率是相互独立的”的假设在实际中是
不成立的

Jieba分词

Jieba分词简介

• 源码下载的地址：https://github.com/fxsjy/jieba
• 支持三种分词模式
– 精确模式：将句子最精确的分开，适合文本分析
– 全模式：句子中所有可以成词的词语都扫描出来，速度快，不能解决歧义
– 搜索引擎模式：在精确模式基础上，对长词再次切分，提高召回
• 支持繁体分词
• 支持自定义字典

• 基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成
的有向无环图（DAG)
• 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
• 对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法

Jieba分词架构

这里写图片描述

Jieba登录词词库加载

这里写图片描述

Jieba的DAG词图

这里写图片描述

Jieba的Route概率-获得词频最大切分

这里写图片描述

阅读全文

0 0