数学之美--谈谈分词

来源：互联网发布：算法公倍数怎么求编辑：程序博客网时间：2024/06/09 21:26

保留初心，砥砺前行

看完了《数学之美》第三章才想起来做一些记录会有更好的效果。

所以从第四章开始也不晚，况且前两章只是相当于介绍了数学的某些历史。

从这篇开始以数学之美为开头的文章更多的是为了自己看，记录一些书中的重点。

如果恰好也有喜欢数学的你看到了这些文章，可以看做是对数学之美这本书的一个简要性概述。

最后，希望高手指正。

数学的魅力就在于将复杂的问题简单化。

这里是我上午写的一篇“文章”，它太短，所以不能称之为一篇文章；然而它承载的内容又太重，早就超过了一篇文章的范畴。

虽然我一直相信的是，哲学是万物的科学，是一切科学的基础和指导，并且这样的信条一直再指导我的生活和学习。

但是在这里我认为，数学是一切问题最终的解决方法，与之前我所相信的并不冲突。

在我看来，数学可以给一切以一个简单的解决方案，而计算机、程序则是这种解决方案的实践。

可以解决一切的理论加上可以实现一切的实践，对，就是上帝。

他甚至（这是为了节目效果的夸张说法==）可以制造生命（人工智能）。

下面是分割线

扯远了回归正题，来，数学之美第四章：

第三章中说可以使用统计语言模型进行自然语言处理，而自然语言模型建立在词的基础上。在英语等语言中，每个词中间都有间隔，而在中文、日文等语言中，一句话由很多词语组成，但并不存在明显的分隔符。因此对这种语言进行基于统计语言模型的自然语言处理，就需要进行分词。

例：
中国航天官员应邀到美国与太空总署官员开会。
中国/航天/官员/应邀/到/美国/与/太空/总署/官员/开会。

分词最基本的思想就是“查字典”。
简单来说就是把句子从左到右扫描一遍，遇到字典里有的词就标识出来，如果遇到复合词，就按最长匹配原则（上海大学，不按上海和大学分，按最长匹配原则）。

然而当词语存在二义性时，例如：
发展中国家
按照上述规则，从左到右查字典，得到的结论是
发展/中国/家
然而实际上应该是
发展/中/国家

对于这种情况，上一章讲到的统计语言模型可以解决这个问题。

假如一个句子有三种分词方法：
A1, A2, A3, …, Ak
B1, B2, B3, …, Bm
C1, C2, C3, …, Cn
分词得到的结果不同，分成的词的个数也不同。
此时问题又成了上一章中的问题，如何才能判断哪一种才是最好的。
最好的应该是保证分完词后这个句子出现的概率最大，如下所示：
P(A1, A2, A3, …, Ak) > P(B1, B2, B3, …, Bm)
并且
P(A1, A2, A3, …, Ak) > P(C1, C2, C3, …, Cn)
概率最大的就是最好的分词方法。

最后，本章提到了两点：
- 分词技术已经成熟，提升空间微乎其微
- 如今手写输入英文越来越流行，手写输入的英文单词之间的间隔并不如机器打印的这么明显，因此也需要分词技术。

在延伸阅读中，提到了关于分词的粒度的问题。
例如词语‘清华大学’，有些人认为分到清华大学这个层次恰到好处，因为他可以说是一个专有名词；而另一些人认为要分成清华和大学，他们说清华是用来修饰大学的，要是不拆开，无法体现他们的修饰关系。
现实的情况是，我们需要针对不同的应用，进行不同层次的分词。
在机器翻译中，粒度大的分词效果更好，而在网页搜索中，粒度小的效果更好。

支持不同粒度的分词器模型：

字串 –》基本词表（例如清华，大学） + 统计语言模型L1 –》基本词串
基本词串–》复合词表（例如清华大学） + 统计语言模型L2 –》复合词串

阅读全文

0 0