模式识别技术漫谈(2)

来源：互联网发布：企业名录采集软件编辑：程序博客网时间：2024/05/07 09:01

模式识别技术漫谈(2)

-------大量应用了概率和统计分析方法

模式识别大体上可以分为统计模式识别和句法模式识别，统计模式识别是对大量的样本进行统计或学习而最后得到一个分类器，如贝叶斯分类器、神经网络、SVM、K近邻法则等都是属于统计模式识别的方法，句法模式识别则是依据一定的逻辑规则进行判别，如图像形状判断、语法类型判断、地址细分等，句法模式识别也可以称为结构模式识别，一般是应用于逻辑清楚、不易混淆的识别应用中，识别方法也比较简单，所以现在研究的大部分都是统计模式识别的方法，而且在这其中研究比较集中的是机器学习，因为人们相信：象人类辨别新事物一样，都需要一个学习过程，对于计算机也可以象人类那样地去学习而具有辨识能力。神经网络技术便是基于模仿人类的学习而产生的。说了这么多，其实我想表达的是统计方法在模式识别中的重要性，在这一节我们主要就来讨论一下概率论和统计在模式识别中的应用。

说到概率和统计就不得不提贝叶斯决策理论，它是解决模式分类问题的一种基本统计途径，贝叶斯决策理论的基本公式可做如下描述：

某个特征被判断为某类的概率 =

该类中出现这个特征的概率 * 该类存在的概率 / 这个特征出现的概率

上面这个公式是一个条件概率公式的推导，这里用文字来描述，以便更好理解，要想了解更多这方面的知识可以查找有关模式识别的理论书，几乎每种理论书的第一个部分就是描述这方面的内容。我以前看过郎咸平的讲座，他有一句话上我印象很深，大体意思是这样的：成功的商业人士总是在选择做大成功概率的事，而不会冒风险去投机做小概率的事。贝叶斯的基本原则是选择大概率的判断，在某个特征的条件下，哪种类别出现的概率大，则判断为那种类别，这样可以达到错误率最小。实际的运用情形会复杂很多，在多种特征和多种类别的应用中，公式也会演变得很复杂，有很多的参数需要去统计分析，运用贝叶斯决策理论的过程基本上都是一个计算概率和统计分析的过程，在这里有个基本出发点要注意：所有统计必须是在大数据量的情况下，因为概率有个前提条件，即是在大数据量的情况下，所以统计模式识别方法都离不开大数据量的前提条件，应用于分析的样本量必须充分大，否则很有可能做到最后是前功尽弃。

概率上的应用还有较为常用的理论是马尔可夫模型（Markov model）和稳马尔可夫模型(HMM)，这个是分词技术和语音识别中的基本理论工具之一，其中词频统计是其基本统计需要。马尔可夫模型和稳马尔可夫模型都是多条件概率的应用，追求的也是大概率结果。马尔可夫模型又可以分为一阶马夫可夫模型（Bigram模型）、二阶马尔可夫模型(Trigram模型)、n阶马尔可夫模型（n-gram模型），阶数越大，则需要统计的数据越多，计算的复杂度也会猛增。HMM运用了前向计算法（Viterbi算法），计算复杂度大大降低了下来，所以得到了较为广泛的应用，当今的语音识别算法就是采用HMM理论模型实现的。

统计分析中有个协方差矩阵，它可以应用于PCA（主成分分析）降维方法中。可以很容易理解，当特征越多时，计算则越复杂，而且计算结果准确性则越低，所以我们总是要想方设法把特征维数降下来，较为常用的方法则是用PCA降维方法（另一个方法VQ也是个很好的降维方法），这个方法是通过大量的样本统计，统计出方差最小的特征，方差越小，则说明这种特征越易混淆，越无助于分类，于是就可以把这些特征去掉，以此降低了特征维数。

类似于神经网络的机器学习方法也是属于统计模式识别一种，机器学习方法大大简化了我们对样本数据的统计工作量，采用了自动化的方法根据大量样本生成一个分类器，在这其中，统计分析的应用较为稳性，以至于让你无法承认它是属于统计模式识别的方法，但是对于大量样本的学习也可以算是统计方法的范畴，如神经网络中的每个神经节点的系数的形成是依据一定算法（如LMS算法）通过大量样本修正出来的，这个修正的过程也可以算是统计分析的过程。

既然模式识别技术与概率和统计分析密不可分，所以在设计分类器之前，首先要准备好大量的、周全的、能够覆盖各种情况的训练样本和测试样本，然后对训练样本进行统计分析，分析样本的特点，分析样本的特征值分布规律，得到各种统计数据，最后再来确定模式识别的方法，测试样本用来检验分类器的合理性问题，根据测试样本测试出来的问题，需要返回去修改分类器，这是一个反复的过程，直至最后达到分类器的性能目标。