第一章 模式识别 -准备

来源:互联网 发布:npc数据库 编辑:程序博客网 时间:2024/04/27 18:07
第二章  模式识别 -准备

   “模式识别”,那什么是“模式”,什么是“识别”呢?估计学过模式识别的在看到这个问题的一瞬间肯定hold不住。

    首先看“识别”,这其中包括“”和“”,“识”是认识,“别”是判断,比如,我知道这个是苹果,那个是果树,这叫“识”;知道这个苹果属于水果,那颗果树属于树木,叫“别”。

    其次看“模式”,要知道模式先知道模型,要知道模型先知道特征,要知道特征先知道样本,要知道样本先知道采样,要知道采样先知道对象

    举一个例子,在Duda的书中第一章中提到的流水线检测鱼的例子,鱼称之为“对象”;利用对鱼进行拍照成为“采样”过程;这样可以得到一系列鱼图像的集合,将这个集合称之为“样本”;在这里,样本就一个图像,这样的原始信息是朴素的,朴素的表现为量大而杂,而对图像信息进行抽象、提取或压缩从而得到表征该样本信息的新的信息体,称之为“特征”,比如用特征斜率来表征一条线上点的集合;在得到特征后,用数学语言来将特征包装(描述)起来,称之为“模型(数学模型)”,按照这个推理,如果能用化学语言来描述,则可成为“化学模型”;而“模式”则是对所有模型的统称,因为对“模式”的识别过程也就是对所有“模型”进行处理和识别的过程。

    从上面的表述来看,模式识别整体需要三个步骤:采样、特征提取、识别。这只是步骤的思路,在实际的过程中,中间会有很多的过程,如果对采样后的样本进行预处理、对特征进行处理、训练、反馈等过程。

    这里分别介绍各个步骤中要注意的地方。

      1. 采样:需要硬件支持,比如摄像机等传感设备。

      2. 特征提取:

          1)  在此之前,对图像(样本)的预处理工作通常是不可少的,例如去噪、增强、分割等图像处理技术。

          2)  对特征评价的好坏标准是:类内散度小、类间散度大。

          3)  另外选择描述特征的数学模型,并对其进行训练。

      3. 识别:也叫分类,输入一个特征集合,输入一个类别标签表明该特征是属于哪一类样本的。

          1)  对其进行理论评价标准是:类内不能被识别的比率、类间能误识别的比率,常用ROC曲线。这样要求分类器有较好的“准确率”和“推广能力”,避免出现“过拟合”的现象。

          2)  在实际的应用中还会将代价函数加进入,比如癌症检测中,将正常误检为不正常和将不正常误检为正常的代价是不一样的,前者最多花了一些冤枉钱,而后者可能会赔掉性命,因此显然后者误识别的代价较大。

  在模式识别中,有三种相关的技术:

      1.  回归分析:目的是对输入的数据进行数学函数描述。是一个从个体抽象整体的过程。最流行的线性回归,比如树的高度跟树的年龄成线性增长。

      2.  函数内插:在已知周围数值的情况下,对中间数值进行估计。

      3.  密度函数估计:求解具有某种特征的类别样本出现的概率(密度)。