分类特征的选择和提取

来源:互联网 发布:aso优化推广 编辑:程序博客网 时间:2024/06/06 14:21
分类特征,指参与遥感分类运算的数据,其数据源既可以是遥感特征信息,也可以是非遥感特征信息如高程、气温等因子。对遥感图像进行分类特征选择和提取,目的是求出一组对分类最有效的特征,它直接关系到分类结果的优劣,而且分类器的性能也在很大程度上依赖于特征选择与特征提取,依赖于特征是否能够精确地描述对象的本质。
分类特征选择就是从众多的遥感数据中选取能够表征地物类型特征的一组参与分类。如进行土地/植被覆盖制图时,对植被生长状况有指示作用的NDVI信息一般都会被选择作为一个特征,除此之外能够表征土地覆盖特征生物物理参数的遥感数据如反射率、热红外信息也是应该优先考虑的特征。另外,由于土地/植被覆盖类型的复杂性,对于单时相难以区分的植被类型如不同农作物的识别则需要选择不同时相的影像,对于难以区分的平原和山地植被类型则可能选择高程影像,这实际上体现在数据源的选择能否较好地区分研究区的地物类别。当然,充分利用可能获得的遥感数据进行分类特征选择是优先考虑的问题,如果以很大代价找寻一些能帮助提高分类精度的非遥感分类特征,也就失去了遥感分类制图优势的意义。
在很多情况下,利用少量特征就可以进行遥感图像的地学专题分类,因此需要从遥感图像n个特征中提取k个特征作为分类依据,我们把从n个特征中提取k个更有效特征的过程称为特征提取。特征提取要求所提取的特征相对于其他特征更便于有效地分类,使图像分类不必在高维特征空间里进行,其变量的选择需要根据经验和反复的实验来确定。通过特征提取,既可以达到数据压缩的目的,又提高了不同类别特征之间的可区分性。在数学表达上,对选取的遥感图像进行特征提取就是通过对原始特征光谱维进行一定的变换与映射处理,找出其中最能准确分出待分类目标的特征光谱子集,使分散在波段之间的分类信息集中在几个特征中,从而在对数据进行降维处理的同时增强分类性能、提高分类精度。从本质上讲,进行分类特征提取关键,就是要在计算复杂度允许的范围内,在最少维特征空间中使得类间距离较大,而类内距离较小。
§8-2-2  分类特征提取方法
在遥感图像上,不但可以提取光谱维特征,而且也可以提取空间维特征。
1  光谱维特征提取
用于遥感图像分类处理中的光谱维特征提取方法常常可以归纳为如下三种变换:
(1)代数运算法:对原始波段进行加、减、乘、除、乘方、指数、对数等运算,其中最常见的为比值法,其目的是为了消除乘性因子带来的影响,或者增强某种信息而抑制另一种信息。几种典型的植被指数如比值植被指数(RI)归一化植被指数(NDVI)、垂直植被指数、土壤可调植被指数(SAVI)、抗大气植被指数、增强植被指数(EVI)等就是通过对原始通道反射率进行代数运算得到的;
(2)导数法:主要用在高光谱图像处理中,能够提取出不同的光谱参数,如吸收峰位置,植被的红边位置等,导数光谱还能够消除大气效应。但导数法对光谱信号中的噪声非常敏感,低阶导数中的表现又要优于高阶导数,因而在实际应用中比较有限。
(3)变换法:这里的变换,又分为三种类型。一种是代数变换,包括线性和非线性变换,如常见的主成份变换(K-L变换)、缨帽变换(K-T变换)、最小噪声分离变换(MNF变换)等等都是线形变换,而有的非线性变换甚至可能是隐含的,如神经元网络、遗传算法用于特征提取。第二种是时-频变换法,将特征维数据作为一维信号,采用信号处理的方法如傅立叶变换、小波变换等,将之变换到频率域,在频率域进行特征滤波、增强等处理,再反变换回时域,使得有用的目标信号得到增强、而无用的干扰信号减弱了,从而对不同频率(或不同尺度、不同分辨率)的信号得到分离等。还有一种称为色度变换法,只适用于三波段图像的变换,如RGB-IHS、IHS-RGB变换等。
2 空间维特征提取
空间维特征包括空间纹理信息和空间结构信息以及空间几何信息三个方面的内容。其中,关于空间结构信息以及空间几何信息在遥感分类算法中的应用目前还非常有限。常用的纹理信息表达与提取方法主要有:
(1)简单统计变换纹理分析方法:只采用对图像在空间维的邻域上的统计特征来提取纹理,它反映的是灰度图像的一阶统计特性。这类方法基于灰度直方图,只利用象元的统计量而不考虑它们之间的位置相关关系,是一种易于实现而且非常有效的方法,包括:均值、熵、方差、斜度等各阶统计量。
(2)灰度共生矩阵法:灰度共生矩阵法(Grey-Level Co-occurence Matrix,GLCM)是在给定的方向上、给定的象元距离范围内统计出的象元灰度值i和j的联合概率分布,它是一种二阶灰度共生矩阵统计方法。具体地讲,这个矩阵是这样定义的:对于给定的方向 和距离d,在和横轴成 角的方向上,距离为d的两像素对,其一个像元灰度为i,另一个像元灰度为j的出现的频率 。 可以为任意方向和任意距离范围,但一般选取的方向为0º、45º、90º、135º。常用的特征有:局部平稳(Homogeneity)、对比度(Contrast)、非相似性(Dissimilarity)、熵(Entropy)、均值(Mean)、方差(Variance)、能量(角二阶矩Angular Second Moment)、相关(Correlation)等9种。
(4)半方差图方法
空间纹理特征实际上是与空间尺度有关的。因此,选择合适的计算纹理特征的邻域窗口大小,对于有效地定量表达纹理特征非常重要,可以采用半方差图(semivariogram)等空间统计学方法来估计提取纹理信息的最优窗口大小,通常有两种半方差图来表达纹理信息的方法。一种是直接应用半方差图值的方法:该方法定义了两个窗口:一个 大小的大窗口和该窗口内r ´ s大小的小窗口,小窗口用来估算小于r-1和s-1大小范围内的半方差(semivariance),计算各半方差的均值和方差作为该小窗口内的纹理度量标准。另一种是通过选择适当的参数化半方差图统计模型(如指数模型、对数模型等)对半方差图进行拟合,并以所使用的半方差图模型导出的参数作为衡量纹理信息的标准。
(5)分维数法:分形几何可以用来描述整体上处于不规则的而在不同尺度上具有自相似性的几何图案。例如,海岸线和山川形状等。维数是几何对象的一个重要特征量,它是几何对象中一个点的位置所需的独立坐标数目。通常人们习惯于整数的维数,分形理论认为维数也可以是分数。这就是说,可以通过计算分维数,用定量化的形式来描述不规则而又具有尺度上自相似性的纹理结构特征。常用的估算分维数的方法有分维布朗运动法(Fractal Brownian Motion, FBM)和数箱子法(Box-counting methods)。
(6)统计模型法:基本思想是用一个统计数学模型描述一致性纹理区域。典型的统计模型包括乘性自回归随机场(Multiplicative Autoregressive Random Field,MARF)、马尔可夫随机场(Markov Random Field,MRF)、金字塔结构随机场序列。
(7)傅立叶频谱分析法
该方法通过将图像划分成若干个子区域,对每个子区域上的图像进行傅立叶变换。这样,粗纹理区域的频谱能量主要集中在低频率域上,细纹理区域的频谱能量主要集中在高频率域上。使用极坐标以不同的半径在圆域中对功率谱积分,所得到的积分值可以反映纹理的粗细程度;而利用在不同方向的扇形区域中对功率谱积分可以反映纹理的方向性。
值得一提的是,纹理特征一般在图像分类中是作为辅助特征参与分类来提高分类精度的,并不单独参加分类运算。
空间几何特征描述了遥感图像所表示的地面景物的几何属性,包括地理属性位置(经纬度、高程)和形状属性(线状、矩形、圆形、不规则形状等)。可以用图像增强、滤波技术提取地物的形状属性,然而将之有效地结合到分类与特征提取的方法却仍然需要进一步研究。
空间结构特征描述了传感器所能提供的分辨能力下地表不同景物之间、以及同一景物内部不同部分之间的相互联系与区别。结构特征更加难以在分类与识别中应用,这是因为它实际上已经从图像信息上升到图像知识这个层次了。对它的应用需要结合人类知识进行综合与理解,还无法在计算机分类器中以合适的形式表达与利用。
§8-2-3  类别可分离性判据
特征选择与提取的任务是求出一组对分类最有效的特征,因此我们需要一个定量的准则(或称判据)来衡量特征对分类的有效性。其中熟悉的有散度,变形散度,Bhattacharyya 距离法和 Jeffries-Matusita距离法,这些指标已经被遥感研究学者运用多年。可分离性判据一般要求满足:
(1)在错误概率或其上界,或其下界有单调关系;
(2) 在特征独立时有可加性:
                                   (8-2-1)
其中,Jij表示i 和j类的可分性准则函数;
(3)单调性:在维数增多时,判据值不减少;
(4) Jij>0   i¹j;   Jij=0   i =j ;   Jij=Jji
常见的几种对i , j两类的类别分离度判据有如下几种:
(1)欧几里德判据:
                                   (8-2-2)
(2)马氏距离判据:
                           (8-2-3)
(3)散度:
 
                                                            (8-2-4)
(4)变形散度:
                                    (8-2-5)
(5)Bhattacharyya距离:
                                                            (8-2-6)
(6)变形巴氏距: 
                               (8-2-7)
(7)Jeffries-Matusita距离(J-M距离)
                                       (8-2-8)
式中,tr{.}表示矩阵的迹,或是矩阵对角线元素之和,Vi和Vj分别是类别i和类别j的矩阵样本协方差,Mi和Mj是其相应的样本平均向量,c是一个定义变形散度值范围的常量。
在地物多于两类的情况下,所有k(k-1)/2 个特征组合的平均分离度被计为一个全面的估算。散度(D)是由所有类对之间的差异导出,它是由代表各类别的样本数据估计出的平均向量和方差-协方差矩阵计算出的。变形散度(TD)在测量处于0到c之间的分离度值时使用了指数加权递减。
散度参量一般用来计算统计分离性,而Bhattacharyya距离常用来评价潜在的正确分类的可能性。欧氏距离仅从类均值来计算,然而各类别通常具有不同的分布形状,而且类之间还有重叠,欧氏距对这些因素没有考虑。马氏距离仍然是类平均可分离性的一个变换了的测度,没有考虑类分布之间的重叠与覆盖。此外,同欧氏距离一样,它本身是无界的,即马氏距离M即使在两类可分性达到100%以后仍然随着类均值距离的增大而增大,同样的问题发生在散度上。一个解决方法是引入一个饱和形式的度量,如变形散度TD,变形巴氏距TB。其中的参数可以根据实际操作来产生。
有研究指出,Bhattacharyya 距离公式中的第一项计算的是类别平均值之差,第二项计算的是变量-协方差矩阵类别内部的差异。应用于Bhattacharyya 距离中的Jeffries-Matusita距离随着类别可分离性的增加会达到饱和。它比散度更适于估算类别间的分离度。然而,它往往压抑了可分离性高的值,并过分强调可分离性低的值。
基于以上分析,在对度量选择时可以参考以下规则:
(1)当类趋向于均匀,而且波段数较少时,选择离散度;
(2)当类趋向于均匀而选择更多特征时,选择变形离散度;
(3)当类分布趋向于不均匀时,而且用较少的特征数时,选用巴氏距;
(4)当条件同(3)而选用较多的特征时,选用变形巴氏距。
§8-2-4  几种常用的分类特征选择与提取方法
1 统计特征分析法
依据地物光谱特征的统计分析,例如标准差、相关系数、墒信息等等可以选择波段的组合,即选择那些标准差大、相关系数小、墒值高的波段或波段组合。因为标准差越大,表明该波段内地物的亮度取值距均值的离散程度大,即地物间的差异可能表现越大,选择性也越大。而相关系数小,说明两波段数据重叠小,独立性强,组合较佳。而墒是衡量信息丰富程度的一个重要指标,可求单波段墒和几个组合波段的联合墒,墒越大,所含信息越丰富,波段组合也越佳。
2  最佳指数法
对于多时相、多波段影像,通常需进行最佳组合波段的选择。针对n个波段的多光谱图像的特征选择问题,美国的查维茨教授提出了最佳指数公式( )为:
                                 (8-2-9)
式中 为第 个波段的标准差, 越大,该波段图像的信息量越大; 表示第 个波段与第 个波段之间的相关系数, 越小,两个波段数据之间的独立性越高。综合起来, 值越大,波段组合越优。
3  比值法
     比值变换在分类中,可以增强土壤、植被、水之间的辐射差别,压抑由地形坡度和方向引起的辐射变换,由于波段之间的比值运算提供了比任何单波段都不具有的独特形象,这对于难以区分的土壤和植被非常有用。其变换的一般形式可表达为:
                           (8-2-10)
    其中: , ——权系数;
——第 波段图像中的影像亮度值;
, ——相应于比式分子和分母的某种线形变换。
比值图像 是原始图像 的非线性变换,它可以看成是原始图像线性变换结果 和 之间的简单比值。权系数 , 可以根据需要来定义和选取。以MODIS图像1-7波段反射率(分别以Ref1-7表示)图像为例,在分类中常见的简单比值变换有:
(1)归一化植被指数:
NDVI=(Ref2-Ref1)/(Ref2+Ref1)                              (8-2-11)
它能很好地表征植被生长状态及植被覆盖度,可有效地区分植被与土壤、水体、雪等类型。
(2)增强性植被指数:
EVI=2.5(Ref2- Ref1)/(Ref2+C1 Ref1 +C2Ref3+L)              (8-2-12)
其中L=1,为土壤调节参数,参数C1和C2分别为6.0和7.5,描写通过蓝波段(Ref3)来修正大气对红波段(Ref1)的影响,它较好地克服NDVI高植被区易饱和、低植被区易受土壤背景影响的缺点。
(3)湿度指数(NDMI)和水体指数(NDWI)
NDMI=(Ref4-Ref6)/(Ref4+Ref6)                   (8-2-13)
NDWI=(Ref4-Ref2)/(Ref4+Ref2)                   (8-2-14)
湿度指数和水体指数表达形式并不唯一固定,还有与上面表达相似的其它波段组合。但它们均能较好地反映出不同土壤湿度植被类型、水体与水生湿地植物的差异。
(4)土壤亮度指数:
NDSI=(Ref1-Ref4)/(Ref1+Ref4)                         (8-2-15)
它能较好地反映半干旱和干旱区不同植被类型的土壤背景亮度。
4  NDVI-Ts特征指数法
植被指数(NDVI)与地面温度是描述土地覆盖特征的两个重要参数,而两种数据的合理融合,可以衍生出更丰富、清晰的地表类型信息。研究发现,一般高植被覆盖类型具有较小的Ts/NDVI(Ts为地表温度,有时也可以亮温代替),低植被覆盖类型Ts/NDVI较大,与NDVI影像比较,Ts/NDVI影像包含更丰富的信息,因此利用Ts/NDVI这个指标特征可提高土地覆盖分类精度和土地覆盖变化的检测能力。
但Ts/NDVI表达式存在一些不足: Ts/NDVI可能趋于无穷大,Ts可能会出现负值, NDVI和Ts数量级差异较大。于是研究者提出了归一化温度植被角度(Normalized Temperature-Vegetation Angel,NTVA)来克服Ts/NDVI指标的不足:
                    (8-2-16)
此指数在大面积土地覆盖类型的识别中非常有效。
5 主成分变换(principal components analysis, PCA)(又称K-L变换)
如果图像各波段之间高度相关,分析所有的波段是不必要的,主成分分析(PCA——principal components analysis)(又称K-L变换)就是一种去除波段之间的多余信息,将多波段的图像信息压缩到比原波段更有效的少数几个转换波段的方法。它产生一个新的图像序列,使图像按信息含量(或方差)由高到低排列,图像之间的相关性基本消除。用前几个主成份就可以表述原始数据中绝大多数地物类别含量,而且去除了一些非地物类别的噪声信息,因此常选择前三主成分来参与分类。对主成分变换的具体描述参加前面第四章“遥感图像的波谱信息增强” 相关内容。
6  缨帽变换(又称K-T变换)
    缨帽变换(又称穗帽变换、K-T变换)是一种特殊的主成分分析,和主成分分析不同的是缨帽变换对同一类型的遥感图像的转换系数是固定的,因此它独立于单个图像。对原始图像经过缨帽变换后,会产生3个分别表征非植被特性的“土壤亮度指数”、表征植被特性的“绿度指数”及表征土壤湿度的“湿度指数”(相应于MSS图像则是表征植被枯萎程度的“黄度指数”)。这种特性可以应用于不同区域上的不同植被和作物,常参与分类的是“亮度指数”和“绿度指数”。缨帽变换常用于MSS和TM图像,最近有研究表明此变换也可应用于MODIS图像,仍以MODIS 1-7波段反射率(以Ref1-7表示)图像为例,经缨帽变换的前三个分量主要反映土壤亮度(BI)、绿度(GVI)、湿度特征(WI),可表示为:
    BI=0.3956Ref1+0.4718 Ref2+0.3354 Ref3+0.3834 Ref4+0.3946 Ref5+0.3434 Ref6+0.2964 Ref7                                                   (8-2-17)
    GVI=-0.3399Ref1+0.5952Ref2-0.02129 Ref3-0.2222Ref4+0.4617Ref5-0.1037 Ref6-0.4600Ref7                                               (8-2-18)
    WI=0.1084Ref1+0.0912 Ref2+0.5065 Ref3+0.4040 Ref4-0.2410 Ref5-0.4658 Ref6-5306 Ref7                                                          (8-2-19)
    通过提取这三个特征参与分类,可有效提高分类精度。
7  最小噪声成分法(Minimum Noise Fraction, MNF)
由于PCA是基于波段内方差的,它没有考虑对图像内包含的信号与噪声分量进行分离。一种以隔离噪音、判定图像内在维数、减少计算量的另一种主成分分析方法——最小噪声成分法(MNF-Minimum Noise Fraction)被提出来。通过该变换可使变换后各成份按照信噪比而不是方差从大到小的顺序来排列。MNF分析的第一步是以噪声成分的协方差矩阵为基础,对图像数据作去相关和重定标处理,这样使得噪声成分具有单方差,且没有波段间的相关性;第二步对经上述处理后的新数据作一次标准的主成分分析。最后,通过对比特征值与相应的结果图像可以把结果图像分成大特征值和主要成分图像,小特征值和噪声成分为主的图像两部分。
此外,还有典范分析(Canonical Analysis,CA)特征提取法,它能够对任意数据集最大化其类间方差与类内方差的比值,从而保证了其最大的可分离性。还有针对一些高维图像分类时,也常采用决策边界特征提取法(DBEF-decision boundary feature extraction),它可以分离出对分类有用的特征和多余的特征。以及小波变换法,它可以对地表土地覆盖类型的光谱曲线进行高低频信号的分离,将不同土地覆盖类型的吸收光谱(包括区间和强度)以不同尺度上的高低频信号的形式表现出来。