[Paper 学习笔记]PCANet: A Simple Deep Learning Baseline for Image Classification?

来源：互联网发布：svn 默认端口号编辑：程序博客网时间：2024/04/26 09:16

一、 PCANet简介

一种用于图像分类的深度学习网络，用于提取图像中的特征。主要由级联的PCA filters、binary hashing和块直方图构成。相比于RandNet和LDANet，性能更佳，可适用多个数据集，结构和参数设置简单。

二、PCANet结构

1.结构图

如下图所示：
PCANet的结构
N个m×n大小的训练图，所有层中的patch尺寸都是k1×k2，只有PCA filters需要学习输入的图像。

2.First stage

每张图划分成(m-k1+1)(n-k2+1)个patch,去平均值得到如下输入矩阵：

为了使复原误差最小：
这里写图片描述
（以上过程相当与计算输入所用图像的协方差）
将矩阵的特征值从大到小排列，取前L1个特征向量作为该层提取到的图像特征：
。

3.Second stage

将上一层提取到的特征与补零对其后的输入矩阵做卷积
l=1,2,3…L1
去平均值每块化为向量得到第二层的输入矩阵这里写图片描述
（输入矩阵的大小是上一层的L1倍）
类似地获得第二层的特征向量：

因此：第二层的输出特征为L1*L2个
重复上述步骤可建立更多级的结构。

4.Output stage

将上一层的输出特征进行二值化：
这里写图片描述（H(.)表示>0=1，其他取0）
这里假设上一层的滤波器的个数为L2，给每个滤波器的输出进行量化并设置权重组合相加：

因此，每个像素的取值范围为[0,2^L2-1].
对每个Block统计取值生成直方图并化成矢量：
则最后的输出为这里写图片描述
Block可根据实际情况选择是否重叠，通常人脸识别选择不重叠，而手写体、目标识别、纹理判别选择重叠。