程序博客网 > python 数据清洗框架

[字符识别系列][一] 字符识别中的图像归一化算法简介

来源：互联网发布：python 数据清洗框架编辑：程序博客网时间：2024/06/01 10:37

本文介绍3种基本的字符形状归一化算法(Character Shape Normalization)。字符归一化是光学字符识别中的一个子步骤，给定一个字符区域，我们要做的就是将该区域内的字符归一化到一个标准模板大小，然后才能提取特征，并送给分类器做具体的识别。好的归一化算法可以尽量提高后续特征提取在同一类内的一致性。

先来看一个例子，假如上帝拥有一个完美的字符归一化算法，那么他将可以做到如下所示的效果：

图1，完美的归一化：左边为原始字符区域，右边为归一化后的结果。

如果说我们能做到上述结果，那么也就无需再做特征提取，也无需再做训练，而只需简单的模板匹配即可得到100%准确的分类结果。可以看到，上述算法的能力在于：

1. 归一化到标准模板大小

2. 倾斜校正

3. 笔画宽度归一化

4. 字形归一化

可惜的是，今天介绍的几种常见算法仅能保证第1点的实现，而2，3则只能实现部分。至于4，就让后续的特征提取去弥补吧。言归正传，3个算法分别是：线性归一化算法，基于图像矩的归一化以及非线性归一化算法。

按惯例，3个算法的标准c实现可在：

https://github.com/UnilVision/visionbase/tree/master/ocr/baseline/normalization找到。希望对大家有所帮助。

线性归一化：线性归一化算法就是一个标准的线性采样过程，采用线性插值获得最终的图像结果。在我们的实现中，使用反向计算的方式：

$x = \alpha x' , y = \beta y'$

其中 $\alpha$ ， $\beta$ 为长和宽的比值。

对应代码中的函数为：

[cpp] view plain copy

void backward_linear(unsigned char* src, int src_wid, int src_hei, int src_widstep,
CHARECT_t* region,
unsigned char* dst, int dst_wid, int dst_hei, int dst_widstep,
int ratio_preserve_func);

图像矩归一化：我们可以通过图像矩来预先校正字符的倾斜度，并通过矩来获得字体的实际大小[w1, h1]及中心位置[xc, yc]。归一化的原始区域被修改为

[xc-w1/2, xc+w1/2, yc-h1/2, yc+h1/2]。其计算方法为：

$x_c = \frac{m10}{m00}, y_c = \frac{m01}{m00}$

$w=\gamma \sqrt{\frac{\mu_{20}}{m_{00}}}, h = \gamma \sqrt{\frac{\mu_{02}}{m_{00}}}$

$\gamma$ 是一个经验值，一般取4。

其中图像矩的计算方法：

$\mu_{pq}=\sum_{x}\sum_{y}(x-x_c)^p (y-y_c)^q f(x,y)$

$m_{pq}=\sum_{x}\sum_{y}x^p y^q f(x,y)$

在找到新的区域[xc-w1/2, xc+w1/2, yc-h1/2, yc+h1/2]后，后续即调用线性归一化算法即可。对应代码中的实现为：

[cpp] view plain copy

void backward_moment(unsigned char* src, int src_wid, int src_hei, int src_widstep,
CHARECT_t* region,
unsigned char* dst, int dst_wid, int dst_hei, int dst_widstep,
int ratio_preserve_func);

图像矩倾斜校正：利用图像矩，我们可以找到字符的倾斜角 $\theta$ ：

$\tan\theta=\frac{\mu_{11}}{\mu_{02}}$

采样计算方式为：

$x=x'+(y-y_c)\tan\theta$

$y=y'$

注意这里我们仅调整x的位置以保证图像的中心仍然处于原始的xc,yc。其实现对于：

[cpp] view plain copy

// slant correction
// Note>> (dst_wid, dst_hei) must equal to (region.width, region.height)
void backward_moment_slantcorrection(unsigned char* src, int src_wid, int src_hei, int src_widstep,
CHARECT_t* region,
unsigned char* dst, int dst_wid, int dst_hei, int dst_widstep);

通常倾斜校正会放在归一化之前，已获得更好的效果。

非线性归一化：这里实现的是Jun Tsukumo在1988年提出的一个经典算法（原论文名称为Classification of Handprinted Chinese Characters Using Non-linear Normalization and Correlation Methods）。作者的思路是希望每一行，每一列的背景区域都可以平均分布。

为此，他首先为每个像素在x，y方向分别定义了个概率密度函数： $d_x(x, y)$ 以及 $d_y(x, y)$ 。这两个函数的计算方法是：

如果（x，y）是一个属于字符区域的像素，那么都取一个极小值（在我们的实现中，这个值是0.001f，调整这个参数可以引起归一化后笔画的粗细变化）。

如果（x，y）是背景区域像素，那么:

$d_x(x, y) = \frac{1}{\omega_x +w1}$

$d_y(x, y) = \frac{1}{\omega_y +h1}$

其中 $\omega_x$ 和 $\omega_y$ 分别是当前像素所处x方向背景像素的run-length和y方向的run-length。有了这两个密度函数，定义：

$p_x(x)=\frac{\sum_{y}d_x(x,y)}{\sum_{x}\sum_{y}d_x(x,y)}$

$p_y(y)=\frac{\sum_{x}d_y(x,y)}{\sum_{x}\sum_{y}d_y(x,y)}$

这里px和py就是归一化后的投影直方图了，为了在归一化后的图像中让px和py平均分布，引入两个函数hx，hy：

$h_x(x)=\sum_{i=0}^{x}p_x(i)$

$h_y(y)=\sum_{j=0}^{y}p_y(j)$

通过前向映射采样即可实现归一化操作：

$x' = w_2 h_x(x)$

$y' = h_2 h_y(y)$

注意这里与前两个算法的不同之处，前向映射是将当前图像的某个像素映射到归一化的图像中。而反向映射则是将归一化的图像中的某个像素位置映射到原图像中。

非线性归一化的实现对应：

[cpp] view plain copy

void forward_nonlinear_1d(unsigned char* src, int src_wid, int src_hei, int src_widstep,
CHARECT_t* region,
unsigned char* dst, int dst_wid, int dst_hei, int dst_widstep,
int ratio_preserve_func);

参考结果：

最后看下各个算法的结果：

图2，参考结果。从左到右依次：1. 原始扣取的图像通过OpenCV的resize函数缩放。2. 线性归一化。3.基于矩的归一化。4.先倾斜校正再基于矩的归一化。5.非线性归一化。

原文地址:http://blog.csdn.net/unilvision/article/details/8624606

0 0

python 数据清洗框架

python 数据清洗框架

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子孩子元角分不会怎么办分手后难受怎么办分手很难过怎么办分手后难过怎么办如果不想分手怎么办分手后还想他怎么办浏览器脱机怎么办 ie浏览器脱机怎么办港澳商务签证怎么办去香港商务签证怎么办广州外国人过期怎么办柬埔寨签证过期怎么办去澳大利亚怎么办签证去阿联酋怎么办签证阿曼签证怎么办怀孕呕吐厉害怎么办吐司揉不出膜是怎么办气不上行怎么办罗汉头上有白点怎么办悟道以后应该怎么办悟道以后该怎么办拳皇k天黑怎么办拖把桶甩干不转怎么办拖把转杆不转了怎么办 cad2012过期了怎么办 cad过期了怎么办 cad2010激活不了怎么办 cad2014激活失败怎么办 cad激活失败怎么办手机无线网太慢怎么办居民身份证没磁怎么办身份证磁性失效怎么办身份证失去磁性怎么办木门框有鼠妇怎么办屋里有潮虫怎么办家里潮长潮虫怎么办金鱼尾巴分叉怎么办屋里有果蝇怎么办羊绒围巾老掉毛怎么办阑尾炎穿孔怎么办阑尾炎引起发烧怎么办