如何将图片中的一个任意四边形区域的图像转化为矩形【附源码】

来源:互联网 发布:primo反美颜软件 编辑:程序博客网 时间:2024/05/16 05:59

前段时间导师给了一个任务,任务中包含一个功能,将一幅图像中的任意四边形区域映射为矩形区域。比如,我们有时拍照片,因为角度的问题,本来是矩形的广告牌,在照片中可能表现为一个任意的四边形。事实上,在现实中本来是矩形的物体,在照片中往往呈现为任意四边形。将任意四边形的图片转化为矩形的应用现在在我们身边也时常见到:安卓端的adobe reader最近新推出的扫描功能,因为拍照片时不可能完全正对我们的文档,就包含了该功能;同期,WPS office 也推出了扫描功能;除此之外,当我们扫描二维码时,也可以利用该变换,来实现不正对图片进行扫码。该映射学术名称为中心投影变换,Perspective Mapping。


先来看一下一个示例:(示例只是为了说明情况,也没有找到很好的源图,只是为了给大家一个直观的理解,所以并没有实现精确的变换,显示效果不是很好,大家见谅)

-----------------------------------------------------分割线-----------------------------------------------------------

这是源图,我们的目的是把里边的显示屏显示的部分提取出来,并且映射为矩形


图1. 源图

这是处理后的效果图


图2. 效果图

看了这两张图,大家应该知道算法的目的了。

-----------------------------------------------------分割线-----------------------------------------------------------

原文地址:https://www.geometrictools.com/Documentation/PerspectiveMappings.pdf

大家可以看看原文,自己按照里边的内容在草稿纸上推,很快就能推出来。但是里边是全中文的,且有些术语可能有些难理解,所以我在这里对该文章中用的中心投影变换简单解释一下。

先直接上原理图,大家才好有一个直观的认识


图3. 中心投影变换原理图  (a) 中心投影变换图示  (b)任意四边形  (c)矩形

假设E点是发光源,任意四边形 q00 q01 q11 q10 可以在一个平面上投影为 r00 r01 r11 r10 。如图3(a)所示。q00投影为r00,q01投影为r01,q11投影为r11,q10投影为r10。利用线性代数的知识,只要知道了图3(a)中的各个顶点的坐标,那么可以很简单地将任意四边形中的q的坐标映射到矩形中的映射点r的坐标,我们假设这些点的坐标都已知,接下俩我们需要找到q到r或者r到q的映射关系。

注:

1) q是Quadrilaterals(四边形)的第一个字母,r是rectangle(矩形)的第一个字母;

2) 为了简化问题,我们将q00和r00重合为一点,设为o点;

3) 其实我们可以证明,一个任意四边形在图3(a)的投影方式下一定可以投影为矩形,后面的算法分析过程可以证明这一点,所以这里不讨论这个问题。事实上还可以证明,最终的变换与E点的位置无关。

问题转化为将图3(b)中的任意四边形变换为图3(c)中的矩形。(c)中的矩形是很容易“放”到(a)中去的,至少这个过程能够比较直观地想象出来。但是将(b)中的任意四边形“放"到(a)中,这个过程可能不容易想象。那么我们用线性代数或者高中学的空间几何知识来模型化这个过程。

事实上,我们只需要(b)中的任意四边形Q00 Q01 Q11 Q10映射到(a)中的任意四边形q00 q01q11 q10;将(c)中的矩形R00 R01 R11 R10映射到(a)中的矩形r00 r01 r11 r10,然后根据r到q的映射关系,就能解决该问题了。

进下来进入公式推导环节。为了和原文一致,建立以下坐标系


注:将矩形的四个顶点定义为o, (1 0 0), (0 1 0), (1 1 0)不影响结果,虽然它已经变成正方形了。原因是,我们关心的任意的点r的坐标是通过向量or10和向量or01的线性组合的系数,即

r = x0r10 + x1r01 (1)

所以无论坐标系怎么设置,x0和x1的值并不会变,总是在(0~1  0~1  0)区间内,所以先不要纠结r10和r01的坐标问题,直接往下继续公式推导。

注:r表示or向量,r10表示or10向量,下文也是同样的标注方式,以加粗的方式表示向量。


为了让q00(o点) q01 q11 q10四点共面,最好的方法就是将向量oq11 表示为向量 oq01 和向量 oq10的线性组合,记为

q11 = a0q10 + a1q01(2)

只要任意四边形给定,a0和a1两个值可以直接求出,因此可以看作是常量。


同样,任意四边形中的任意一点q可以表示为

q = y0q10 + y1q01(3)


因为点E,q,r三点共线,所以r点的坐标可以表示为

r = E + t(q-E)(4)

其中t为乘法系数

因此可以得到一下四个方程

r00 = (0,0,0) = E + t00(q00 -E)(5)

r10 = (1,0,0) = E + t10(q10 - E)(6)

r01 = (0,1,0) = E + t01(q01 - E)(7)

r11 = (1,1,0) = E + t11(q11 - E)(8)

易知,t00 = 1

假设平面oq01q11q10存在法向量N,则上面四个方程左右边同时点乘N = (n0,n1,n2),可得

(1-t10)N·E = n0, (1-t01)N·E = n1, (1-t11)N·E = n0+n1;

将前两个等式等号左边部分相加,得到第三个公式左边部分,即得到

t11 = t10 + t01 -1 (9)

结合公式(9)与(2),(5),(6),(7),(8)可以解出t00,t10,t01,t11

t00 = 1, t10 = a0 / (a0+a1-1), t01 = a1 / (a0+a1-1), t11 = 1 / (a0+a1-1)(10)

注:a0和a1理解为常数,因为一旦任意四边形确定,a0和a1可以马上算出来,体现在matlab中就是一个矩阵左除运算。


根据公式

(1) r = x0r10 + x1r01

(3) q = y0q10 + y1q01

(4) r = E + t(q-E)

将(1)(3)带入(4),并将r表示为(x0,x1,0),可得

(x0, x1, 0) = E + t(- E) =E+ t(y0q10 + y1q01 - E)(11)

根据公式(6),(7)以及已经计算出来的r00,t10,t01,t11值,可以将q10q01E和(1,0,0)和(0,1,0)表示出来,然后带入公式(11),可得

考虑到E和(1,0,0)和(0,1,0)三个向量线性无关,而他们的线性组合等于0向量,所以三个系数都为0

于是解得


该公式的物理意义我解释一下:

1)我们知道了矩形区域内的一个像素点的坐标,假设为(height,width) = (100,100),同时假设我们想要输出的矩形图像的大小为200*300(height*width),那么x0为1/2,x1为1/3;也就是说x0和x1为将矩形视为单位正方形的情况下,点的坐标,这也是上面可以用单位长度来表征矩形的原因。

2)对于任意四边形中的一点,y0和y1的值也可以相似地理解,只不过这时候的基向量不再相互垂直,可以在matlab中用左除矩阵的运算方式很快地求出这两个值。

3)该公式可以完成这样一种功能,假如加入我们要求矩形中的一点的像素值,我们可以求出该点对应的x0,x1的值,然后通过该公式找到y0和y1的值,再利用y0和y1和公式(3),找到任意四边形中一个具体的坐标

注:在任意四边形中找到的具体坐标通常不是整数,所以需要采用一定的插值策略,我的代码中用的最近邻域插值,采用其他高级插值方式本文不讨论。



同时,我们也可以找到反变换,物理意义同上。



以下是matlab源码

%函数功能:中心投影变换。输入源图,源图中的任意四边形的4个点的坐标(左上,右上,左下,右下),以及输出图像的大小(高,宽)
function Imgback = m_PerspectiveTransformation(imgIn,pointLT,pointRT,pointLB,pointRB,outHeitht,outWidth)
    [imgInHeight,imgInWidth,imgInDimension] = size(imgIn);
    %为了中心投影变换,需要将4个点转化为三个向量,具体看参考文献
    vector10 = pointLB - pointLT;
    vector01 = pointRT - pointLT;
    vector11 = pointRB - pointLT;
    %把vector11表示成vector10和vector01的线性组合,以使三个向量共面
    A = [vector10' , vector01'];
    B = vector11' ;
    S = A\B;
    a0 = S(1);
    a1 = S(2);
    
    
    %输出矩形
    Imgback = uint8(zeros(outHeitht,outWidth,imgInDimension));
    
    
    %利用循环操作来对每个像素点赋值
    for heightLoop = 1:outHeitht
        for widthLoop = 1:outWidth
            %以下算法为参考文献中的公式表示
            x0 = heightLoop/outHeitht;
            x1 = widthLoop/outWidth;
            FenMu = a0+a1-1+(1-a1)*x0+(1-a0)*x1;            %分母
            y0 = a0*x0/FenMu;
            y1 = a1*x1/FenMu;
            
            %根据得到的参数找到对应的源图像中的坐标位置,并赋值
            coordInOri = y0*vector10 + y1*vector01 + pointLT;
            heightC = round(coordInOri(1));
            widthC = round(coordInOri(2));
                if (heightC > imgInHeight || heightC <= 0 || widthC >imgInWidth || widthC <=0 )
                    disp(['m_PerspectiveTransformation超出范围' num2str(heightC) num2str(widthC)]);
                    pause();
                    return;
                end
            for dimentionLoop = 1:imgInDimension
                %使用最近邻域插值,使用高级插值方法效果会更好
                Imgback(heightLoop,widthLoop,dimentionLoop) = imgIn(heightC,widthC,dimentionLoop);
            end
        end
    end
    
    
%     figure; imshow(Imgback); title('投影变换的结果');



阅读全文
1 0