大数据之:影像提取中深度学习样本库获取的思考

来源:互联网 发布:手机订车票软件 编辑:程序博客网 时间:2024/06/06 04:37
话说,虾神一直是做空间统计和数据分析的,对于深度学习这个热门学科,一直以来也就停留在“了解”阶段,虽然这个平展开来,里面比较核心的技术使用了聚类,而虾神研究生的时候做的课题也正好是空间聚类,所以也算有点沾亲带故把。但是毕竟不是专门做这个的,具体的技术细节也处于一知半解的状态,而今天突然“赶时髦”般的想写这样一篇文章,无论是蹭热点也好,东施效颦也好,因为有些事情已经到了不吐不快的程度。

先简介一下深度学习(机器学习),贴概念的说法,大家自己去百度,我这里继续我的段子手写法:


机器学习的基本原理。就像下面的漫画:你告诉一台电脑,1+1 =2 然后,问它,它回答等于500,你一边丢他老木,一边不停的矫正,告诉它等于2,等于2,经过无数次的矫正,最后电脑终于知道1+1 =2,那么第一阶段目标达成。。。然后你就可以开始教它1+2 =3 了。


不管是啥学习,关键在于学习两个字,从人类获取知识的角度来说,最标准的流程就是:教——学。首先要有老师教,也就是所谓的启蒙,之后再进去引导,最后才是完全的自学。哪怕是在自学中,如果有人正确的提点,那么效果也会比自学好很多倍。

机器学习也是一样,首先要有“教”的过程,这个过程就是人们先设定好很多样本,不断的告诉机器,这个东西是啥,告诉的过程就是所谓的“训练”,比如识别苹果,人们先准备几百张(几千?几万?几十万?)张不同角度,不同颜色、不同表现的苹果的图片,然后用相应的模式提取出表达为苹果的特征,然后这些特征转换成机器能够读懂的数据模型,比如rgb为255,0,0的就是红色,大部分苹果的颜色都是红色——诸如此类的。

然后就可以调用分类算法,把这些特征的阈值都计算出来,做出分类模型,这样启蒙的过程就算完成了。

下面来了一张新的图片,继续把这张图片提取特征,用新提取的特征,去原来训练好的模型里面去验证一下,如果符合某些设定,那么机器就会告诉你,这个图片里面有没有苹果。

接下去,机器判别之后,人类还可以继续介入,肯定机器是正确的,还是错误,然后给定一个评分,就像老师批改家庭作业和测试一样,然后把新的图片再加入到样本集中,修正模型。

如此往复,当时这个模型训练的次数足够多(五年高考,三年模拟)……那么识别的能力也会越难越强。

好吧,写完之后,发现,我们的考试制度,实际上就是为了把人当成机器来培养……题目做得多,就考得更好。(也不知道是人在学习机器,还是机器在学习人……)

通过前面的接受,大家基本上知道机器学习的一个基本原理了,那么现在影像提取中,如何去应用呢?

实际上在很多年前,影像提取就已经有面向对象提取方法以及监督分类方法等,利用了机器学习的基本思想,但是每次去做,只是针对当次处理的信息和结果。

现在遥感解译领域, 最大的一个点,依然是“人工矢量化”。

通过人工对遥感图像进行解读,然后手动矢量化,提取相应的数据:地块、道路等等。这种工作的方式本来无可厚非(自动解译的准确度实在太低了)。但是在我们做人工解译的过程中,确没有留下任何可以复用的成果。

比如有一副影像图,交给内业工作人员,让他们进行道路提取,一般情况下就是工作人员直接在影像图上进行矢量化,把道路的线直接给绘制,生成矢量的line,然后赋予属性,最后结束工作。

第一年这样做,第二年也这样做,第三年、第四年……

做了N年之后,依然没有任何帮助。训练出来了一堆精通矢量化的劳动密集型工作者。

那么为什么我们不换一个思路呢?有这么多老师,为什么不能把他们从画图者转换为训练员呢?如果说在其他领域里面,样本库的获得是最难的,那么恰恰在我们GIS里面,它们是最容易的。

如果说进行人工解译的时候,把所有的特征数据通过提取——标记的方式,制作成样本库,将这些样本库作为机器学习的样本来提供给程序进行训练。这种方法会被人直接跳出来准备用砖头呼在虾神脸上:你说得轻松,矢量化本来就很辛苦了,还给你去做提取标记,这是N倍的工作量好吧!你来开工资么?就算你你开得出工资,项目时间呢?我们争分夺秒的干活,你还在这里不切实际的在幻想……最后总结出一句话:不懂的走开,瞎指挥……

实际人的工作量完全没有增加,也不用重复工作。当绘制出矢量信息之后,把矢量线(或者面)写入属性信息,那么需要做仅仅是利用这些矢量的面(或者线)直接对栅格数据进行一个按掩膜提取就可以了。

如果说从栅格变成矢量,需要人工来处理,那么从矢量回过头来提取栅格,这个过程完成可以利用脚本或者modelbuilder自动化来实现:看下面这个示例:
如下影像数据

矢量化之后:


只需要利用矢量化之后的地块进行掩膜提取即可:


提取结果如下:


草地1:


花田1:


打完收工。

最后做一个简单总结:

1、遥感影像要进行机器学习获取样本,很容易的可以从矢量化结果中来。
2、矢量化将不再是结果,而只是一个中间的过程。

3、GIS的传统工具,在大数据中,依然会变得很有用,正如英国人发明了坦克,而德国人仅仅在使用的手法上做出了一些改变,就改变了整个战争的形态。

4、当我们做的工作越来多,那么我们的样本库就会越来越丰富,那么机器就会越来越聪明……千里之行始于足下,就从基础数据提取开始吧。

阅读全文
1 0