Hadoop中空间数据的存储(二)

来源:互联网 发布:淘宝网秋冬运动套装 编辑:程序博客网 时间:2024/05/29 02:15

       在前一节中,我们讲解了空间数据在Hadoop中的存储,通过将块进行可视化来分析了下Hadoop在存储空间数据的缺陷,可能远远不止这一点。今天我们就基于比较完善成熟的SpatialHadoop平台做一下同样的实验,来看下在SpatialHadoop平台中如何体现空间数据的特性。SpatialHadoop平台是由美国明尼苏达大学计算机系(提到这个大家是不是很熟悉,曾经的mapserver)Mokbel教授所带团队研发,目前平台持续更新中。

       接着上一节。

       实验准备:

                  1、数据集:全国县级行政单元(约148MB)

                  2、实验环境:SpatialHadoop2.3

       数据都是一样的。在SpatialHadoop中,数据被分为了四部分。这里我们先不去纠结为什么分为四部分。在下一节的空间索引中我会具体介绍。我们直接看下数据被切分后的结果。这里的结果少几个字段,被我删掉了,忘记保留原本了,会在下一节中体现。这里我们可以看到四个多边形,这是四个块的外包矩形,后面还有四个块的大小,包含多边形个数等要素,一看就知道是索引,下节来看下吧。

       别的就不说了,直接可视化每一个块,看下数据是不是都归拢好了,是不是我们期待的每个快最好是相邻的多边形。我们首先来看下有没有出现同一条记录被物理切分的现象。

       这里你可以看到已经完全闭合的一个多边形了。是和Hadoop中不一样的,那么这里存储的多边形是不是在空间上保持了相邻呢,我们直接可视化。

       Part-00000中数据的可视化结果:

       Part-00001中数据的可视化结果:

      Part-00002中数据的可视化结果:

      Part-00003中数据的可视化结果:


           这里又忘记不要填充颜色了,就这样吧。总之在每一个块中没有发现空白的地方就代表了这个是相邻的多边形被物理分割的时候放在了一起。这样就有利于进行空间操作。我们来看下数据对整个区域的划分情况。

      下节我们真正来看下索引吧。大笑大笑


1 0
原创粉丝点击