描述地图上兴趣点的采样方法

来源:互联网 发布:淘宝洗车器 编辑:程序博客网 时间:2024/05/04 15:12

1. 问题定义

利用现有的地图查询可以得到很多信息,比如百度地图上查询“秦皇岛旅馆”,查询结果如图1-1所示,当点击任意一个“旅馆”会出现该旅馆的相关信息,包括具体地理位置、价格等相关信息。

图1-1 百度地图搜索“秦皇岛旅馆”

而作位一个老板可能更关注该地区的该地区一共有多少间房可供出租或该地区旅馆住宿一晚上的平均价格或者旅馆星级分布——各星级饭店各占比例。上述信息概括起来分别对应聚类信息里的和、平均与分布。

令A为感兴趣的区域,P为该区域内的兴趣点集合,f(p)将兴趣点p映射为一个正实数。对这三个聚类信息定义如下:

(1) 和


 (2) 平均


(3) 分布

令{h1,…,hJ}兴趣点的等级,θ = {θ1,…,θJ}为地区A的兴趣点分布,L(p)为兴趣点p的等级,则有:


其中当兴趣点p的等级为hj时l(L(p)=hj) = 1;反之,l(L(p)=hj) = 0。

例如:当f(p)为旅馆p的房间个数,那么fs(P)表示整个地区可供出租的房间总个数。当f(p)为旅馆p一个房间一晚上的开销,则fa(P)对应于在地区A住一晚的平均开销。因此上述公式可表示丰富的聚类信息,且跟f(p)的定义相关。

2. 分析与求解

显然可以从现有的地图服务中查到所有的信息,但提供的服务每页只能看到10个旅馆的详细信息,如图1-1所示。

若统计整个秦皇岛地区的旅馆平均价格,则方法1可以查看每一个旅馆的信息统计求平均值即可。显然这是不现实的,从图1-1中可得秦皇岛有6456间旅馆。方法2就是使用地图API直接返回旅馆,从而使用计算机去自动的统计整个地区的炉管信息。但现有的地图API限制了查询频率与每次查询结果的个数,例如Fourquare地图API每次查询最多返回50个结果,每小时只允许查寻500次。利用该地图API统计14个城市的API,Li等人用14台电脑统计了2个月。

易得上述两种方法求得整个地区的实际统计信息都不可取,因此应采用取样的方式去估计整个地区的统计信息。

2.1 朴素方法

假设地区兴趣点(PoI)均匀分布,将区域进行等分,划分后的每块区域中PoI的个数应为划分前的一半。一直等分直到最后区域中的样本个数小于API限制的阈值即可,此时样本中的PoI的个数除以其所占的比例即可得到该地区中PoI的数量。

例图2-1所示,设API的阈值为5,将整个区域进行等分,等分时随机选择一个样本继续划分,图中仅为一种情况。图中样本b所占的比例为1/2*1/2*1/2=1/8,因此整个区域的PoI的个数为4/(1/8) = 32。

图2-1 采样朴素方法示意图

分析:此种方法假定样本中的PoI是均匀分布的,但对于任何一种PoI都是不现实的,因此估计出的整个样本的误差较大。另外,最后的比例是根据面积比代替了PoI的数量比,也增大了误差。

2.2 RRZI(Random Region Zoom-IN)

在图2-1所示的例子中第二次划分时,下边的区域中没有任何PoI,但也将比例缩小1/2,显然不合理,因此可修改为图2-2所示。图2-2中样本b所占的比例为1/4,因此整个区域中PoI的个数为4/(1/4)=16,显然优于2.1。为了减少误差应进行m次试验求得平均值。

图2-2 RRZI示意图

易得此方法的流程图如图2-3所示。

图2-3 RRZI流程图

2.3 RRZIC(Random Region Zoom-IN Count)

在地图API中虽然限定了每次查询返回结果的个数,但是可以返回任意区域总PoI的数量,如图2-4所示,样本b所占比例应为2/9。

图2-4 RRZIC示意图

2.4 URC

API中除了限定查询频率与查询结果外,还对查询范围进行了限制,而一个城市的区域通常均超过该限制,因此影响将区域进行划分,然后随机选择一个非空区域可采用2.1、2.2或2.3中任意一种方法估计该子区域的PoI数量,最后估计整个区域的PoI数量。

 

参考文献:

1. An EfficientSampling Method for Characterizing Points of Interests on Maps-icde2014

0 0
原创粉丝点击