KDD cup 2017 高速公路收费站交通流量预测 中文翻译(转载)

来源:互联网 发布:淘宝不计分规则 编辑:程序博客网 时间:2024/05/02 19:06

本文转载自他人博客,方便大家快速理解赛题

原文地址:http://www.cnblogs.com/aszhaoweiguo/p/6530748.html

赛题原地址:https://tianchi.aliyun.com/competition/information.htm?spm=5176.100067.5678.2.vrFqj0&raceId=231597

旅行时间和交通量预测

 

背景

  高速公路收费是交通网络中众所周知的瓶颈。 在高峰时间,在收费站的长队排队可以压倒收费站。

  需要有效的预先采取的对策来解决这个挑战。 这种对策包括加速收费过程和简化未来的交通流量。收费征收的过程可以简单地让收费员打开更多的车道。

  未来的交通流可以通过在上游交叉口自适应地调整交通信号来简化。 抢占性对策只有在交通管理部门接收到对未来交通流的可靠预测时才能工作。

  例如,如果预测下一小时的繁忙交通,则交通监管者可以立即部署额外的收费员或在上游交叉点转移交通。

 

  交通流模式由于不同的随机因素而变化,诸如天气条件,假日,一天中的时间段等。未来业务流和ETA(估计到达时间)的预测是已知的挑战。

  来自Waze(美国)或Amap(中国)等移动应用的前所未有的大量流量数据可帮助我们应对这一挑战。

  如果这个提出的KDD CUP中的参赛者可以设计用于未来业务流和ETA预测的可靠方法,则业务管理机构可能能够利用大数据和算法来减少在收费站的拥塞。

任务

  可用的数据集是:目标区域(图1,3和4,表3和4)中的道路网络拓扑,车辆轨迹(表5),收费站历史交通量(表6)和天气数据(表7 )。 比赛包括两个任务,详情如下。

  任务1:估计从指定的十字路口到收费站的平均行程时间。对于每20分钟的时间窗口,请估计特定路线的车辆的平均行驶时间(如图1所示)。

      a.从交叉路口A到Tollgates 2和3的路线;

      b.从交叉路口B到Tollgates 1&3的路线;
      c.从交叉口C到Tollages 1和3的路线。

  注意:给定路线的20分钟时间窗口的ETA是在该时间窗口中进入路线的所有车辆轨迹的平均行进时间。 每20分钟时间窗口被定义为右半开时间间隔,例如[2016-09-18 23:40:00,2016-09-19 00:00:00)。

 

  提交格式(见表1)
  在本文档中的所有表中使用的数据类型是int,float,string,date和datetime。 日期和日期时间符合格式“yyyy-MM-dd”和“yyyy-MM-dd HH:mm:ss”。

   time_window字段由两个日期时间类型(由逗号分隔,不带任何空格)组成,例如“2016-09-18 08:40:00,2016-09-18 09:00:00”。

表1: 从十字路口到收费站的行程时间

 

  

  任务2:预测平均收费交通量。对于每20分钟的时间窗口,请预测收费站1,2和3(图1和图2)的进入和离开交通量。

      注意,收费站2仅允许交通进入高速公路,而其他允许交通双向(进入和退出)。 因此,我们需要预测5个收费站方向对的总体积。

  

  提交格式(见表2)

  表2: 收费站交通流量

 

 

图1: 目标区域的公路网状拓扑图

  训练和测试数据集:
    在比赛开始时,参赛者将对10月18日至10月24日的特定高峰时间的交通情况进行预测。 5月25日将进行数据交换,之后参与者需要预测10月25日至10月31日高峰时段的交通。

 

  参赛者将在图2所示的红色时隙期间,即在08:00至10:00和17:00至19:00,以20分钟间隔预测随后的交通。

 

 

图2: 流量预测的时间窗口

 

  对于行程时间预测,初始训练集包含从7月19日至10月17日收集的数据。 对于流量预测,初始训练集包含从9月19日到10月17日收集的数据。

   在5月25日的数据交换之后,将为这两个预测任务添加从10月18日到10月24日的附加训练数据。
  在测试数据集中,在图2所示的绿色时隙期间,即06:00至08:00和15:00至17:00,向参赛者提供交通数据。 参赛者可以使用该信息作为接下来两个小时的流量的主要指标,这是需要被预测的。
  注意:参赛者不仅限于在预测中仅使用之前的2小时数据。 然而,每个预测被限制为仅使用预测时间窗口之前的业务数据。 例如,参赛者不允许使用10月20日的流量数据来预测10月19日的流量。

  评估指标

  我们选择平均绝对百分比误差(MAPE)来评估结果。
  任务1:令drt和prt为在时间窗t期间路线r的实际和预测的平均行程时间。 旅行时间预测的MAPE定义为:

 

 

    R和T分别是测试周期中路由的数量和预测时间窗口的数量。

 

  任务2:令C是收费站方向对的数量(如上所述:1条目,1出口,2条目,3条目和3出口),T是测试周期中的时间窗口的数量, 以及fct和pct是在时间窗t期间特定收费站方向对c的实际和预测交通量。 用于业务量预测的MAPE被定义为:

 

 

数据描述

  这里使用的道路网络(图1)是由互连的道路链路形成的有向图(图3)。 网络中的路由(图4)由链路序列表示。

  对于每个道路链路,其车辆交通来自一个或多个“进入道路链路”并且进入一个或多个“输出道路链路”。 表3和图3描述了道路链路。

 

表3: 公路链接属性

 

 

 

图3: 公路流入流出示意图

 

  从道路交叉口到高速公路收费站的车辆具有有限的路线选择。 对于每个交叉口 - 收费站对,我们仅选择表4中最重要的一个。例如,图4示出了具有从交叉口B到收费站1的9个连续道路链路的路线。

 

表4: 从十字路口到收费站的车辆路线图

 

 

 

图4: 从路口B到收费站1的链接序列

  

  表5介绍了从道路交叉口到公路收费站的路线上的实际车辆的时间戳记录。

表5: 路线的车辆轨迹

 

 

 

表6: 通过收费站的流量

 

 

 

表7: 目标区域的天气数据(每3个小时)

 

 

  

  表3和4是时不变的。 因此,它们仅在训练集中提供。 根据上述描述,在训练集和测试集中提供表5,6和7。

  我们还提供了两个示例python脚本,它们可以处理表5和表6,并生成符合表1和表2结构的结果。


0 0
原创粉丝点击