违法犯罪人员入住宾馆规律

来源:互联网 发布:软件评审报告模板 编辑:程序博客网 时间:2024/04/27 15:30

实例目标:分析 10 年以来在押的违法犯罪人员曾入住旅馆的规律,为治安防控核查工作提供指导。

通过多方努力,我们汇聚到 10 年的旅馆数据约5 亿余条,10 年内本地在押的人员数据约 65 万条。利用计算机集群,首先建立了比对模型,根据 HADOOP开展比对来组织数据,将 65 万条人员数据放到 5 亿条住宿数据中去找相同项。以“1O + 1”的模式,即10 台服务器作数据节点,1 台作为控制节点,“跑”一遍的时间是 50 分钟左右。最后得到 10 年间在押的人员曾经入住旅馆数据约72. 1 万条。

( 1) 全部在押人员各时段入住旅馆情况的占比分析,具体情况见图 3。

这是一种比较常规的分析方式。面对 70 万的小数据,从 10 年全部在押人员自身入住情况对比,可称为“自占比”分析。从上图 3 可以看出,在押人员入住“自占比”的第一峰值在 22 时左右,第二峰值在 13 时左右,谷值在 6 时左右。这说明,按照 10年来积累的数据看,我们关注嫌疑对象入住旅馆的重点时段应该是夜间 10 时左右和下午 1时左右。

大数据

( 2) 针对全部入住旅馆人员各时段占比分析,具体情况见图4

根据 10 年来全部数据量的规模,传统的关系型数据库处理这些数据效率会很低。用 HADOOP 的MAP -REDUCE 计算框架,15 分钟左右全部完成计算工作,得出图 4 中的结果,可与第一项在押人员入住规律作比较。通过对比可以明显看出,在押人员入住“自占比”趋势与全部人员入住占比的趋势基本一致。这说明在 21 时和下午 1 时左右,本身也是正常人员入住旅馆的高峰时间。因此,这项分析虽有意义,但是针对实战的指导性分析还需要进一步研究。

大数据

( 3) 各时段在押入住旅馆人员与该时段全部正常入住人员的占比分析。

如果把上面的比较分析方式称为关注对象的“自占比”,那还有另一种比较方式,即关注对象与全部对象之间的比较,我们可称为“全占比”。各时段在押人员入住旅馆的“全占比”情况见图 所示。

大数据

大数据

进一步思考通过上述两个案例分析,我们不难发现,基于’大数据#统计分析相关规律的业务建模,可能会逐步超越目前的行业经验,发现事物本质的新的联系,颠覆一些传统的行业规则$因此,迎接’大数据#时代的到来最需要的是一种全新的思维方法。

大数据思维是一个不断演进的过程

两个实例代表了对’大数据#处理与应用的一个演进过程。在起步阶段,我们受到’小数据”思维的惯性控制,增加计算能力的直接目的就是为了提高精确性,总希望直接找到违法犯罪分子。但因为数据量庞大,传统的技术效率低,不能完成海量数据处理任务了,因此想到了分布式计算,并取得了一些应用成效。

在第二个案例中,我们进一步发现,大数据分析中的精确查询之外,还有更广泛应用的更重要的趋势分析和宏观研判。大数据处理更能体现的是一种群体行为,通过海量的数据去发现一个隐藏在数据背后的客观事实,公安大数据要更加重视通过各种工具与方法,通过海量数据的分析发现大数据中隐含的知识和关系。这种’大数据#的思路决定了我们今后的出路! 规律分析是未来一个时期公安’大数据#应用的重点从上述实例中可以看出,引用的数据并不是非常庞大,分析方式是比较简单的比对方法,展示方式也是用较直接和较单一的折线图,仅此就能挖掘出服务实战的结果,这是传统的数据处理方式无法实现的$这就是’大数据#思维产生的作用。

在’小数据#时代,由于掌握的数据量不够多,范围不够全,因此我们的决策更依赖直觉和经验,对事物规律性的把握往往需要一个很漫长的积累过程,而且也容易遗漏。但是,随着’大数据#时代的来临,丰富的多维度数据应用使得公安传统的业务思路得到了极大的丰富,大数据破题的真正关键,在于领会贯通大数据的思维方式。

0 0
原创粉丝点击