信息追凶---DB2 PureXML 技术在刑侦破案的应用
来源:互联网 发布:mac虚拟机占内存吗 编辑:程序博客网 时间:2024/04/28 12:27
信息追凶DB2 PureXML 技术在刑侦破案的应用 |
级别: 中级 吴敏达 (wuminda@cn.ibm.com), 信息管理软件高级技术顾问, IBM 2008 年 6 月 04 日 " People lie, Numbers don't ",看过美国连续剧 NUMB3RS 后都会为运用信息技术来进行刑侦破案的方法印象深刻。随着信息时代的到来,信息化发展也为公安工作带来了新的挑战和机遇。如何对公安数据资源进行整合和复用,实现全局性数据的综合应用、各种信息自动关联以及各类线索的自动挖掘的功能,从而为信息办案提供综合应用的结果?本文结合实例介绍了利用 DB2 PureXML 技术进行信息破案的相关技术。 信息破案的重要部分就是数据线索的关联,美国 911 恐怖袭击后的嫌疑人分析就是利用信息线索关联实现快速破案。随着“金盾工程”的推进,逐步建成了八大信息资源库的综合资源数据库平台,这就有了信息线索关联分析的基础,同时也有迫切的需求。 公安的人口基本信息资源库、出入境人员资源库、机动车驾驶人信息资源库、警员基本信息资源库、在逃人员信息资源库、违法犯罪人员信息资源库、被盗抢汽车信息资源库、安全重点单位信息资源库包含了很多关联性分析,这些关联具有相应的扩展性。 我们先来看一个例子来了解信息关联的含义。如图我们看到三个孤立的信息数据,他们来自不同的数据源。第一个人的记录来源于信息源 A 的 2002 年的数据,主键编号 701;第二个人的记录来源于信息源 B 的 2003 年的数据,主键编号 9103;第三个人的记录来源于信息源 C 的 2004 年的数据,主键编号 6251。 图 1. 没有信息关联情况下的源数据 这种没有上下文的孤立信息在案件侦破中很难发挥重要作用。但是如果通过数据清洗和线索关联,就会发现这其实是一个有联系的上下文信息。比如通过电话关联,会发现 B-9103 的数据和 C-6251 是关联的;通过驾驶证号关联,又会发现 A-701 和 C-6251 是关联的。在整个信息关联的背后,一个完整的上下文信息就浮现出来,这给刑侦破案带来巨大的帮助。 表 1. 上下文信息的累计
通过这个例子我们发现这些信息尽管对事物的描述不同,但实际上是对同一事物相互补充的描述,这就是综合信息关联。通过综合信息关联,我们可以把看似孤立的信息联系起来,在本例中,三个不同信息源的信息 A-701、B-9103 和 C-6251 被认为是同一个人相关信息。 图 2. 综合信息关联场景举例 综合信息关联在公安的信息应用中有至关重要的作用,在实现上有以下特点:
这些关联性的分析很难用 E-R 模型来描述,因为 E-R 模型本质上是一个二维的模型,通过一系列二维的关系组合来描述复杂实体对象,每个表所代表的所有实体在建模设计时没有差异性。由于在关联分析时,这种个体间的差异性不是仅仅表现在属性上,而且涉及到结构和关系,如果采用 E-R 模型,则需要为有差异的实体建立不同的表和对应关系。数据库的结构变得十分复杂,数据库中的信息变得难以理解。 XML 是一种崭新的数据模型,这种新型的数据组织方式在信息管理领域应对信息的复杂性、可理解性和灵活性的挑战开启了新的道路,迎合了技术发展的方向和潮流。 在综合信息关联的数据模型中只有采用 XML 模型才能真正实现公安业务的需求,这是基于以下几个原因:
清单 1. 把关联分析用 XML 模型来进行存储线索
众所周知,DB2 从 9 版本开始实现了 PureXML 技术,开辟了 XML 数据存储和管理的新天地,是第一个以 Native 方式同时支持关系型数据和 XML 数据的双引擎数据库。在存储方面,DB2 PureXML 可以将 XML 进行 Native 方式存储。在应用访问方面,支持 SQL 和 XQuery 两种访问方式。 管理着数百万的 XML 文档的 XML 应用程序并不罕见,因此要提供高查询性能就要为大量的 XML 数据编制索引。DB2 支持在 XML 列上建立路径特定的索引,因此元素和属性常用作谓词且可以编制跨文档连接的索引,利用索引可以快速直接访问文档中的节点,并避免文档遍历。 由于 DB2 PureXML 从根本上解决了 XML 模型的存储、管理和查询的技术问题,极大提高了 XML 模型的性能,这使得 XML 能够在公安综合信息关联应用中得到真正应用。 例如我们可以把清单 1的线索存放在 DB2 pureXML 数据库表 NUM3RS 的 TEST 字段中,然后可以使用 XQurey 轻松得到线索的相关信息,包括具体信息和与其他源系统的关联信息。查询场景和代码参见图 3和清单 2。 图 3. 利用 DB2 PureXML 中的 XQuery 对线索库进行查询 清单 2. 利用 DB2 PureXML 中的 XQuery 对线索库进行查询
采用 XML 模型以后,可以很容易实现线索的扩展。比如开始没有根据护照号进行关联,生成了两个独立的线索,每个独立线索都是独立的 XML。新增护照号关联以后,非常容易地通过 DB2 的 XQuery transform 来实现 XML 拼接成为一个完整的线索。 图 4. 上下文关联具有扩展性 清单 3. 利用 DB2 PureXML 中的 XQuery transform 进行线索的拼接
架构设计如图 5,通过 IBM Information Server 对源系统的数据进行清洗、标准化后,进行上下文的分析,最后进入到 DB2 pureXML 的线索资料库中,分析和展现可以采用 IBM 的数据仓库平台 DB2 Warehouse 来完成。 图 5. 系统架构设计 如图 6,运用 Info 2.0 和 Mashup 相关技术,还可以轻松融合不同信息源并展示出复杂的线索关联,开发出基于 Web 2.0 的智能创新应用。
图 6. 基于 Web 2.0 的智能创新应用 通过综合信息关联和 DB2 PureXML 的存储和查询技术,我们可以找到信息关联并方便地运用。刑侦破案除了会通过查询方式来利用信息关联,也会涉及到处理大量的文本信息,比如对案件相关人员的访谈记录、对嫌疑人的审讯笔录等。如何在这些文本信息处理中使用已知的综合信息关联,提高破案效率呢? IBM LanguageWare Miner for Multidimensional Socio-Semantic Networks (以下简称Miner)提供了信息关联网络中语义分析的信息处理解决方案,它通过获取已知节点的信息数据,推断出新的信息节点,从而完成整个信息网络中的语义关联。 Miner 提供了信息关联网络中涉及到的语义和词典的映射功能。首先需要把已知的信息节点构建成词典,词典是基于 XML 的模型,存放在 DB2 PureXML 中。词典内容分为以下两部分内容:
针对本文的综合信息关联部分的例子,在 DB2 PureXML 存放语义词典内容如下所示。 清单 4. DB2 PureXML 中建立语义分析词典
我们会发现 清单 4 和 清单 1 的内容十分类似,不同的是在语义分析词典中会包含下列指定的 XML 元素:
下图可以看到在 DB2 PureXML 中建立好语义分析词典后 Miner 的界面,我们可以直观浏览每个信息节点的具体内容,更重要的是可以浏览到每个信息节点相关联的其他信息节点。 图 7. 语义分析词典 在使用 Miner 做语义分析的时候,只需要打开相关文本文件,如访谈记录或者审讯笔录,Miner 就会智能分词并根据词典中的线索提炼出关键信息突出显示。点击这些关键信息节点,就可以浏览相关联的信息内容。在 图 8 右边显示的是 Miner 推断出的重要信息节点,这些推断是根据上下文和词典智能推断的。举例而言,即使信息A内容没有在文本中出现,Miner 也会根据文本中多个与信息 A 关联的其他信息节点推断出建议信息 A,而这些建议信息往往是案件侦破的关键所在。通过 Miner 的智能语义关联,极大提高了了刑侦办案效率。 图 8. 信息关联的智能语义分析 在刑侦破案领域,信息共享是非常重要的,信息不能被方便的使用就等同于没有信息。当发现无法快速地查询几百个公安和司法数据库的罪犯信息,所采取的行动只能是地毯式的搜查,大大降低了破案的效率。因此资源整合、信息共享正成为公安信息化的主要发展方向。建立及时的、完整的、准确的信息共享平台会极大增强刑警统一指挥、信息共享、协同作战和处置紧急情况、突发事件的快速反应能力。 XML 作为一种数据格式在上世纪 90 年代中期出现,一开始其主要的目的应用于系统间的数据交换。为便于数据交换,其设计包含了几个主要的特点。首先是采用自描述的标签式数据描述方式,数据本身描述自己的含义,从而使数据的可读性大大提高,十分易于人或程序理解。另外 XML 采用层次型(树型)的方式组织数据,通过层次关系体现出数据与数据之间的关系。层次模型能够比较清晰地描述复杂对象。而且 XML 十分灵活易于扩展,数据交换结构的变化不会影响到应用程序。 信息共享平台可以通过XML的Schema来定义 XML 模型的标准,通过 Schema 来定义交换数据所包含的信息字段以及是否符合标准,比如法庭审讯时间的字段类型等。经过近 10 年的发展,XML 已经成为数据交换的事实标准,国际上形成了很多行业性的 XML 技术标准,对信息技术产生的很大的影响。在司法和公安领域进行数据交换的行业标准称为 Global Justice XML Data Model,国外已经有使用该标准构建公安信息共享平台的案例。 清单 5. Global Justice XML Data Model 代码示例
由于 DB2 pureXML 对于 XML 的 Native 方式存储,XML 报文可以作为整体、无需额外开销地存储在 DB2 的 XML 的字段中,并且在存储时对 XML 进行了解析。这样既节省了将 XML 拆分映射到数据库表的麻烦,又能提供对 XML 任意节点的查询。同时一次解析多次查询也提高了对 XML 的查询速度。这些交换的 XML 可以被 DB2 数据库原生态地管理起来。应用可以非常便捷地将 XML 以灵活的格式送入“信息高速公路”(企业总线),或者从企业总线中获得 XML,信息共享平台的能力大大增强了。信息中心可以采用 DB2 Warehouse 提供信息服务和数据分析服务。整个平台的架构如下: 图 9. 信息共享平台架构设计 XML 数据不仅具有灵活性和易理解性等优势,在 DB2 pureXML 中也非常容易被查询和使用。XQuery 是查询 XML 数据的一种新语言,非常容易被业务人员所理解。 下面以 Global Justice XML Data Model 为例查询身高超过 5 英尺 11 英寸的罪犯。我们可以直接在 DB2 中执行以下 XQuery 语句,在代码中除去了命名空间 NameSpace 的声明使得逻辑更加清晰。执行结果返回两条罪犯记录,一个罪犯身高为 6 英尺,一个罪犯身高为 9 英尺 1 英寸。 清单 6. 查询身高超过 5 英尺 11 英寸的罪犯
清单 7. 返回结果示例
本文从信息破案的热点领域之综合信息关联、智能关联语义分析和信息共享平台进行了 DB2 pureXML 应用的探讨,DB2 pureXML 在公安行业的应用仅仅是个开始,但是我们仍然很欣喜地看到未来的前景。每一种技术都是伴随需求和挑战应运而生,为适应利用信息快速破案的业务挑战,由层次模型与传统的关系型模型结合的 DB2 pureXML 技术开创了崭新的信息应用模式。 |
- 信息追凶---DB2 PureXML 技术在刑侦破案的应用
- 信息追凶——DB2 pureXML 技术在刑侦破案中的应用
- DB2 V9 pureXML在企业应用程序中的典型应用
- DB2 pureXML
- DB2 pureXML与其它数据库XML实现技术对比
- DB2 pureXML 行业数据建模及应用经验分享
- <<DB2 pureXML Cookbook>>Contents
- 更新:IBM DB2 pureXML 工具包
- <<DB2 9 pureXML Guide>>Contents
- 基于 pureXML 技术的数据库表结构扩展
- 基于 pureXML 技术的数据库表结构扩展
- 手机定位软件在破案中发挥的作用
- 图侦在公安破案中起到什么样的作用
- DB2 Version 9.5 pureXML 新增强概述
- pureXML
- 信息科技让联邦调查局案发前破案
- 使用 WebSphere Integration Developer 公开 DB2 Version 9 pureXML
- DB2 pureXML 动态编程组合拳:iBatis+BeanUtils+JiBX
- 3x+1问题
- Rails源代码分析(6):ActionController::Flash
- 1.singleton模式的的两种实现方式
- How "Copy File" works in 'View Output" screen in Oracle Apps
- js截断长文章
- 信息追凶---DB2 PureXML 技术在刑侦破案的应用
- System.getProperty()参数大全
- Occlusion Culling Algorithms
- 面试例题1
- Struts 2中的OGNL
- 陋室铭
- 开通
- 联想的“二奶”风波
- 整个web项目一起打包,而不用设置环境变量