信息孤岛的解决方案
来源:互联网 发布:埃尔多安访问新疆知乎 编辑:程序博客网 时间:2024/04/29 11:39
信息孤岛的解决方案
樊梦真
269779216@qq.com
内容提要:产生信息孤岛的根本原因在于当前的软件设计模式存在问题,人们是先设计出数据结构各不相同的信息系统,然后再通过转化数据结构而实现互联互通,犹如火车通过换车轮而实现互通。火车之所以可以互通是因为火车是以标准化的钢轨为基础而设计。本文的独立数据库技术借鉴“以标准的钢轨为基础而设计火车”的“标准化模式”,通过“数据结构的标准化”及“数据的标准化”方式而从根本上避免信息孤岛问题的产生。
1.1 火车的互联互通及机械零部件的互换性对信息系统设计的启示:标准化
火车之所以能够在全国各地互联互通,是因为全国的钢轨都是标准的,我国的各种火车都是以标准的钢轨为基础而设计的。机械零部件的互换性是机械中的一个非常重要特性。机械工程师在设计机械设备时都要尽量采用标准的零部件。火车的互联互通及机械零部件的互换性都是以“标准化”为基础。
然而,对IT行业的软件工程师而言,他们几乎没有标准的概念。软件设计人员在设计软件系统时几乎不考虑任何标准,各种信息系统中的数据完全由软件设计人员自己任意定义,其结果就是各种信息系统中的数据全是不标准、不规范的异构数据。
如果全国各地的火车钢轨都是不标准的,那么火车要在全国各地行驶,就必须不断地“换车轮”,火车换一次车轮需要80分钟。
当前的信息系统通过转换数据结构的方法实现互联互通就犹如火车“换车轮”。铁路交通以“钢轨的标准化”而从根本上避免了“铁路交通孤岛”问题的产生。如果各种信息系统的数据及数据结构也采用标准化的数据和数据结构,那么,也可以从根本上实现各种信息系统之间的互联互通!然而利用关系数据库技术,不可能使数据结构标准化、统一化。独立数据库(源于发明专利技术“医学信息的结构化存贮方法”)中的“事物信息表”可存贮各种各样的结构化数据,可以成为标准的数据结构表。
1.2 以“数据结构的标准化”+“数据的标准化”而避免信息孤岛产生
从关系数据库的角度而言,产生信息孤岛的根本原因有两个,一是各个信息系统中的数据结构多种多样、各不相同,二是各个信息系统中的数据不标准、不规范,因此,当一个信息系统中的数据发送到另一个信息系统时,数据的接收方不能存贮、识别处理接收到的数据。当前解决信息孤岛、实现数据的共享交换的方法是:“转换数据结构,把数据转换为数据的接收方可以存贮、识别处理的形式”,例如BI、EAI、EDI、ETL、ESB等都是通用转换数据结构模式,犹如火车通过换车轮而实现互通。
独立数据库是一种与关系数据库理论完全不同的新型数据库理论。对于关系数据库而言,数据库中的数据的结构完全由设计人员自己决定,设计人员可以随意地定义数据的结构。然而利用独立数据库设计各种信息系统时,不允许设计人员随意定义数据的结构,存贮所有数据时都必须全部采用统一的、标准的、固定的数据结构,即必须全部采用“事物信息表”来存贮数据,这样做的目的是为了让数据可以象火车那样在全国各地的标准的钢轨上互联互通。
下面的表1是独立数据库的“事物信息表”,“事物信息表”是通用表,可以只用一张表而存贮各种关系数据库中的任意结构的数据。表1只用一张表就存贮了“1、动物档案;2、销售订单表;3、销售订单明细表;4、患者基本情况;5、症状;6、员工身高体重;7、通信录;8、医疗费用”的数据。若用关系数据库理论中的方法来存贮这些数据就需要8张结构各不相同的表。
表1:事物信息表只用一张即可存贮各种各样的结构化数据
ID
事物代号
事物特征
事物特征值
超长特征值
单位
附件
时间
65
2367
事物分类
动物管理系统
66
2367
事物分类
企鹅
67
2367
事物分类
帝企鹅
68
2367
事物分类
动物档案
69
2367
动物编号
3
70
2367
名字
汉武帝
81
2367
动物简介
帝企鹅(学名:Aptenodytes forsteri):也称皇帝企鹅,是企鹅家族中个体最大的,一般身高在90厘米以上,最大可达到120厘米,体重可达50千克。其形态特征是脖子底下有一片橙黄色羽毛,向下逐渐变淡,耳朵后部最深。全身色泽协调。颈部为淡黄色,耳朵的羽毛鲜黄橘色,腹部乳白色,背部及鳍状肢则是黑色,鸟喙的下方是鲜桔色。帝企鹅在南极严寒的冬季冰上繁殖后代,雌企鹅每次产1枚蛋,雄企鹅孵蛋。雄帝企鹅双腿和腹部下方之间有一块布满血管的紫色皮肤的育儿袋,能让蛋在环境温度低达零下40摄氏度的低温中保持在舒适的36摄氏度。群居性动物。每当恶劣的气候来临,它们会挤在一起防风御寒。可以潜入水底150至500米,最深的潜水记录甚至可达565米。主要以甲壳类动物为食,偶尔也捕食小鱼和乌贼。唯一一种在南极洲的冬季进行繁殖的企鹅。在南极以及周围岛屿都有分布。
71
2367
购入日期
2013/3/21
72
2367
身高
1.2
m
73
2367
体重
20
kg
74
2367
出生日期
2011/4/2
75
2367
照片
JPG
76
2367
笼舍编号
98
77
2367
管理员
张三
78
2367
父
1
79
2367
母
2
80
2367
性别
雄
2
128
事物分类
销售订单表
3
128
订单ID
10248
4
128
客户名称
山泰企业
5
128
销售负责人
赵军
6
128
订购日期
1996/7/4
7
128
到货日期
1996/8/1
8
128
发货日期
1996/7/16
9
128
运货商
联邦货运
10
128
运货费
32.38
元
11
128
货主名称
余小姐
12
128
货主地址
光明北路12号
14
9813
事物分类
产品销售系统
15
9813
事物分类
销售订单明细表
16
9813
订单ID
10248
17
9813
产品名称
猪肉
18
9813
单位
14
元
19
9813
数量
12
Kg
20
9813
折扣
0
%
37
28
事物分类
住院病历
38
28
事物分类
患者基本情况
39
28
病案号
199109-2-215
40
28
身份证号
XXXXXXXXXXXX
41
28
姓名
徐XX
42
28
工作单位
石化总厂
43
28
职务
机械工
44
28
地址
上海市南京路
45
28
年龄
43
46
28
入院日期
1991/8/19
47
28
婚否
已婚
48
28
病史采取日期
1991/8/19
49
28
籍贯
浙江省宁波市
50
28
病史记录日期
1991/8/19
51
28
民族
汉
52
28
病情陈述者
患者本人
54
29
事物分类
住院病历
55
29
事物分类
现病历
56
29
事物分类
症状
57
29
病案号
199108-2-215
58
29
身份证号
XXXXXXXXXXX
59
29
姓名
张三丰
60
29
症状
寒战
61
29
症状
腹泻
62
29
诱因
洗澡时着凉
63
29
症状开始时间
1991/8/16
82
280
事物分类
人事管理系统
83
280
事物分类
员工身高体重
84
280
姓名
张三
85
280
性别
男
86
280
年龄
56
岁
87
280
体重
72
KG
88
280
身高
180
CM
89
280
身份证号
410305XXXXX
91
9753
事物分类
通信录
92
9753
姓名
张三
93
9753
手机
1366086XXXX
94
9753
单位
广州软件公司
95
9753
6667567XXX
96
9753
邮件
6668@QQ.COM
97
9753
地址
广州大道2号
98
9753
照片
JPG
100
1280
事物分类
住院病历
101
1280
事物分类
医疗费用
102
1280
身份证号
XXXXXXXXXX
103
1280
住院号
XXXXXXXXXX
104
1280
姓名
张三
105
1280
性别
男
106
1280
中药费
56
元
107
1280
西药费
72
元
108
1280
其它费用
180
元
109
1280
事物分类
住院病历
当前的信息孤岛问题之所以非常严重,就是因为利用关系数据库理论在设计各种信息系统时,各信息系统的数据结构(犹如钢轨)各不相同。要使数据在各个信息系统之间互联互通,就必须转换数据的结构(犹如火车在不同的钢轨之间行驶时需要换车轮一样)。当前的各种信息系统之间的数据的互联互通全部都是采用这种“换车轮(转换数据结构)”的方式来实现。随着信息系统的数量的增多,数据量的增加,信息孤岛问题已成为大数据时代的一个非常严重的问题。因为信息系统越多、数据量越大,在实现互联互通时“换车轮”的次数也随着增加。
独立数据库所考虑的最重要的一个问题就是如何让数据在各个信息系统之间互联互通,这就需要做到不但要自己可以存贮、识别处理自己的数据,还要使其它信息系统也可以存贮、识别处理接收到的数据。
关系数据库中的二维表非常符合人们的日常使用报表的习惯。然而这种结构形式的数据在互联互通时就会遇到严重的问题:由于数据的接收方的数据库中没有相应的表结构而无法直接把数据存贮到数据的接收方的数据库中。
独立数据库之所以采用“事物信息表”存贮数据,其根本目的就是让“事物信息表”成为标准的数据结构(犹如标准的钢轨),有了标准的数据结构,各种各样的结构化数据就可以很容易地存贮到数据接收方的数据库中,只要数据的接收方建立一张事物信息表即可。
由于利用本发明所设计的各种各样的信息系统的数据的结构都是统一的、标准的、固定的,全部都采用“事物信息表”(犹如标准的钢轨)存贮数据,因此使数据在这样的信息系统之间的互联互通非常容易。对于利用本发明所设计的信息系统而言,(在技术上)不存在信息孤岛问题,因为数据可以象火车那样在标准的钢轨(事物信息表)上高速运行而不必“换车轮”。
有人会认为采用独立数据库设计信息系统会出现性能问题,以及多占用存贮空间的问题。所有的事物都是有一利必有一弊,利用事物需要权衡利弊。当前的信息孤岛为社会带来了巨大的损失,仅我国就拥有数百万个以上的各种各样的信息系统,数万亿条结构各不相同的数据,若用当前的转换数据结构这种“换车轮”的方式实现数据的互联互通、共享交换,代价非常高,不可承受。计算机的速度及存贮容量以摩尔定律的速度飞速发展,计算速度及存贮容量已不是问题,独立数据库的确多占用了一倍左右的存贮空间,但其代价非常低。利用本发明也会使表的记录数增加10倍左右,专业人士认为会产生大表问题,针对此问题的解决方案很简单,只要把大表分成若干个小表即可。独立数据库的突出优势是面对数百万以上的信息系统、数万亿条以上的数据的大数据环境,若这些信息系统中的数据的结构都是相同的,数据都满足数据的完整性,那么,实现数据的互联互通、共享交换以及数据挖掘非常容易,两相权衡,利远大于弊!
1.3 当前的软件设计模式存在的问题
产生信息孤岛的根源在于当前的软件设计模式有问题,当前的各种信息系统全部采用“换车轮模式”而实现互联互通。如果全国各地的火车的钢轨都是不标准的,那么火车要在全国行驶就必须不断地更换车轮,更换一次车轮需要80分钟的时间。我国的火车全部是以标准的钢轨为基础而设计各种各样的火车,从而很容易地实现了铁路交通的互联互通。当前的BI、EAI、ETL、EDI、ESB等等都是采用“换车轮模式”而实现互联互通,事实表明这些方法的效果不能令人满意。
独立数据库采用全新的软件设计模式“标准化模式”,“数据结构的标准化”及“数据的标准化”,在软件的设计阶段就从根本上避免了信息孤岛问题的产生。
1.4 当前的信息孤岛为什么是不治之症
人们从20年前就已注意到了信息孤岛问题。为了解决信息孤岛问题人们发明了BI、EAI、ETL、EDI、ESB等等,然而事实表明,这些解决信息孤岛的方法都不能令人满意。
通过下面的分析、计算就会发现当前的信息孤岛是不治之症,因为设计人员在开发各种信息系统时都没有考虑数据的互联互通问题,没有通用的数据接口。如果需要与某个系统实现数据的互联互通,则需要开发专用的“点对点式的数据接口”。如果与N个系统实现数据的互联互通,那么至少要开发N个数据接口。从理论上而言,利用现有技术可以通过转换数据结构的方式而实现任意两个信息系统之间的特定数据的互联互通、开放共享,然而由于全球的各种信息系统的数量超过千万,全球所产生的数据超过数万亿条,而且信息系统及数据还在不断地增加,面对如此海量的异构的、不标准的数据,“转换数据结构”的方法所花的成本非常高、不可承受。因此,当前的信息孤岛只能在局部进行缓解,而不能整体上得到根治。利用现有技术设计信息系统时,每增加一个信息系统,就增加了一个孤岛。
两个系统之间的互联互通约需要1个人月的工程量;三个系统之间的互联互通约需要(3-1)+(3-2)=3个人月的工程量;四个系统之间的互联互通约需要(4-1)+(4-2)+(4-3)=6个人月的工程量;N个信息系统之间的互联互通约需要((N-1)+(N-2)+(N-3)+……+3+2+1)个人月的工程量。由计算公式可看出,随着信息系统的数量的增多,系统之间的互联互通的工程量十分巨大,无法承受。因此,当前的信息孤岛是不治之症。这与当前的事实是相符的,自从关系数据库理论产生的40多年来,世界各地的信息孤岛问题都未能得到有效解决。
用关系数据库理论开发信息系统,会产生无穷无尽的数据结构,也会产生无穷无尽的不标准、不规范的数据。仅我国就会有数千万个以上的信息系统,数万亿条以上的数据。
对于用关系数据库理论所设计的信息系统而言,随着信息系统的数量的增加,信息孤岛问题也将会更加严重。也可以说关系数据库理论是信息孤岛的发源地,人们虽说想尽各种方法来解决信息孤岛让数据互联互通,然而信息孤岛问题不降反增。
信息孤岛一旦产生,就不可根治。因为当前的信息系统中的数据的数据结构是不标准的、数据是不标准的,数据与数据库系统密不可分,数据与应用程序密不可分,数据只有在原系统中才是有意义的,一旦脱离了原来的系统,就会变成无意义的数据。当前解决信息孤岛实现互联互通的方法(例如BI、EAI、EDI、ETL、ESB等等)都是通过转换数据结构(换车轮模式)、开发点对点式的数据接口而实现,然而这种方法只能治标,不能治本。利用现有技术无法开发出通用的数据接口。
1.5 信息孤岛的根源在于关系数据库理论是单机时代的产物,没有互联互通的内容
产生信息孤岛的根本原因在于关系数据库理论,因为关系数据理论单机时代的产物,创始人当时未考虑数据在各个信息系统之间的互联互通问题!关系数据库理论是在互联网产生之前的单机时代创立的。关系数据库理论于1970年6月由IBM公司的埃德加考特(Edgar Frank Codd)创立。ORACLE诞生于1979年。互联网诞生于1973年至1984年之间。1984年,美国国防部将TCP/IP作为计算机网络的标准。
关系数据库理论中没有数据交换共享的概念,也没有数据接口的概念。关系数据库所关心的只是如何处理自己的数据(单机中的数据),而未考虑如何处理从其它数据库发过来的数据,也未考虑如何把数据发送到其它数据库。关系数据库的特点是:“你的数据库处理你的数据,我的数据库处理我的数据。我不处理你的数据,你也不处理我的数据,你我之间是没有关系的。”
在单机时代、局域网时代,关系数据库在处理结构化数据方面发挥出了巨大的作用。然而,随着互联网时代的到来,人们不但希望信息系统处理自己的数据,还希望各个信息系统之间可以共享交换数据,希望数据可以互联互通。为了解决信息孤岛问题,人们发明了BI、EAI、EDI、ETL、ESB等等很多方法。随着IT技术的飞速发展,全世界的各行各业建立了大量的信息系统,然而人们注意到虽说20多年来全世界花费了巨大的人力、物力来解决信息孤岛问题,到如今,信息孤岛问题不但没有根除,反而比以前更严重,信息系统之间的互联互通、数据的开放共享还是非常困难!
1.6 当前的信息系统软件开发模式存在的问题
当前的信息系统软件开发模式是先设计出数据结构各不相同的系统,然后再通过转换数据结构而实现互联互通,犹如先设计出“结构各不相同的车轮”的火车,然后再换车轮互通,这种软件开发模式可称作是“换车轮模式”、“后ETL模式”。
在小数据时代,各行各业的信息系统中的数据及数据结构基本上都是不标准、不规范的,各个信息系统中的数据完全由系统的设计人员任意定义,因此,各信息系统中的数据都是异构的、不标准的,结果导致了非常严重的信息孤岛问题。不同的信息系统要实现互联互通、共享交换,就必须通过转换数据结构的方式来实现。然而面对全球数千万个以上的信息系统,数万亿条以上的异构的、不标准的数据,要实现各个信息系统之间的互联互通、共享交换,用传统的转换数据结构的方法就非常困难,甚至可以说根本不可能在可承受的时间内实现。
- 信息孤岛的解决方案
- 警惕!信息孤岛的新形式
- 信息孤岛
- 信息孤岛
- 信息孤岛
- 当前的信息孤岛为什么是不治之症
- 彻底消除信息孤岛的利器——Biztalk Server
- 出现“信息孤岛”是信息化的低级错误
- 信息孤岛到底藏在哪里?
- 企业信息整合、消除“信息孤岛”
- 政务部门信息孤岛求解
- 化身孤岛的鲸
- 如何避免云计算建设信息孤岛?
- Deep Linking打破APP信息孤岛
- 很多企业自媒体都在建一座信息孤岛
- 腾讯钟翔平:开放万亿级数据体系连接信息孤岛
- 转贴:中国正在成为互联网的孤岛
- 关于sql 语句的求孤岛问题
- NERDTree Usage
- (一)1.1JAVA简介
- bootstrap后台管理模板
- Spark集群部署和Job提交思想
- 推销自己的前端技术书籍
- 信息孤岛的解决方案
- ThreadPoolExecutor中策略的选择与工作队列的选择(java线程池)
- DHCP服务
- Day11-前序遍历二叉树
- 获取某月有多少天
- Java并发编程的艺术(二)——重排序
- 为什么开源可以提高程序员的编程技能?
- 【菜鸟数据库学习日记】从头开始学MySQL(3)
- butter knife详解和使用