影响数据安全的要素

来源:互联网 发布:我的世界mac版mod 编辑:程序博客网 时间:2024/05/16 05:49

1、影响数据安全的要素


1.1、数据来源的可信性

        企业级大数据应用需要从不同的终端设备或日志中采集数据,普遍误解是这些数据本身都是真实有效的,能够反应实际情况,但实际情况,有些数据得到的结果是不可信的,可能是不准确的。

数据来源存在以下风险:

1.        伪造或刻意制造的数据

修改数据采集软件或篡改数据本身来实现;

通过ID克隆攻击(如Sybil攻击);

如:某些购物网站,某些劣质商品或服务的虚假评论。

2.        数据在传输过程中逐步失真或被人为破坏

原因之一是某些数据采集的过程中是需要人工干预的,干预过程中更可能引入误差,影响结果的真实性。

原因之二是数据在传播过程中,现实情况发生了变化,使得早期采集的数据已经过时。

原因之三是攻击者可能在数据传输过程中破坏数据。(如:通过执行中间人攻击(Man-In –The –Middle,MITM)或者重放攻击(Replay Attack)来破坏数据)

a)  中间人攻击(Man-In –The –Middle,MITM)

一 .原理
代理服务的一个典型模型:
     client     <<-data->      proxy server       <&szlig;data-> Web Server

                                           middle man
上面可以看出:client 发出的请求 和 web server返回的数据都经过proxy server 转发,这个proxy server 就起到了一个middle man的作用,如果这个“中间人” 够黑,那么整个代理过程的数据 都可以由这个“中间人”控制。

b)  重放攻击(Replay Attack)

所谓重放攻击就是攻击者发送一个目的主机已接收过的包,来达到欺骗系统的目的,主要用于身份认证过程。
为了抵御重放攻击,现在的身份认证一般采用挑战因答方式。
用户                              系统

-----申请登陆----

                          〈---发送挑战值----

计算相应的应答值

                           ------发送应答值--

                           判断应答值是否正确

〈---通过认证(正确)--

                           不正确断开连接
这里要注意的是挑战值得熵值必须大(变化量要很大),若挑战值变化量不大,攻击者只需截获足够的挑战应答关系,就可以进行重放攻击了。

3.        元数据被伪造或修改

元数据是指描述数据属性的一组数据,如文件大小、创建时间等。

攻击者可能不破坏数据本身,而对元数据进行修改;

由于元数据可以被用来检查数据来源以及审计工作,破坏元数据可能导致数据来源无法确认,或者审计系统的错误;

如:金融公司的交易系统需要检查交易数据的创建时间;

总结:大数据的应用应该基于真实的数据来源,在数据传播途径、数据加工处理过程中掌握数据的可信度,防止分析得出无意义或者错误的结果。


1.2、数据泄漏

        例子:在某个知名的搜索引擎上搜索某个关键词,网页上会显示出与该关键词相关的广告信息,而后访问其他毫不相关的网站时,之前的这些广告仍然可能会出现。广告商正是利用用户输入的关键词来向用户推荐商品,用户在毫不相关的网站上输入关键词的同时,这些关键词也泄漏给了广告公司,这是大数据泄漏的典型例子

        数据泄漏的方式包括拦截和泄漏存储在移动设备或者应用中的数据。


1.3、数据挖掘和分析中的隐私问题

        个人隐私问题分为两种:

1、原始数据本身:个人新的姓名、电子邮件、手机号、信用卡等信息;

2、 隐含在原始数据中的关系信息,它揭示了数据之间的某种关联,需要用数据挖掘算法将它找出,如:个人工资与月消费额之间的关联,病人的特征与某些疾病的关联等。

数据挖掘技术在侵犯用户隐私的同时,还有可能不恰当的利用这些隐私信息。

数据加密是保护数据不被窃取的一种有效方法。可以从自己的数据中通过匿名保护技术去除掉一些信息。

如何既保护用户的隐私信息又能挖掘出有效的知识和规则,即隐私保护的数据挖掘,成为数据挖掘领域的研究热点。
1 0