读隐私文献-1

来源:互联网 发布:手机怎么看淘宝卖家id 编辑:程序博客网 时间:2024/06/05 00:15

本博文主要关注的是Science上的一篇文章,该文章分析了信用卡元数据的用户识别问题。在另一方面,本文也有着严重的缺陷,在Science上的另一篇评论文章对此进行了分析。

文献【1】:
Yves-Alexandre de Montjoye, Laura Radaelli, Vivek Kumar Singh, Alex “Sandy” Pentland, “Unique in the shopping mall: on the reidentifiability of credit card metadata,” science, vol. 347, no. 6221, pp. 536-539, 2015.

在文献[1]中,De Montjoye等人试图对信用卡交易数据的用户进行再次识别。详细而言,作者研究了OECD中110万用户的3个月信用卡记录(OECD:经济合作与发展组织)。具体的数据格式如下:

这里写图片描述

从上图,我们可以看出,记录中主要包含了用户消费的产所,用户的id,日期,价格。很明显,作者(或者是数据的公布者)对数据进行了非常简单的匿名处理。比如:对用户的id进行了随机码的处理,不过,相同的用户具有相同的随机码(比如:id 为7abc1a23的记录共有4条)。

为了识别记录中的用户,作者定义了一个概念:识别数据集 D唯一性(unicity)的风险 ε。 唯一性是知道某个用户 p外部信息而被识别的风险。εp 被定义为:在数据集 D 中,知道用户 p 条经济痕迹的信息而被识别的用户的比重。

外部信息
这里的外部信息是指用户的活动信息,比如有用户Scott两则信息:(1)9月23号去了面包店;(2)9月24号2去了餐厅。这里,在上图中,只有id为7abc1a23的用户符合这两个条件,因此该用户就被识别出来。

这里写图片描述

在这幅图中,绿色代表外部信息是 (时间,空间),蓝色信息时 (时间,价格)。绿色结果表明随着 p 从2增找到4,εp 则从 40% 多一点增长到 90%;蓝色结果表明识别出的用户更多。

从这篇文章可以看出,当前的数据是多么的危险,竟然只靠一点点的外部数据就能将用户识别出来。当然,对于外行人来说,肯定觉得特别的惊讶!!!However,在数据隐私学术研究方面,这个其实是一个很早就开始的研究方向。作者竟然拿出了当初最简单的匿名方法来作为识别的元数据,真是惊呆了!!!

实际上,这是一篇夸大其词的文章!!!具体的原因可以参考下面的评论文章。


文献【2】:
[2] David Sánchez, Sergio Martínez, Josep Domingo-Ferrer, “Comment on “Unique in the shopping mall: on the reidentifiability of credit card metadata”,” Science, vol. 351, no. 6279, pp. 1274, 2016.

文献[2]是对文献[1]的评论,同样是发表在Science上,对文献[1]的缺陷部分进行了反驳。

反驳的原因是:
(1)识别可能被高估。原因是110万用户的数据库仅仅只是某个秘密国家的一部分。文献[1]的作者并没有将数据公开,因此也无法重现。
(2)就是本文刚刚提出来的,数据隐私保护已经被提出将近40年,目前已经有大量的方法来实现数据的匿名化。文献[1]使用的匿名技术则是最最简单的匿名化技术。详细而言,文献[1]使用了数据粗化(模糊化)的方法,即他们独立地粗化数据的属性以及使用固定范围的数值。这样做是不合适的。原因:为了提供真正的匿名,粗化应该基于数据集的真实分布;独立地粗化一个QI(quasi-identifier,准标识)属性并不能确保唯一的UI值组合消失。

数据属性:
(identifier, quasi-identifier, sensitive/insensitive information)

在这种情况下,作者使用了简单且注明的 k-匿名化(k-anonymity)方法。该方法可以简单的理解为:每一条记录不能包含严格的标识值,且不能从至少 k1 个关于QI值的记录中区别出来。即,每组QI值必须包含 k1 个敏感信息或者非敏感信息。

这里写图片描述

从这幅图我们可以看出,匿名化的效果不错!

其实,只要懂得数据隐私方面的知识的研究者,都不可能不知道 k-匿名方法。可是文献[1]的作者却为了搞出一个大新闻,故意选取最简单的匿名方法来作为参考依据,so strange.

那是不是文献[1]的作者不懂,或者说不了解这方面的技术呢?请看下面的文献:
文献【3】:
[3] Giuseppe D’Acquisto, Josep Domingo-Ferrer, Panayiotis Kikiras, Vicenc Torra, Yves-Alexandre de Montjoye, Athena Bourka, “Privacy by design in big data: An overview of privacy enhancing technologies in the era of big data analytics,” European Union Agency for Network and Information Security, 2015.

这篇文章是关于数据隐私方面的介绍,也介绍了当前的主要隐私技术,明确包含了 k匿名化方法。而作者就包含了文献[1]的作者。另外不得不说非常有趣的事,就是文献[2]的作者竟然也在里面!这真真是醉了!


Talk is cheap, show me the code!

Wu Xiaotong
2016-6-7

0 0