读隐私文献-1

来源：互联网发布：手机怎么看淘宝卖家id 编辑：程序博客网时间：2024/06/05 00:15

本博文主要关注的是Science上的一篇文章，该文章分析了信用卡元数据的用户识别问题。在另一方面，本文也有着严重的缺陷，在Science上的另一篇评论文章对此进行了分析。

文献【1】：
Yves-Alexandre de Montjoye, Laura Radaelli, Vivek Kumar Singh, Alex “Sandy” Pentland, “Unique in the shopping mall: on the reidentifiability of credit card metadata,” science, vol. 347, no. 6221, pp. 536-539, 2015.

在文献[1]中，De Montjoye等人试图对信用卡交易数据的用户进行再次识别。详细而言，作者研究了OECD中110万用户的3个月信用卡记录（OECD：经济合作与发展组织）。具体的数据格式如下：

这里写图片描述

从上图，我们可以看出，记录中主要包含了用户消费的产所，用户的id，日期，价格。很明显，作者（或者是数据的公布者）对数据进行了非常简单的匿名处理。比如：对用户的id进行了随机码的处理，不过，相同的用户具有相同的随机码（比如：id 为7abc1a23的记录共有4条）。

为了识别记录中的用户，作者定义了一个概念：识别数据集 D 的唯一性（unicity）的风险 ε。唯一性是知道某个用户 p 条外部信息而被识别的风险。εp 被定义为：在数据集 D 中，知道用户 p 条经济痕迹的信息而被识别的用户的比重。

外部信息
这里的外部信息是指用户的活动信息，比如有用户Scott两则信息：（1）9月23号去了面包店；（2）9月24号2去了餐厅。这里，在上图中，只有id为7abc1a23的用户符合这两个条件，因此该用户就被识别出来。

这里写图片描述

在这幅图中，绿色代表外部信息是（时间，空间），蓝色信息时 (时间，价格)。绿色结果表明随着 p 从2增找到4，εp 则从 40% 多一点增长到 90%；蓝色结果表明识别出的用户更多。

从这篇文章可以看出，当前的数据是多么的危险，竟然只靠一点点的外部数据就能将用户识别出来。当然，对于外行人来说，肯定觉得特别的惊讶！！！However，在数据隐私学术研究方面，这个其实是一个很早就开始的研究方向。作者竟然拿出了当初最简单的匿名方法来作为识别的元数据，真是惊呆了！！！

实际上，这是一篇夸大其词的文章！！！具体的原因可以参考下面的评论文章。

文献【2】：
[2] David Sánchez, Sergio Martínez, Josep Domingo-Ferrer, “Comment on “Unique in the shopping mall: on the reidentifiability of credit card metadata”,” Science, vol. 351, no. 6279, pp. 1274, 2016.

文献[2]是对文献[1]的评论，同样是发表在Science上，对文献[1]的缺陷部分进行了反驳。

反驳的原因是：
（1）识别可能被高估。原因是110万用户的数据库仅仅只是某个秘密国家的一部分。文献[1]的作者并没有将数据公开，因此也无法重现。
（2）就是本文刚刚提出来的，数据隐私保护已经被提出将近40年，目前已经有大量的方法来实现数据的匿名化。文献[1]使用的匿名技术则是最最简单的匿名化技术。详细而言，文献[1]使用了数据粗化（模糊化）的方法，即他们独立地粗化数据的属性以及使用固定范围的数值。这样做是不合适的。原因：为了提供真正的匿名，粗化应该基于数据集的真实分布；独立地粗化一个QI（quasi-identifier，准标识）属性并不能确保唯一的UI值组合消失。

数据属性：
（identifier, quasi-identifier, sensitive/insensitive information）

在这种情况下，作者使用了简单且注明的 k-匿名化（k-anonymity）方法。该方法可以简单的理解为：每一条记录不能包含严格的标识值，且不能从至少 k−1 个关于QI值的记录中区别出来。即，每组QI值必须包含 k−1 个敏感信息或者非敏感信息。

这里写图片描述

从这幅图我们可以看出，匿名化的效果不错！

其实，只要懂得数据隐私方面的知识的研究者，都不可能不知道 k-匿名方法。可是文献[1]的作者却为了搞出一个大新闻，故意选取最简单的匿名方法来作为参考依据，so strange.

那是不是文献[1]的作者不懂，或者说不了解这方面的技术呢？请看下面的文献：
文献【3】：
[3] Giuseppe D’Acquisto, Josep Domingo-Ferrer, Panayiotis Kikiras, Vicenc Torra, Yves-Alexandre de Montjoye, Athena Bourka, “Privacy by design in big data: An overview of privacy enhancing technologies in the era of big data analytics,” European Union Agency for Network and Information Security, 2015.

这篇文章是关于数据隐私方面的介绍，也介绍了当前的主要隐私技术，明确包含了 k−匿名化方法。而作者就包含了文献[1]的作者。另外不得不说非常有趣的事，就是文献[2]的作者竟然也在里面！这真真是醉了！

Talk is cheap, show me the code!

Wu Xiaotong
2016-6-7

0 0