读隐私文献-1
来源:互联网 发布:手机怎么看淘宝卖家id 编辑:程序博客网 时间:2024/06/05 00:15
本博文主要关注的是Science上的一篇文章,该文章分析了信用卡元数据的用户识别问题。在另一方面,本文也有着严重的缺陷,在Science上的另一篇评论文章对此进行了分析。
文献【1】:
Yves-Alexandre de Montjoye, Laura Radaelli, Vivek Kumar Singh, Alex “Sandy” Pentland, “Unique in the shopping mall: on the reidentifiability of credit card metadata,” science, vol. 347, no. 6221, pp. 536-539, 2015.
在文献[1]中,De Montjoye等人试图对信用卡交易数据的用户进行再次识别。详细而言,作者研究了OECD中110万用户的3个月信用卡记录(OECD:经济合作与发展组织)。具体的数据格式如下:
从上图,我们可以看出,记录中主要包含了用户消费的产所,用户的id,日期,价格。很明显,作者(或者是数据的公布者)对数据进行了非常简单的匿名处理。比如:对用户的id进行了随机码的处理,不过,相同的用户具有相同的随机码(比如:id 为7abc1a23的记录共有4条)。
为了识别记录中的用户,作者定义了一个概念:识别数据集
外部信息
这里的外部信息是指用户的活动信息,比如有用户Scott两则信息:(1)9月23号去了面包店;(2)9月24号2去了餐厅。这里,在上图中,只有id为7abc1a23的用户符合这两个条件,因此该用户就被识别出来。
在这幅图中,绿色代表外部信息是 (时间,空间),蓝色信息时 (时间,价格)。绿色结果表明随着
从这篇文章可以看出,当前的数据是多么的危险,竟然只靠一点点的外部数据就能将用户识别出来。当然,对于外行人来说,肯定觉得特别的惊讶!!!However,在数据隐私学术研究方面,这个其实是一个很早就开始的研究方向。作者竟然拿出了当初最简单的匿名方法来作为识别的元数据,真是惊呆了!!!
实际上,这是一篇夸大其词的文章!!!具体的原因可以参考下面的评论文章。
文献【2】:
[2] David Sánchez, Sergio Martínez, Josep Domingo-Ferrer, “Comment on “Unique in the shopping mall: on the reidentifiability of credit card metadata”,” Science, vol. 351, no. 6279, pp. 1274, 2016.
文献[2]是对文献[1]的评论,同样是发表在Science上,对文献[1]的缺陷部分进行了反驳。
反驳的原因是:
(1)识别可能被高估。原因是110万用户的数据库仅仅只是某个秘密国家的一部分。文献[1]的作者并没有将数据公开,因此也无法重现。
(2)就是本文刚刚提出来的,数据隐私保护已经被提出将近40年,目前已经有大量的方法来实现数据的匿名化。文献[1]使用的匿名技术则是最最简单的匿名化技术。详细而言,文献[1]使用了数据粗化(模糊化)的方法,即他们独立地粗化数据的属性以及使用固定范围的数值。这样做是不合适的。原因:为了提供真正的匿名,粗化应该基于数据集的真实分布;独立地粗化一个QI(quasi-identifier,准标识)属性并不能确保唯一的UI值组合消失。
数据属性:
(identifier, quasi-identifier, sensitive/insensitive information)
在这种情况下,作者使用了简单且注明的
从这幅图我们可以看出,匿名化的效果不错!
其实,只要懂得数据隐私方面的知识的研究者,都不可能不知道
那是不是文献[1]的作者不懂,或者说不了解这方面的技术呢?请看下面的文献:
文献【3】:
[3] Giuseppe D’Acquisto, Josep Domingo-Ferrer, Panayiotis Kikiras, Vicenc Torra, Yves-Alexandre de Montjoye, Athena Bourka, “Privacy by design in big data: An overview of privacy enhancing technologies in the era of big data analytics,” European Union Agency for Network and Information Security, 2015.
这篇文章是关于数据隐私方面的介绍,也介绍了当前的主要隐私技术,明确包含了
Talk is cheap, show me the code!
Wu Xiaotong
2016-6-7
- 读隐私文献-1
- 如何找文献/读文献
- 隐私
- 多读文献(王选)
- 怎样读文献
- 怎么读外文文献
- 如何读文献
- 如何高效读文献
- 学习如何读文献,
- 文献阅读1
- 怎样阅读文献-1
- 文献整理-1
- 文献阅读(1)
- 文献阅读记录1
- 文献翻译1
- 文献
- 文献
- 博弈论与隐私保护【1】
- [java源码分析]HashMap源码分析
- Android中dip、dp、sp、pt和px的区别
- 深入浅出学Hive——Hive优化
- ByteBuffer常用方法详解
- Visio图标下载链接
- 读隐私文献-1
- 平面几何常用定理、结论总结 第一篇三角形及其引线、引圆
- Hibernate连接MySQL数据库乱码相关问题
- 结构体字节对齐
- GitHub前50名的Objective-C动画相关库
- ios学习--Objective-C runtime的使用
- lxc(linux container) 命令学习
- 网站兼容性小方法
- 每日一得--Fidder抓包工具学习笔记