Data privacy、Principle and Practices精简（二）

来源：互联网发布：四字网络流行语编辑：程序博客网时间：2024/06/05 07:31

静态数据的匿名化：关系数据

静态数据匿名应用有两个：

privacy preserving data mining （PPDM）
privacy preserving test data management （PPTDM）

1. Classification of Privacy Preserving Methods（隐私保护的方法分类）

在精简（一）中已经提到了关系型数据集 D 主要由四种互斥数据组成，EI、QI、SD 和 NSD。隐私保护主要分为两类：Perturbative（扰动的）和Nonperturbative（非扰动的），如下图
这里写图片描述

Suppression：Do not release a value at all；
Generalization：Replace the value with a less specific but semantically consistent value。
一般情况下，为了更好地对数据进行匿名，不只一种技术会用于实际应用中。

1.1 Protecting Explicit Identifiers

Principle（8） Understand the semantics of the data in the context of the application so as to apply the correct/appropriate anonymization technique on the data. （把数据放在应用环境中去理解语义，才能找到合适或正确的匿名技术）

这里给了一个例子，如下：
这里写图片描述
表中的 EI 是 ID 和 Name，在关系型数据库中，EI 也通常作为主键存在。在mask 他们的时候，应该考虑下面两个方面：

Referential integrity （参照完整性）
Consistently masking across databases（屏蔽数据库一致性）

**Principle（4）**Ensure consistency in masking data across applications in a domain.（确保在一个域内屏蔽数据的一致性）
为了保证 attribute 的格式和域内数据的一致性，我们建议使用基于 tokenization（one-way）的算法，给定输入 tokenization 会产生一个一致的 token。例如：

I n p u t D a t a : 12345 \to T O K E N I Z A T I O N \to T O K E N : 40011

无论输入是什么，tokenization 的输出都是一致的，例如 40011。这种方法的主要优点是机密性高、保存原始数据的格式，但是缺点也很明显，就是和原始数据不再有关联。

这里写图片描述

Tokenization 是一种特殊的 randomization，randomization 中的输出和原始输入是有联系的，通过 randomization function，而 tokenization 并没有这种联系，正因为没有这种联系，tokenization 提供了更强的数据保护。

Tokenization 有两种：

One-way tokenization；单向标记产生一致的输出，原始数据不能被指认出。
Two-way tokenization；双向标记同样会映射到一致的输出，但是转换函数可以还原出原始数据。Two-way 被广泛应用于信用卡企业等。

Two-way tokenization 通常运用于动态（run-time or dynamically）解决隐私问题，如何恢复出原始数据将会在精简（八）中提到。

对姓名的保护是非常重要的，最好的方法是用查询表替换原始的姓名为虚假的姓名。如下图：
这里写图片描述

对于某些属性：电话号码、电子邮箱等是很难确定是属于 EI 还是 QI，例如住宅电话可以指认出身份，但是公司电话就不一定。

1.2. Protecting Quasi-Identifiers

掩盖 EI 是不够的，因为攻击者可以通过 QI 来找到具体身份，链接攻击的原理就是这样的。当考虑需要对 QI 进行匿名处理的时候，有两个重要的因素需要考虑：

The analytical utility of QI needs to be preserved （在分析中QI 的多用性需要保留）
The correlation of QI attributes with sensitive data needs to be maintained to support the utility of anonymized data （QI 和 SD 的相关性需要被保留）

保护 QI 的挑战界定 QI 和 SD 的边界同时对 QI 进行匿名是最困难的两方面。匿名 QI 的挑战有以下：

High dimensionality，高维度的数据是很难区分 QI 和 SD 的界限的，因为我们并不知道攻击者的背景知识。
Background knowledge of the adversary
Availability of external knowledge，外部的信息也使得匿名变得更加困难，如社交网络的爆炸式发展。
Correlation with SD to ensure utility
Maintaining analytical utility

1.3. Protecting Sensitive Data (SD)

如果 SD 数据保持不变，那么可能会为重新指认身份提供方便。通过添加噪音（noise）来保护隐私数据，虽然原始数据发生变化，但是均值和方差等不变。
这里写图片描述

2. Group-Based Anonimization

匿名QI的一些技术会在这节介绍，主要是 k-anonimity，之后也会简单介绍 l-diversity 和 t-closeness。

2.1 k-anonimity

k-anonimity 是一种保护身份的技术，它会使表中的 quasi-identifiers 的一个数据和其他至少 k-1 个数据保持一致。k-anonimity 的优势是它通过让 k 个属性不可区分来保护身份，所以基于 QI 找到原始记录的概率不超过 1/k。k 越大，机密性就越高，但是以低可用性为代价。虽然它能够抵御链接攻击，但是很难对攻击者的背景知识进行建模。

2.1.1 How to Generalize Data

Generalization is a technique of replacing more specific values with generic and semantically similar values. （一般化是用一些一般化的值来替换特定的值，并且语义要相似）
domian generalization：和local recording区别在于是否保持了一定的正确信息，例如：domain generalization 邮编一般化560001→560000，这个都是代表同一个城市，然而 local recording 会这样做560001→560010，这样代表同一城市的关系就消失了。

2.1.2 Implementing k-Anonymization

很多实现 k-anonymity 的算法已经提出，大多是使用了 domain Generalization hierarchy，它同时使用了 generalization 和 suppression；另一些方法使用聚合算法来实现匿名技术。
Samarati’s Approach
他的方法的目的是找到决定泛化的最小程度并且实现 k-anonimity。下图说明Samarati’s approach 如何找到最小泛化（minimal generalization）满足 k 匿名。节点二元组<Z0,E0>代表原始节点，最顶端的顶点<Z2,E2>则是最为泛化的节点。Samarati’s algorithm uses a search mechanism to identify the generalized node in the lattice structure that satisfies k-anonymity and is at the least distance from the most specific node. If h is the maximum height of the lattice from the most specific node, then the algorithm searches at h, h/2, h/4, and so on until it finds a minimal generalization that satisfies k-anonymity
这里写图片描述

2.1.3 如何选择k的值

匿名化就是以一个优化的过程，需要平衡隐私和多用性；k 匿名通过不可区分 k 个不同的记录来防止身份泄露。

2.1.4 实现 k匿名的挑战

Provable privacy
Efficiency and performance of the algorithm（computational complexity）
Scalability
Robustness
Utility/data quality

2.1.5 k 匿名的缺陷

k 匿名是主要的方法来保护身份泄露，但也有一些缺点如下：

防止同质攻击（homogeneity attacks）不足够强健；
最优 k匿名是一个NP问题，计算困难；
高维度和大量数据记录带来的本质问题；
平衡隐私和可用性非常困难，没有科学的方法来确定 k 的值；
泛化和 suppression 的应用分别导致过度泛化和信息高度缺失，最终可用性降低。

尽管有这些缺点，但是 k 匿名还是一个广泛应用和研究的方法，最主要的优点是 k 匿名没有加入额外的噪音，匿名过的信息是可靠的。为了解决 k 匿名的缺点，一些改良剂技术被使用，如 l-diversity 和 t-closeness。

2.1.6 l-diversity

L-Diversity作用于 SD 区域，为了引入足够多的不相似的值，目的是防止有背景的攻击者指认出来。
这里写图片描述

l-diversity的缺点：
对数据的使用造成影响。

2.1.7 t-Closeness

关于详细的 k-anonimity、l-diversity 和 t-closeness 的详细介绍会在《k-anonimity、l-diversity 和 t-closeness 》一文中重点描述；它会参考《t-Closeness: Privacy Beyond k-Anonymity and t-Diversity》此论文给出详细解释。

0 0