为了保护你的数据隐私,苹果出了一份报告...

来源:互联网 发布:大数据带来的经济效益 编辑:程序博客网 时间:2024/06/05 05:53


来源:差评

作者:差评君

本文长度为2852个字,建议阅读5分钟

我们来聊聊苹果为了保护用户数据隐私都做了些什么...


* 请注意,本篇文章学术高能,不易理解
* 请注意,本篇文章因考虑易读性丧失部分严谨性


前两天,我看到个消息,苹果在一份报告中公布最受美国用户欢迎的十大表情, 排在了第一位,而且远超其他的。


这个数据来源于苹果的一份关于 “ 差别隐私 ” (differential privacy) 的报告。


仔细想想自己和朋友聊天时经常用的表情,似乎  用得的确比别的多很多。。。


不过呢,我今天要讲的不是这个,而是这篇消息中提到的苹果的一份关于 “ 差别隐私 ” (differential privacy) 的报告,这份报告要有意思得多。



这年头,大公司收集用户数据的事实大家都知道,当你们疯狂地撕开新手机的包裹,开机以后看也不看一眼又臭又长的用户条款(我也不看)点了同意的那一刻,大公司就开始收集你的数据了。


不过这也是没办法的事情,因为你不点同意就用不了他们的产品最后这些数据就当是给厂商交了服务费了。


因此,咱们作为那些大公司的用户,在个人隐私安全这方面,只能赌他们的社会责任感和道德感。


某电商数据分析,他们可能比你更了解自己


说回到苹果的 “ Differential privacy ”(差别隐私,简称 DP ) 报告,里头说了啥?和上面提到的大数据又有什么关系呢?


在那份报告中,苹果公司承认他们收集大数据来研究大部分用户,但同时也认为苹果没有必要,也不应该研究个体用户的数据。


为了做到这一点,苹果公司用上了一门技术,叫差别隐私(DP),你可能不知道,事实上 DP 从 iOS 10 开始就已经在使用了。


但你会问,大数据不就是一份份个体数据组成的么?


那苹果怎么说绕过个体数据,还能研究大数据???


能的!来,一起喊:科学的力量~



首先,咱们先讲讲为啥一般情况下大数据可以暴露个人隐私。


假设一家商场在结账的时候会匿名统计用户买了什么,在下午 1 点,小明进去买东西,这时他们整合了 500 份数据得到了一份大数据,咱们叫它 A 。


十分钟之后,小明出来了,这时候他们有 501 份匿名数据整合成的大数据 B。


我只要比对一下 B 和 A 有什么区别,算一算(举个不恰当但好理解的例子:两次数据之间,如超市里剩余商品都少了哪些),就能知道有个用户买了什么,要是我还正好撞见小明的行踪,那么管他买鸡腿还是飞机杯,我都知道


这就是传统匿名收集用户数据的局限性虽然是匿名收集,但厂商还是能通过某些方式确认某个个体做了什么,上面说的情况现实中是可以实现的。


在 2006 年,美国的在线影片租赁公司 Netflix 办了个机器学习比赛,想提升自家的推荐功能。



Netflix 准备了一些用户浏览数据,擦掉了 ID 等个人隐私(在大数据中,这种剥离敏感信息的做法叫脱敏,公布了出来给参赛者用。


结果有两个人把这些浏览数据和 IMDB (电影评分网站) 上的用户观影记录比对,反推出了 Netflix 公布数据对应的本人。



上面是传统大数据过程中的脱敏及其弊端,那么 DP 是怎么做的呢?


就是在用户上传数据里加一些无伤大雅的 “ 扰动 ”,让最终数据无法通过对比分析来确定某个个体(比如上面小明去超市的那个例子里的分析 AB 之间差距),具体怎么操作咱们来举个例子。


我叫来了公司里的小伙伴们,问他们一个问题 “ 你有没有 XXX ”,回答为 “ 是 ” 或者 “ 否 ”,写在纸条上传给我。


回答的人需要先抛一个硬币:


如果是正面,那么如实回答。


如果是反面,那么再抛一次硬币,然后不管事实是什么,正面就写 “ 是 ”,反面就写 “ 否 ”。



这么一来,如果那个问题是 “ 你有没有偷吃鸡腿 ”,并且我在收集到的纸条里有 “ 是 ",即使按照平时的经验来谈,A的回答应该是 “ 是 ”,但你不能因此确定这个回答来自于A,因为有可能他连抛两次反面。


哪怕A真写了 “ 是 ”,也不代表他偷吃了,也许只是他第一次抛反面第二次抛正面,被迫写了 “ 是 ”。


这样一来,由于在收集回答的时候,有了抛硬币产生的扰动,差评君完全不可能找到任何一个回答的主人,但是收集到的数据也会损失一半真实度,因为有一半人的回答不是真的。



在现实中,数据损失一半真实度那肯定没用了,不过现实中收集的数据不是一个 “ 是 ” 或者 “ 否 ” 的回答,添加的 “ 扰动 ” 也没有抛硬币这么随意,所以收集来的数据依然是有用的。


苹果公司就是靠着这个原理,在你的手机传匿名数据的时候,在你的手机本地给数据添加一些 “ 扰动 ”,并且删除个人信息,才能传到苹果的服务器。


这个扰动不能太大,否则大数据就没用了;也不能太小,小了你的隐私保不住。


那么应该多大呢,可以用数学公式算出来。


源自维基百科


通过数学方法,可以让大数据依然有很强的可靠度,而且完全找不到每条数据对应的来源。


苹果不光给你的数据添加扰动,还做了其他的努力。


苹果公司的数据只保存三个月,而且不含 IP 等信息


搜索功能上,每个用户每天限制搜集 2 条数据,表情每天 1 条,输入联想每天 2 两条。


苹果启用 DP 是在 2016 年 WWDC 上公布的,虽然大部分用户可能不太关心,但是苹果公司显然很关心。



这么处理数据,从技术上根绝了苹果有针对性的研究和掌握某个个体,自己把作案工具没收了,哪怕真起了贼心也耍不来流氓了。。。


苹果公司给人什么印象呢?



苹果有时候给人一种高傲的姿态,例如各种不兼容别家的产品生态圈,App 的收费机制,不友好的定价。。。


但是对于用户个人隐私,他们的姿态却很低,我从里面看到了克制二字。


在苹果看来,搜集用户数据是被赋予的一种特权,那么苹果公司应该尽量克制自己,减少数据采集量,添加扰动,不惜牺牲一点点数据可靠性也要保护用户的隐私。


这方面,苹果甩了某些国内厂商几条街~


某国产大厂的用户隐私条款


在上面这个条款中,某厂在某些特殊情况下保留了使用用户数据的权利。


对于苹果公司,条款里不存在这些特殊情况,因为这不是权利不权利的问题,而是他们也没有用户隐私数据,根本不存在这些 “ 权利 "。。。


为了做文章开头的表情统计,苹果付出了很多你没看见的努力


所以再来看看这个问题:苹果公司给人什么印象呢?


在我看来,苹果还是一家总能比别人多做一点点,而且还做得很好的公司。


One more thing ...


譬如他们对于环保的贡献一直走在世界前列:


今年年初 " 绿色世界和平 " 发布的清洁能源报告中,苹果在各大公司中名列前茅

(榜上两家中国科技公司,百度和腾讯由于能源煤炭资源比例太高,评级被划为了 F)


虽然他们的明星产品线 iPhone 曾经推动了智能手机潮,如今却快要被其他厂商追上了,苹果公司最近在产品发布时很少再能自信地喊出 “ one more thing ”。


但我认为这个 “ one more thing ” 其实转移到了别的地方,这些努力是藏在产品背后的,某些更重要的东西:


社会责任,企业道德。



能不能顺便关心一下用户健康

毕竟肾少了一个 


* 此文转载自微信公众号:差评(ID:chaping321)喜欢就关注下咯!


原创粉丝点击