匿名数据就可以保护用户隐私了吗?

下一篇文章

Google 关闭涉嫌干扰美国大选的 YouTube 频道

日前,公众依据《信息自由法》(Freedom of Information,以下简称“FOI”),要求伦敦交通监管部门公布其在去年一个试点项目中收集的匿名数据集,该试点项目持续了四周时间,通过 Wi-Fi 热点和智能手机 MAC 地址追踪伦敦全市地铁系统的乘客。此事充分说明了在不让个人隐私存在曝光风险的情况下,追踪用户地理位置数据的棘手之处。

伦敦交通局在去年宣布 这个试点项目 时,曾表示它收集的数据“将自动去除具体的用户信息”。伦敦交通局在一份 公告 中还进一步解释说,这些数据无法用以识别任何一个人的身份。

伦敦交通局称,它希望利用这种数据更好地理解拥堵状况及“集体出行模式”,以便“我们可以改善客户服务质量,提供更好的信息。”

然而, 随后有媒体报道称 ,伦敦交通局可能希望利用乘客数据来获取额外的市场营销收入——按照伦敦交通局发言人的说法,此举是为了帮助其进一步理解地铁站内营销资产的状况,比如数字海报和广告牌,而不是向第三方销售数据,以便在移动设备上投放精准数字广告。

在对伦敦交通局 Wi-Fi 数据追踪实验的报道中,媒体一般将他们搜集的数据称为是“ 匿名 数据。”

那些在伦敦交通局测试期间(从去年 11 月 21 日持续到 12 月 19 日)不想被追踪的伦敦人,只能将移动设备上的 Wi-Fi 关闭。否则的话,一旦他们使用伦敦地铁网络中的 54 个站点(总共 270 个),他们的出行数据就会被自动追踪——即便他们当时没有登录或使用地铁站的 Wi-Fi 网络。

但是,在 TechCrunch 网站看到的一封电子邮件中,伦敦交通局如今拒绝了一项 FOI 请求(即要求其公布伦敦地铁 Wi-Fi 追踪实验匿名数据的完全数据集),并且表示之所以不便公布此类数据,是因为存在个人身份被重新确认的风险,而且披露个人数据还将违反英国的数据保护法。

伦敦交通局在回复 FOI 请求的信函中表示:“虽然 MAC 地址数据已经过假名化处理,但按照英国《1998 年数据保护法案》定义的个人数据,或者是与仍在世人员有关的数据,他们的身份可以通过这种数据得到确认,或者是其他属于数据控制人员的信息,以及可能会被数据控制人员占有的数据。”

“但是,如果与其他数据集进行比照,那么在某些情况下,假名数据仍然可以确认一个人的身份。考虑到这种可能性,它仍然属于个人数据。一旦向公共领域披露了这种数据,那么个人身份被识别的可能性就会增加,因为这扩大了可用于比照的其他数据集的范围。”

因此,如果个人隐私仍然面临曝光的风险,那么数据“去个性化”的价值何在?所谓的“去个性化”是指“通过匿名实现安全”的意思,其范围正扩大至智能手机用户,他们的往来信息正遭到被动追踪。

在谈到伦敦交通局 Wi-Fi 追踪实验的矛盾之处时,英国帝国理工学院数据科学研究所的专家伊夫-亚历山大·德蒙鸠耶(Yves-Alexandre de Montjoye)说:“在现阶段,我们看到了大量有关数据集被出售、被重新识别,或是被分享、被重新识别的例子,所以对于大规模数据项目来说,匿名的说法就值得怀疑——或者说至少需要展开非常仔细的研究。”

德蒙鸠耶在谈到 Wi-Fi 数据收集实验有关隐私的主张时说,这的确是一个“很棘手的问题”。他在接受 TechCrunch 采访时表示:“数据本身并不是匿名的,如果原始数据将要公开,那么身份被重新识别就不是不可能的事情了——人们极有可能可以识别这个数据集中的个人身份。老实说,即便是伦敦交通局,他们用 Oyster 卡(即伦敦公交卡)的数据来比对这种数据,并不是什么太难的事情。”

“虽然他们明确表示不会这么干,但他们要想做这件事,并不是什么困难的事情。”德蒙鸠耶还表示,其他类型的数据可能包括手机数据(比如运营商持有的数据),或是来自手机应用的数据,一旦与这种大规模假名 Wi-Fi 地理位置数据结合,就能重新确认某些人的身份。

在之前一项有关信用卡元数据的 研究 中,德蒙鸠耶发现只要通过四组随机信息,就足以将 90%的购物者重新确认为特定的个体。德蒙鸠耶还携手其他研究人员,实施过一项名为“ 人群的特定性:人类移动的隐私界限 ”的研究。他们在研究报告中写道:“在一个数据集中,如果个人地理位置每小时都明确一次,而且空间分辨率等同于运营商天线提供的数据,那么四个时空点就能够用来唯一确定 95%的个人身份。”

与此同时,伦敦地铁网络每天最多要处理 500 万乘客的出行数据——其中绝大多数人至少携带一台配备 Wi-Fi 接入功能的设备,这使得他们的活动轨迹易于被追踪。伦敦交通局的 Wi-Fi 实验对伦敦地铁网络中五分之一站点的乘客出行轨迹进行了追踪,总共持续了一个月时间。

伦敦交通局发言人证实,他们目前正就如何在整个地铁网络中永久推行该试点项目进行讨论,包括与英国数据保护机构的协商。但他也表示,至于何时全面推行这个项目,目前还没有具体的时间表。

伦敦交通局发言人说:“现在我们会说我们会如何推进这件事。我们要说明的是,我们可以把每一件事做得更好…我们主动与英国信息委员会(ICO)、隐私保护团体以及重要的利益相关者会面,向他们详细说明了我们的计划对未来社会的意义,以及我们如何与各方携手,持续推进这一计划。”

在伦敦交通局的 官方网站 上,它提供了有关用户 Wi-Fi 实验的隐私信息。上面写道:

“在试点项目期间收集的每个 MAC 地址都将经过“去个人化”(假名化)和加密处理,以避免原有的 MAC 地址和相关设备被识别。数据将会被保存于安全服务器上的某个限制区,并且不会连接到其他任何数据。因为伦敦交通局不能将这种数据连接至与用户及用户设备有关的其他任何信息上,因此你不会由于这项实验而收到以电子邮件、短信、推送和其他方式发送的任何信息。”

伦敦交通局发言人告诉我们,MAC 地址会被加密两次,第二次会用到盐化密钥,而这种密钥会在实验结束时销毁:“所以你根本没有办法确定 MAC 地址最初来自于哪里”。

他补充说:“我们之所以说是‘去个人化而非匿名化,唯一的原因是为了理解人们如何在地铁站内活动,而若想追踪个体出行路线,你必须要拥有站内的相同代码。所以,虽然我们能够理解某个胡乱写的代码,但我们的确没有办法确定代码是属于谁的。”

但是,德蒙鸠耶指出伦敦交通局可能拥有每天都使用的密钥,而不是拥有同样的盐化密钥长达一个月时间,以降低已收集信息被曝光的几率,同时降低个人身份被重新识别的风险。

他说:“一件很重要的事情——也是一件我们积极倡导的事情——在于,你是否真正考虑到全套的解决方案,包括用以避免大规模数据集遭到重新识别的安全机制,即便数据是假名。举例来说,这意味着要确保没人能获取数据集,或是阻止人们收集辅助信息,然后通过安全机制重新确认用户的身份。”

德蒙鸠耶在谈到伦敦交通局的实验时说:“我在这里并未看到任何内容,宣称他们会尽可能采取一切措施,避免遭到此类攻击。”

他还指出,英国信息委员会有关 Wi-Fi 位置分析报告的 指导意见 ,建议数据控制人员在使用数据的方法以及收集过量数据的方法上达到一种平衡,否则的话,就存在用户身份再次遭到识别的风险。这个指导原则还强调了明确告知数据用途以及在数据上保持透明的必要性,比如信息是如何收集的,以及用于什么用途。

但是,以伦敦交通局的 Wi-Fi 追踪实验为例,忙碌的伦敦地铁乘客将不得不经常关闭设备上的所有 Wi-Fi 无线电,避免出行数据在匆匆的上下班期间被收集——甚至可能无意中错过伦敦交通局放在地铁站,用以提醒用户注意此次实验的海报。

德蒙鸠耶说:“人们至少应该对他们是否真正尊重这项指导意见表示怀疑。”

伦敦交通局发言人显然已经习惯了记者们在这个话题上的刨根问底,并提到了英国信息专员伊丽莎白·邓哈姆(Elizabeth Denham)的一番话。上个月,在当地政府举行的一个监察会议上,邓哈姆在被问到伦敦交通局的试点项目时说,“这是公共机构推进新计划或新倡议的典型例证,他们已经认真咨询过我们的意见,做了适当的隐私影响评估报告。”

邓哈姆还补充说:“至少是在现阶段,我们认同他们的看法,那就是在他们想要在实验中执行的单向散列上,它是不可逆转的,当前确认或追踪一个经过地铁站的乘客的身份是不可能的。我此前就认为,只要通过良好的设计以及与监管部门的有效沟通,我们是可以将隐私问题处理好的,而伦敦交通局的试点项目就是一个极佳的例证。他们在这方面付出了巨大的努力。”

德蒙鸠耶认为,大规模地理位置追踪行动不仅要适当地对个人数据进行加密,而且还要执行设计良好的安全机制,用以控制数据收集和访问的方法,但考虑到几乎每周都要曝出一次大规模数据外泄的新闻,他的这种观点很难站住脚。 Equifax 就是用户数据外泄的最新例证,而诸如此类的事件 不胜枚举

与此同时,越来越多的个人数据流入公共领域,被用于交叉引用和解密其他信息,这进一步增加了数据被重新识别的风险。德蒙鸠耶在谈到伦敦交通局时说:“他们在自己所作的事情上相当的小心和透明,这种做法值得称道,也比其他许多类似情况好多了。”但他也重申了有关使用日常密钥的观点,“一旦密钥固定下来,他们会永远保留一个密钥吗?”

德蒙鸠耶认为,最重要的一个问题可能仍然是,在试点项目中被收集的数据是否“能被认为是匿名的”,他再次提到 ICO 的指导意见:“这项规定明确表示,‘如果某个人的身份因为 MAC 地址或其他属于网络运营商的数据而被识别,那么这种数据就属于个人数据’。”他还指出,伦敦交通局不仅拥有 Oyster 智能卡数据,还有无触碰式信用卡和贷记卡数据(银行卡也可以在伦敦的交通网络中使用),这意味着伦敦交通局拥有各种额外的大规模数据,这可能为重新识别“匿名”地理位置数据集提供了便利。

他补充说:“总体而言,FOI 的例证很好地诠释了使用匿名一词的难度,以及它在我们法律框架下的压倒性优势所带来的问题。我们和 PCAST 均认为,重新确认身份并不是很有用的政策依据,我们必须转向适当的基于安全和可以证明的系统。”

既然相信伦敦地铁网络的 Wi-Fi 数据做到了真正的匿名,但却拒绝向公众公开此类数据集,伦敦交通局发言人在谈到其中的原因时表示:“我们所要说的是,我们不公布数据,因为你可能会说我们知道那是一个在特定时期、特定条件下不同寻常的人。因此,如果我能看到那个 MAC 地址,即便是乱写的,我也能轻松知道就是那个人的代码,接着我就能明白他们要去哪里——因此我们不会公布此类数据。”换言之,匿名数据只有在一种情况下是私密的,即在你手里拥有足够多的其他数据进行匹配并对其秘密实施反向工程之前。

伦敦交通局发言人说:“我们在整个实验期间都明确表示,我们不会向第三方公布这种数据,这也是我们拒绝对 FOI 作出回应的原因。”这也是他们拒绝 FOI 要求的又一个理由。至少,这种说辞更加符合逻辑一些。另一件值得一提的事情是,一旦《通用数据保护条例》(GDPR)明年 5 月份在整个欧盟生效,那么未来对当地数据保护条例的任何调整都存在减少部分混乱的可能性。

英国德蒙福特大学网络安全教授艾尔克·波伊藤(Eerke Boiten)说:“我预计 GDPR 和英国相关法律将让有关匿名数据和假名数据的情况变得远比现在更清晰。”GDPR 对于两种情况都有不同的定义,同时并未对假名个人数据是否保持私密进行风险评估。

“按照 GDPR 的规定,匿名数据就是人们不能用它来重新获取原始身份识别信息的数据——这是你不能用类似数据的假名化获取的东西,即便你扔掉了 Salt 密钥。”他补充说:“GDPR 定义下的假名化实质上就是一种安全控制手段,首先减少了信息披露带来的冲击——与加密的道理是一样的。”

英国还考虑对国内法律条款进行改动, 将重新识别匿名数据认定为违法行为 。但是,德蒙鸠耶担心这有可能会成为安全研究人员的障碍,因此对有关建议政府应专注于确保数据控制人员合理实现数据匿名化的提议进行了批评。

GDPR 还将改变用户同意机制,因为它明确要求相关企业或机构在收集个人数据时必须征得用户同意——虽然也存在着 其他有关数据处理的法律依据 。因此,伦敦交通局似乎不可能推出一种永久性系统,以“选择退出”(opt-out)的方式来收集伦敦地铁网络的 Wi-Fi 数据。

相反,相关企业或机构可能必须征得每个人明确的知情同意,但这样一来,伦敦交通局这种主动式 Wi-Fi 数据收集方法根本无法实行。

波伊藤也同意德蒙鸠耶的看法。他说:“这永远都不会成为 GDPR 定义下的‘同意’场景。未能做到“选择退出”,并不是‘清晰的平权法案(affirmative action)’。若想满足 GDPR 的要求,伦敦交通局就必须要找到一个不一样的理由,可能涉及服务责任以及对乘客隐私的影响。以适当的方式告知乘客同样至关重要。”

翻译:皓岳

How “anonymous” wifi data can still be a privacy risk