为什么谷歌被骂上热搜一点也不冤,详解FLoC背后联邦计算
作者 | 马超 责编 | 欧阳姝黎
出品 | CSDN博客
近几天谷歌因为一项叫做FLoC的技术而被骂上了热搜,笔者看了一下这是一种基于联邦学习的“用户追踪”技术,可以在不暴露客户隐私的情况下进行用户画像及大数据营销,这项技术对于谷歌这种广告收入占总体营收9成的互联网公司来讲意义重大。
其实FLoC相比于Cookie从某种程度上讲还是有一定进步的,通过Cookie网站能轻松追踪到用户的所有上网行为,而通过FLoC只能追踪到分类相同的用户组,从这个逻辑上讲今后如果读者突然发现APP突然疯狂向你推荐某些莫名其妙的商品,那很有可能是你所在的用户组中的其它人搜索这种商品的次数比较多。不过Cookie只能给单个网站提供相应服务,但是FLoC的联邦学习将有助于广告商掌握用户组全局的浏览行为。
凭心而论谷歌这次被骂的并不冤,在没有进行任何说明的情况下谷歌就把上百万用户列为了小白鼠,并且这些试验用户只能在“旧追踪技术”也就是Cookie和“新追踪技术”FLoC之间选择,“不可追踪”的选项被谷歌删除了。而且谷歌遭反弹最强烈的操作是由于担心违反欧盟GDPR的隐私保护法规,这次试用计划并没有在欧盟开展。
当然笔者更加关注FLoC背后的联邦学习技术,因为笔者突然发现这可是被ARM v9和英特尔联合Pick从芯片底层给予支持的黑科技。
安全联邦计算-为何被科技巨头Pick
之前笔者曾经写过一篇《ARM V9到底强在哪》的文章,其中对于ARM V9的新安全计算技术并没有特别看好。但是在两周前英特尔首任CTO帕特.基辛格重回老东家执掌帅位后推出的Ice Lake-SP也把安全计算的指令集SGX列入主推方向,这让我感觉安全计算背后必有看点。
而且帕特.基辛格与谷歌的关系应该也比较微妙,谷歌母公司Alphabet现任董事长约翰·亨尼斯就是帕特.基辛格在斯坦福的硕士导师。帕特虽然出身寒门,与很多硅谷大佬一样,帕特.基辛格也是在十八九岁、年纪轻轻时就走上了工作岗位,不过与比尔盖茨不同的是,在英特尔的资助下帕特拿到了圣克拉拉大学的电气工程学士学位和斯坦福大学计算机科学的硕士学位。在出任英特尔CTO后,帕特.基辛格转战Vmware出任CEO,并在上个月初正式回归英特尔。
我们知道约翰·亨尼斯的另一个身份是RISC之父,因此帕特.基辛格回归之后开启的IDM2.0模式其中这个重要的改变就是可以代工RISC-V和ARM架构的RISC芯片了。
说回SGX安全计算,其实这项技术的历史已经非常久远了,简单来讲安全计算可以百万富翁问题来表述,假如两个百万富翁街头邂逅,他们都想炫一下富,比比谁更有钱,但是出于隐私,都不想让对方知道自己到底拥有多少财富,如何在不借助第三方的情况下,让他们知道彼此之间到底谁更有钱?针对这个问题,在上世纪80年代,清华大学的姚期智院士提出了解决方案,并因此获取了图灵奖,从理论层面证明了多方可信计算问题的可行性。
但在实践层面多方安全计算依然困扰业界,即使像是腾讯、脸书这样的流量巨头,所无法收集用户全部的行为数据,单靠他们一家社交数据训练不出特别好的模型,而想让亚马逊和阿里的电商数据也都共同都拿出来共享吧,又有客户隐私泄漏的风险。如何在不让其它参与者看到真实数据的情况下进行计算,把姚期智院士的解决方案落地,就成了一个难题。在这个经典问题之下,目前只有蓝象智联的GAIA CUBE等少数几个平台能够做到让数据在不泄露的情况下联合多方的数据进行联合计算并得到明文计算结果,实现数据的所有权和数据使用权的分离,而且这还都是基于区块链软件技术机制保证安全可信。而谷歌的联邦学习产品FLOC甚至都没有基于区块链设计,FLOC从很大程度上是基于谷歌自身的平台信誉背书,这也难怪人们对FLOC产生众多质疑。
而英特尔的SGX和ARM V9则力争从硬件安全角度用户打消顾虑,CPU安全计算实际是给计算机加了一个安全密室,即使拥有最高权限的特权管理员也不能进入安全密室,更无法在安全密室前布放监控。安全密室与外界的一切交互全部要经过加密并进行完整性校验。
其实英特尔的SGX技术早在几年前就已经实现了,但当时SGX能创建的内存空间只有128M,而目前的AI机器学习模型动辙要上百M,大的甚至要几十上百个G,当时的SGX根本放不下这样的模型,无法在多方安全计算中使用。不过这次Ice Lake-SP最高可以支持1T的安全空间,这种程度的提升将全面拓展SGX的应用场景,比如腾讯就联合北京微芯边缘计算和区块链研究院,将区块链与SGX结合,保障数据安全性,做到最终数据可用不可见。不过话虽这么说,但是笔者还是对于联邦学习的安全性有所顾虑,因为现在的AI重建技术太过强大了。
缺陷数据的恢复也没那么难
其实回归到百万富翁问题,只要富翁A斗富的次数够多,那么他具体的财富数值就不再是什么秘密了,怎么把这种被损坏了的数据恢复回来,其实这个问题完全是GAN等生成模型的攻击范围。比如如何把打了马赛克的人脸数据恢复回来,目前比较优秀的开源模型是由英伟达提出的Partialconv(https://github.com/NVIDIA/partialconv)。
即使图像丢失了大面积的像素,也能通过Partialconv模型将损失进行修复。之前红遍网络的一键去“马赛克“技术,其实背后都是Partialconv,其效果图如下:
其实联邦学习就是用户A与用户B联合进行数据挖掘,但是用户A只有计算结果和自身的数据,但是用户B的数据不可见,但是想推理出用户B的数据似乎也不是不可能,这项技术从本质上讲和AI换脸有点像,也就是说用户A有换脸后的结果和自身的面部数据,那么他应该也有机会推测出用户B的数据。值得注意的是目前AI甚至突破了之前的分辨率限制,比如去年年中使用自编码模型技术的AI换脸项目ALAE成功登顶了Github趋势榜(https://github.com/podgorskiy/ALAE),相比于之于的之前的Faceswap以及Deepfakes等换脸项目,ALAE可谓将AI换脸带到了一个新高度,这种最新的技术突破了之前的分辨率极限,可以生成高清的换脸图像,以下是效果图。
所以说即使是最终数据被打码不可见,可能也很难避免被恢复的最终结果。
因此笔者最后推荐一下苹果的手机,在IOS中把追踪功能关掉就万事大吉了。而非苹果的用户可以考虑由Opea创始人开发的维瓦尔第(Vivaldi)浏览器。这款浏览器兼容chrome插件,最近颇为良心的还出了阻止你同意cookies的弹窗功能。
马超,CSDN博客专家,阿里云MVP、华为云MVP,华为2020年技术社区开发者之星
本文文字及图片出自 微信公众号
你也许感兴趣的:
- 1行代码生成随机迷宫,这个概率编程语言登GitHub热榜,作者曾开发著名WFC算法
- Google 工程师:如何看待程序员普遍缺乏数据结构和算法知识?
- 如何判断一个元素在亿级数据中是否存在?
- 阮一峰:彩票的数学知识
- 事情污,但算法不污
- 在美国入境被考算法,非洲程序员的亲身经历
- 写了六个相同功能的函数之后,我学到了这些
- 十大机器学习算法
- 算法是内功,程序员别冷落算法
- LZ77无损压缩算法原理详解(结合图片和简单代码)
你对本文的反应是: