《隐私科技白皮书(2022年).pdf》由会员分享,可在线阅读,更多相关《隐私科技白皮书(2022年).pdf(57页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 2022 云安全联盟大中华区版权所有2 0 2022 云安全联盟大中华区版权所有12022 云安全联盟大中华区-保留所有权利。你可以在你的电脑上下载、储存、展示、查看及打印,或 者访问云安全联盟大中华区官网(https:/www.c-)。须遵守以下:(a)本文只可作个人、信息获取、非商业用途;(b)本文内容不得篡改;(c)本文不得转发;(d)该商标、版权或其他声明不得删除。在遵循 中华人民共和国著作权法相关条款情况下合理使用本文内容,使用时请注明引用于云安全联盟大中华区。2022 云安全联盟大中华区版权所有2致谢云安全联盟大中华区(简称:C S A G C R)隐私科技工作组在 2 0 2
2、1年 7月成立。由高轶峰、徐震天担任工作组联席组长,工作组专家来自安永、优衣库、平安科技、安恒、美创、数安行科技、极氪汽车、腾讯、e 签宝、宇链科技、优刻得、竟安科技、O p p o、阿里巴巴、世平、3 6 0 数科、观安信息、爱加密、工行、安华、大华等二十多个单位。本白皮书由 C S A大中华区隐私科技工作组专家撰写,感谢以下专家的贡献:联席组长:高轶峰、徐震天贡献者名单原创作者:谢江、沈赟、滕海明、郭伟、何永德、聂桂兵、蔡毅、朱垒审核专家:欧建军、顾伟、王安宇、贺志生、郭鹏程、姚凯研究协调员:麦尔维娅贡献单位:上海观安信息技术股份有限公司、杭州宇链科技有限公司、优刻得科技股份有限公司、杭州
3、安恒信息技术股份有限公司、O P P O、北森云计算有限公司(以上排名不分先后)关于研究工作组的更多介绍,请在 C S A大中华区官网(h t t p s:/c-c s a.c n/r e s e a r c h/)上查看。如本白皮书有不妥当之处,敬请读者联系 C S A G C R秘书处给与雅正!联系邮箱:i n f o c-c s a.c n;云安全联盟 C S A公众号:2022 云安全联盟大中华区版权所有3序言首先祝贺隐私科技白皮书的发布,这本白皮书由 C S A 隐私科技工作组编写,C S A 大中华区专家组评审。科技的迅猛发展为社会生活带来了极大的便捷性,但随之而来的是海量个人信息
4、的收集与处理,这为数据保护与个人隐私权益的保护带来了巨大挑战。近年来,国家层面相继发布了多部个人信息保护与网络安全、数据安全相关的法律法规,保障国家安全、公共利益和个人隐私权益。如何在满足法律合规要求、保障个人安全性、保护个人隐私权益的同时,促进个人信息的有序流动与使用。本书从隐私合规、数据安全、数据可用的维度出发,开创性的提出了“隐私科技”的概念,详细描述了其定义、发展历程、技术以及应用场景,分析了全球以及中国的隐私科技产业环境,同时深入浅出的描绘了隐私科技的发展趋势,值得大家参考。李雨航 Y a l e L iC S A 大中华区主席兼研究院院长 2022 云安全联盟大中华区版权所有4目录
5、致 谢.2序 言.31.隐私保护风险、合规及趋势大环境分析.51.1隐私保护风险分析.51.2中国隐私保护合规与标准概述.62.隐私科技概述.83.隐私科技技术.93.1隐私合规技术.93.1.1隐私合规影响评估.93.1.2隐私设计.103.2隐私计算技术.113.2.1多方安全计算.113.2.2联邦学习.133.2.3可信计算.153.2.4同态加密.173.2.5区块链技术.183.3其它隐私增强技术.193.3.1差分隐私.193.3.2动态数据屏蔽.203.3.3云访问安全代理.223.3.4格式保留加密.233.3.5匿名化/假名化技术.253.4隐私科技发展路径.273.4.1
6、数据最小化面对的风险控制和合规满足需求.283.4.2隐私科技产业发展现状.293.5中国隐私科技数据安全合规与保护现状.303.5.1在内部隐私保护政策和组织架构层面.31 2022 云安全联盟大中华区版权所有53.5.2在隐私保护风险管理方面.313.5.3在隐私设计管理方面.313.5.4在隐私数据处理合法性评估层面.313.5.5在数据主体权益响应处理层面.323.5.6在合作方管理方面.323.5.7在跨境数据传输管理方面.323.5.8在数据处理安全性及合规性方面.333.5.9在隐私数据泄露事件响应处理方面.333.5.10在隐私审计监督方面.333.6产业环境概述.333.6.
7、1政策支持.343.6.2金融保障.343.6.3标准建设.353.6.4 技术产品市场.354.隐私科技行业应用场景分析.404.1金融行业-互联网信贷.404.1.1 业务背景及痛点.404.1.2解决方案.414.2医疗大健康行业.424.2.1医疗数据共享现状及问题.424.2.2解决方案.434.3政府机构.444.3.1政务数据开放背景介绍.444.3.2政务数据开放痛点.444.3.3 智能政务开放应用案例.454.4零售与快速消费品行业.474.4.1业务痛点.474.4.2解决方案.484.5汽车行业.484.5.1监管要求和业务痛点.48 2022 云安全联盟大中华区版权所
8、有64.5.2解决方案.494.6电信运营商.504.6.1未脱敏数据存在的安全风险.504.6.2大数据脱敏解决方案.515.隐私科技未来发展趋势展望.535.1隐私科技相关的法律与政策生态将持续完善与优化.535.2通用性及行业性隐私科技解决方案并行.535.3隐私科技赛道将进一步细分且明确定位,形成隐私保护合规新生态.546.附录参考文献.54 2022 云安全联盟大中华区版权所有51.隐私保护风险、合规及趋势大环境分析1.1 隐私保护风险分析在当今时代,互联网、大数据、人工智能等科技的迅猛发展为大众生活带来了便捷与高效,于此同时伴随而至的是对海量数据与个人信息的处理。2 0 1 9 年
9、 1 0 月,党的十九届四中全会决议通过中共中央关于坚持和完善中国特色社会主义制度 推进国家治理体系和治理能力现代化若干重大问题的决定将数据列为生产要素。为落实党中央的重大决策部署,2 0 2 0 年 4 月,中共中央、国务院出台关于构建更加完善的要素市场化配置体制机制的意见,明确要求推进政府数据开放共享、提升数据资源价值、加强数据资源整合与安全保护,加快培育数据要素市场。除此之外,全球其他国家或地区近年来相继出台法规政策以在国际上争夺数据主权。可以看到,数据作为一种新型生产要素,其价值及影响力不言而喻。然而,数据的开发利用、价值挖掘、跨境流动等生产活动给数据安全或个人信息保护带来了巨大的挑战
10、,可能伴随着危害国家安全、公共利益或个人隐私权益等一系列风险。在科技飞速发展的同时,全球各当局逐渐重视数据安全与个人信息保护。据不完全统计,目前已有 1 4 0 个国家和地区制定了与个人信息保护相关的法律或规定,亦有多个国家正在起草制定相关法律法规。特别是 2 0 1 8 年生效的欧盟通用数据保护条例(G D P R)作为代表,对数据处理活动提出了较为严苛的合规要求,且自该法案生效后相关执法机构持续不断开展执法活动。早在 2 0 1 2 年,我国发布全国人大常委会关于加强网络信息保护的决定,从国家层面确认了个人信息保护的重要性与决心。党的十九届五中全会上,习近平总书记对保障国家安全、加强个人信
11、息保护提出了明确要求。目前,在数据安全与个人信息保护领域我国已完成顶层制度设计,即以网络安全法、数据安全法、个人信息保护法为一体的网络与数据保护综合规范体系,并辅以相关配套法规规范、标准文件、行业要求等,从数据收集、使用、对外提供、公开披露、删除等全生命周期建立了多方位立体的数据合规体系。此外,从目前新法出台的频繁程度以及监管持续不断的通报处罚行动可知,我国对于数据安全与个人信息保护相关事宜的重视程度几近顶峰,相关要求不断提高,监管持续加码,企业在开展数据处理活动时面临巨大的合规压力与合规成本。2022 云安全联盟大中华区版权所有6面对如此严峻的合规监管态势,同时日益增长的信息化时代智能便利的
12、需求,如何释放数据要素价值、真正落地合规要求,成为了当前信息社会关切的重点。隐私科技的出现,一方面通过技术手段,帮助组织实现数据安全与个人信息保护的合规要求,如开展数据分类分级、个人信息保护影响评估、管理用户授权与响应等;另一方面,在数据使用与流通过程中,通过隐私计算技术对数据进行处理,使数据结合算法等技术手段,在数据“可用不可见”的前提下实现商业或公益目的,充分释放数据要素价值。1.2 中国隐私保护合规与标准概述我国早在2012年就在国家层面开始关注网络数据保护,同年出台了规范互联网信息服务市场秩序若干规定、全国人民代表大会常务委员会关于加强网络信息保护的决定文件,明确了“合法、正当、必要”
13、原则,后续相关立法或标准文件制定中均予以沿用。2016年,我国颁布了网络安全法,全面规定了网络空间中有关个人信息的安全与保护制度。2021年,我国相继颁布数据安全法、个人信息保护法。自此,我国数据安全与个人信息保护领域的“三驾马车”已形成。在数据安全与个人信息保护领域的规则演进过程,我国呈现出了区别于其他国家和地区的鲜明特色,即“标准先行”的特点。在2017年,全国信息安全标准委员会发布GB/T 35273信息安全技术 个人信息安全规范,从个人信息全生命周期角度提出个人信息处理应遵循的原则和安全要求。而后,全国信息安全标准委员会又陆续发布信息安全技术 个人信息告知同意指南(征求意见稿)、信息安
14、全技术 移动互联网应用(App)收集个人信息基本规范(征求意见稿)、信息安全技术 网络数据处理安全规范(征求意见稿)、GB/T 39335-2020信息安全技术 个人信息安全影响评估指南等,从多维度提出了合规要求,但多数标准文件目前仍为征求意见稿。此外,民法典、消费者权益保护法、电子商务法等法律中也对个人信息保护提出相关规定与要求,相关部门就特定行业或特殊类型个人信息也发布了个人信息保护相关规定,如电信和互联网用户个人信息保护规定、人口健康信息管理办法(试行)、个人信用信息基础数据库管理暂行办法、征信业务管理办法、汽车数据安全管理若干规定(试行)、儿童个人信息网络保护规定等。我国隐私合规领域法
15、律文件、合规要求、涉及的相关国家标准与隐私科技应用的映射关系如表1-1所示:2022 云安全联盟大中华区版权所有7表 1-1 隐私合规法律法规清单法律文件 合规要求 相关规定/国家标准 隐私科技应用数据安全法数据分类分级制度 工业数据分类分级指南(试行)(工信厅信发20206 号)JR/T0158-2018证券期货业数据分类分级指引(试行)JR/T0197-2020金融数据安全 数据安全分级指南YD/T 3813-2020基础电信企业数据分类分级方法GB/T 38667-2020 信息技术 大数据 数据分类指南YD/T 2781-2014 电信和互联网服务-用户个人信息保护-定义及分类YD/T
16、 2782-2014 电信和互联网服务-用户个人信息保护-分级指南数据识别与分类分级工具个人信息保护法1.处理个人信息的,应当获得个人信息主体同意或具体其他合法事由。2.个人信息处理者应当建立便捷的个人行使权利的申请受理和处理机制。信息安全技术 个人信息告知同意指南(征求意见稿)隐私设计工具(包括用户同意管理工具、用户权利响应平台等)个人信息保护法1.个人信息处理者应事前进行个人信息保护影响评估,并对处理情况进行记录:(一)处理敏感个人信息;(二)利用个人信息进行自动化决策;(三)委托处理个人信息、向其他个人信息处理者提供个人信息、公开个人信息;(四)向境外提供个人信息;(五)其他对个人权益有
17、重大影响的个人信息处理活动。2、个人信息保护影响评估应当包括下列内容:(一)个人信息的处理目的、处理方式等是否合法、正当、必要;(二)对个人权益的影响及安全风险;(三)所采取的保护措施是否合法、有效并与风险程度相适应。个人信息保护影响评估报告和处理情况记录应当至少保存三年。GB/T 39335-2021信息安全技术个人信息安全影响评估指南隐私保护影响评估工具、隐私设计开发工具个人信息保护法采取相应的加密、去标识化等安全技术措施保障个人信息安全。GB/T 37964-2019信息安全技术 个人信息去标识化指南信息安全技术 个人信息去标识化效果分级评估规范(征求意见稿)DB31/T 1311-20
18、21数据去标识化共享指南数据去标识化/匿名化、同态加密、联邦学习等隐私计算技术 2022 云安全联盟大中华区版权所有82.隐私科技概述隐私科技是一系列技术与解决方案的集合,它包含了如隐私计算,隐私增强技术,数据安全技术,数据及隐私合规科技等诸多技术领域范畴。隐私科技通过数字化手段解决组织在隐私保护工作中面临的痛点,在提升数据流通与共享能力的基础上确保数据安全与个人隐私得到有效的保护。从应用场景出发,隐私科技主要解决以下三方面的问题:隐私合规作为隐私保护最强的驱动力,合法合规的处理数据是绝大多数组织所面临的最大痛点。随着数据量的爆发性增长以及数据处理场景的多元化,传统的人工方式识别隐私合规风险的
19、方式已无法满足需要,需要使用自动化/智能化手段为组织展示隐私数据在组织内部的全貌,进而识别合规风险。数据安全 海量的数据往往能够产生巨大的价值,这种巨大的诱惑也导致了各类数据盗用、泄漏事件不断发生,造成了社会各界对隐私数据安全性的担忧。各类法律法规的出台,也迫使数据所有者不断寻找可靠的方法保护数据的安全性。数据可用 一方面,虽然全球数据总量处在指数性增长的过程中,但绝大多数仍分布在不同企业及信息系统当中,“数据孤岛”问题明显;另一方面,数据作为基础性资源,其所产生的效能也是持续推动数字经济体系发展的重要支撑。这就意味着不同组织间数据协作进而最大化挖取数据价值,已成为不可逆的趋势。如何在兼顾合规
20、安全的前提下,打通不同组织/企业之间的数据壁垒,实现数据的“流通”与“共享”并挖掘其最大的价值,已成为数字经济发展的重要课题和推动力。从技术角度出发,隐私科技涵盖了众多隐私计算技术,主要包含以安全多方计算为代表的基于密码学的技术、以联邦学习为代表的基于人工智能与算法的技术,以及以可信执行环境的为代表的基于硬件环境的技术。从产品角度出发,主流产品主要包括两大类:一类是以数据可视化工具、隐私合规影响评估工具等为代表的管理类工具,主要解决组织的隐私合规问题;另一类是以可信计算/联邦学习框架等为代表的技术类产品与服务,主要解决组织的数据安全与可用的问题。隐私科技全景图如2-1所示:2022 云安全联盟
21、大中华区版权所有9图 2-1 隐私科技全景图3.隐私科技技术3.1 隐私合规技术3.1.1 隐私合规影响评估作为隐私保护最强的驱动力,合法、合规的收集和使用数据是所有政府组织与企业在隐私保护领域的最高优先级工作事项。现阶段企业组织面临来自不同监管机构的多重监管要求,上至近些年颁布的网络安全法、数据安全法与个人信息保护法这三部法律,下至针对特定行业或应用的要求,如移动应用软件的个人信息收集和处理要求,目的、颗粒度与监管的方式手段均有较大差异,企事业组织的合规成本显著增加。在多头监管、多重监管的压力下,企事业组织基于传统的人工流程开展的“法条对标”工作,不但耗费大量资源,而且及时性和有效性也无法得
22、到充分保障;一旦在某一环节有所遗漏,极易引发各类隐私合规问题进而遭受监管的严厉处罚。隐私合规影响评估,指通过工具化的手段有效识别个人信息在收集、使用、存储、转移、销毁(统称“个人信息处理”)等各个环节的合规风险点,并指导数据处理者通过业务流程和技术手段规避风险,最大限度降低个人信息处理风险。隐私合规影响评估技术高度依赖于系统工具,通过一种或多种系统工具帮助数据处理者将个人信息处理的业务场景与所有适用的法律法规对标,识别合规差距并提出改进建议。2022 云安全联盟大中华区版权所有1 0一般而言,隐私合规影响评估工具包含如下功能模块:具有较强实时性的法律法规标准库,并且该知识库可通过用户视角以清单
23、、问卷的形式展示 供数据处理者输入业务流程信息的功能 评估结果与风险展示功能 改进建议展示功能隐私合规影响评估工具的核心能力在于能够根据用户输入的结构化与非结构化信息,有效识别出合规差距并展示改进建议,因此其核心竞争力在于实时性较强的法律法规标准库、以及后端的判断与计算引擎。此类工具在全球范围内已有了广泛的推广,截止 2 0 2 1 年已有超过 3 0 0 家不同厂商为全球范围内数以万计企业提供服务,头部厂商的估值已超过 5 0 亿美金。在我国,无论是产品的成熟度,还是厂商/用户的重视程度,均与全球领先水平有着较大差距。但随着个人信息保护法及配套细则的逐步落实,在可以预见的未来,此类产品也会在
24、国内得到快速推广和应用。3.1.2 隐私设计隐私设计又称 P r i v a c y b y D e s i g n,是将隐私合规要求融入到产品、服务流程设计中的工作方法。任何一款需要收集、使用个人信息的产品或系统,在需求阶段就应该将隐私合规要求融入到产品设计之中,以确保该产品在功能层面能够满足适用的隐私合规要求。隐私设计一般从数据生命周期出发,结合产品/系统的具体功能,将数据在收集、存储、使用、转移/传输、加工、提供、公开、销毁各阶段的隐私合规要求以系统需求的形式展现出来,并最终体现在产品功能之中。由于不同行业的业务特性差别较大,因此隐私设计很难通过一个集成化的工具覆盖不同业务生态,目前全球
25、范围内应用范围较广的隐私设计产品主要包括以下几类:Consent Manager工具(知情同意管理工具)在产品功能层面收集、追踪、管理“用户同意”;Data Subject Request工具(数据主体权利管理工具)管理并满足用户行使的隐私权利,如知情权、撤回同意权、个人信息删除权等;2022 云安全联盟大中华区版权所有1 1 匿名化/假名化 通过技术手段处理个人信息,使其在匿名化或假名化的状态下存储、使用和传输。上述 C o n s e n t M a n a g e r 工具(知情同意管理工具)和 D a t a S u b j e c t R e q u e s t 工具(数据主体权利管
26、理工具)在传统基于 P C 浏览器的各类网站上已有了较大规模的应用和较好的实践,但仍然缺乏移动互联网下的应用场景:大多数的中国互联网移动应用程序(如 A p p/小程序),目前还依赖于应用程序本身的功能满足上述需求。关于匿名化/假名化的实现,目前主流操作通过各类隐私计算技术实现此类需求。3.2 隐私计算技术3.2.1 多方安全计算安全多方计算(S e c u r e M u l t i-P a r t y C o m p u t a t i o n,M P C)起源于 1 9 8 2 年姚期智教授的百万富翁问题,也就是如何在不暴露各自财富的前提下比较谁更富有。安全多方计算用于解决在一组互不信任
27、的参与方之间保护隐私的协同计算问题,能确保输入的独立性、计算的正确性、去中心化,同时不将输入值泄露给参与计算的其他成员。安全多方计算主要解决在无可信第三方的情况下,如何安全地计算一个约定函数的问题。安全多方计算是电子选举、电子投票、门限签名以及电子拍卖等诸多应用场景实施的密码学基础。安全要点如下图 3-1 所示:M P C不是一个单一技术,是由一些列技术组成的协议栈,可以分为支撑技术层和具体构造 M P C协议层两层。其中,支撑技术层主要提供用来构建M P C基础技术的实现协议,包含常用的加密解密、h a s h 函数、密钥交换、同态加密(H o m o m o r p h i c E n c
28、 r y p t i o n,H E)等,同时还包含 M P C 中的基础工具:秘密分享(S e c r e t S h a r i n g,S S)、不经意传输协议(O b l i v i o u s T r a n s f e r,O T)等。构造的 M P C 协议分为两类,专用算法和通用框架。专用算法是为解决特定问题而构造的特殊 M P C协议,由于是针对性构造并进行了优化,因此专用算法的效率会比基于混淆电路(G a r b l e d C i r c u i t,G C)的通用框架高很多,包含四则运算、比较运算、隐私集合求交集和隐私数据查询等;通用框架指可以满足大部分计算逻辑的通用
29、M P C协议,基于混淆电路实现,可将计算逻辑编译成电路,然后混淆执行,并且支持大部分计算逻辑。2022 云安全联盟大中华区版权所有1 2图 3-1 安全多方计算技术体系框架安全多方计算技术体系多方安全计算技术体系中,最重要的支撑技术有同态加密、混淆电路、可搜索加密、秘密分享、零知识证明这五类。同态加密(H o m o m o r p h i c E n c r y p t i o n,H E)是一种加密函数,对明文先进行加法和乘法运算再加密,即在无需解密的情况下直接对加密数据执行计算,与加密后对密文进行相应的运算,结果是等价的。由于这个良好的性质,人们可以委托第三方处理数据而不泄露信息。根据
30、支持密文运算的程度,同态加密可分为全同态加密和部分同态加密。部分同态加密仅支持有限的密文计算深度,仅支持同种加密运算即同乘或同加。全同态加密可同时满足加同态和乘同态性质,是可以进行任意多次加和乘运算的加密函数。混淆电路(G a r b l e d C i r c u i t,G C)又称姚氏电路(Y a os G C),是由姚期智教授于1 9 8 6 年针对百万富翁问题提出的解决方案。它是安全两方计算协议,参与方在不知道他人数据的前提下,通过使用私有数据共同计算一个用逻辑电路表示的函数,由于任何安全计算函数都可转换成对应布尔电路的形式,相较其他的安全计算方法,具有较高的通用性。非 关 系 数
31、据 库关 系 型 数 据 库安 全 技 术安 全 多 方 计 算秘 密 分 享 不 经 意 传 输 混 淆 电 路 同 态 加 密调 度 管 理.资 源 管 理任 务 管 理 用 户 管 理.应 用 服 务数 据 统 计 数 据 匹 配联 合 建 模.数 据 源 文 件联 邦 学 习 2022 云安全联盟大中华区版权所有1 3可搜索加密(S e a r c h a b l e E n c r y p t i o n,S E)是一种支持用户在密文上进行关键字查找的密码学原语,即在加密状态下实现搜索功能。秘密分享(S e c r e t S h a r i n g,S S)的思想是将数据以适当的方
32、式拆分成多个无意义的数,拆分后的每一个数(?)由不同的参与者管理,单个参与者或者少数几个参与者无法恢复原始数据,只有若干个参与者一同协作才能恢复原始数据。通过拆分原始数据,将秘密分散到一群参与者中,能有效地防止系统外敌人的攻击和系统内用户的背叛。基于秘密分享的多方安全计算可支持加减乘除及多项式运算。零知识证明(Z e r oK n o w l e d g e P r o o f)是一种涉及两方或者多方的协议,证实者使验证者确信证实者知道秘密值但不会向验证者泄漏任何有关秘密值的信息,采用交互式零知识证明方法验证访问者的身份。3.2.2 联邦学习联邦计算/联邦学习背景联邦学习(F e d e r
33、a t e d L e a r n i n g)是一种新兴的人工智能基础技术,在 2 0 1 6年由谷歌最先提出,原本用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效的机器学习。技术要点一个典型的联邦学习过程如图3-2所示:图 3-2:联邦学习过程示意图 2022 云安全联盟大中华区版权所有1 41.中服务发送最新的模型参数到各个节点(Node)2.各节点收集本地数据(Local Data)3.各节点基于最新的模型参数在本地训练(Training)模型4.更新模型参数,返
34、回给全局模型(Trained Model)5.中服务汇总各模型的更新并重新训练全局模型,得到新模型(New Model)6.重复步骤 1从数据安全和隐私保护的角度看,在联邦学习框架下,各参与方只交换密文形式的中间计算结果或转化结果,不交换数据,保证各方数据不出本地节点。同时联邦学习可以通过同态加密、差分隐私、秘密分享等提高数据协作过程中的安全性。根据联邦学习各参与方拥有的数据的情况,可以将联邦学习分为三类(见图 3-3),即横向联邦学习、纵向联邦学习和迁移联邦学习。图 3-3 三类联邦学习示意图横向联邦学习:在两个数据集的用户特征重叠较多,而用户重叠较少的情况下,把数据集按照横向(即用户维度)
35、切分,并取出双方用户特征相同而用户不完全相同的那部分数据进行训练。这种方法叫做横向联邦学习。纵向联邦学习:在两个数据集的用户重叠较多而用户特征重叠较少的情况下,把数据集按照纵向(即特征维度)切分,并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。这种方法叫做纵向联邦学习。2022 云安全联盟大中华区版权所有1 5联邦迁移学习:在两个数据集的用户与用户特征重叠都较少的情况下,不对数据进行切分,而利用迁移学习克服数据或标签不足的情况。这种方法叫做联邦迁移学习。技术优势联邦学习过程中原始数据隔离,数据不会泄露到外部,满足机器学习过程中用户隐私保护和数据安全的需求;能够保证模型质量无损,不会
36、出现负迁移,保证联邦模型比割裂的独立模型效果好;参与者地位对等,能够实现公平合作;能够保证参与各方在保持独立性的情况下,进行信息与模型参数的加密交换,并同时获得成长。由于法规或商业机密等原因,很多行业的数据不能直接聚合用于训练机器学习模型,这些行业有金融、医疗、政务、教育、智慧城市、边缘计算、物联网、区块链以及第 5 代(5 G)移动网络等。联邦学习作为能够在满足隐私、安全、合规的前提下,使用分散于多方的数据构建共享和定制化模型的机器学习建模机制,在诸多领域都有广阔的应用前景。3.2.3 可信计算可信计算的基本逻辑是通过一个不可篡改和伪造的信任根,和一套可信验证机制建立起来的一条可传递的信任链
37、。利用这条信任链,不仅可以在本地设备内部验证固件和 O S 内核的真实性完整性,即安全启动(S e c u r e B o o t)。同时还可以实现对远程设备(如手机、汽车)身份的可信验证。由于可信计算的根基是不可篡改和伪造的信任根,因此可信计算离不开硬件的支持配合。在 P C 时代,由 A M D、惠普、I B M、英特尔和微软组成的 T C G 组织提出的 T P M 几乎是可信计算的代名词。T P M 是一颗硬件安全芯片,可以用来存储和校验 B I O S/C M O S的密码,从而在 P C 上承担起信任根的作用,后来我国又在 T P M 1.2 的基础上推出了T C M芯片。技术要点
38、这里以 A R M 的 T r u s t z o n e 技术(信任域)为例,介绍一下可信计算在隐私保护领域的作用。2022 云安全联盟大中华区版权所有1 6A R M 在 v 7 架构中就已经有了 S e c u r i t y E x t e n s i o n 安全扩展,也就是 T r u s t Z o n e(信任域),其目的也很简单,即在不增加硬件成本的情况下为设备提供一个可信执行环境,以此支持 T E E 技术安全微内核安全存储 安全界面生物识别信息 电子身份eID安全应用管理 密码学算法安全域管理 多核多线程TIPC D river 进程通信Linux宏内核硬件驱动 TIPC
39、 D river原生库 基础服务TEE D aem on Cam era D aem onNormal W orldSecure W orldTEE OS可信应用管理平台(TAM)网络安全事件监控平台 联合建模平台(联邦学习)大数据分析平台Secure SO A Fram ew ork(云平台)云端车端身份验证 N FC D aem on人脸识别 状态监控联邦学习模型 M PC算法图 3-4 ARM CPU 结构示例如图 3-4 所示,在同一颗 A R M C P U 上存在着两套操作系统,一套是左侧的 N o r m a lW o r l d(正常场景)中运行的 A n d r o i d
40、或 L i n u x,另一套是右侧的 S e c u r e W o r l d(受信场景)中运行的 T E E O S,负责信任根管理、验证及权限管理,以及 M P C 算法或 F L 模型等关键业务逻辑的存储和运行。N o r m a l W o r l d 与 S e c u r e W o r l d 之间使用安全的 A P I通信,当 A n d r o i d 或 L i n u x 中某些应用程序要运行关键业务逻辑,或访问用户隐私数据时,必须通过这些安全 A P I的验证才可以获得访问权限。值得注意的是,可信执行环境与联邦学习(F L)、安全多方计算(M P C)是融合关系,而
41、非替代关系,从上图也可以看出,可信执行环境可以在保护隐私数据的同时,对保护 F L 模型和 M P C 算法,这样一方面可以防止攻击者通过对算法和模型的研究,逆向分析得到隐私元数据,同时还可以保护商业 I P。另外在云端架构中,通过 T A M(T r u s t e d A p p l i c a t i o n M a n a g e m e n t)管理每个终端T E E 系统,包括 T A(T r u s t e d A p p l i c a t i o n)升级、双向可信验证、安全服务访问、安全数据传输等。利用 T A M 对接终端 T E E 获取处理过的隐私数据后,后台的网络安
42、全事件监控平台、大数据分析平台以及联合建模平台将可以安全合规地分析处理数据。同时这套体系也可以用于管理隐私数据生命周期,如用户希望删除之前注册过的个人数据 2022 云安全联盟大中华区版权所有1 7时,就可以通过 T A M 精确的识别终端设备并对设备进行不可逆的数据删除,而后台由于并不存储原始的隐私数据,因此也不需要进行相关的删除操作。3.2.4 同态加密同态加密(H o m o m o r p h i c E n c r y p t i o n,H E)是指满足密文同态运算性质的加密算法,即数据经过同态加密之后,对密文进行特定的计算,得到的密文计算结果在进行对应的同态解密后的明文等同于对明
43、文数据直接进行相同的计算,实现数据的“可算不可见”技术要点如果一种同态加密算法支持对密文进行任意形式的计算,则称为全同态加密(F u l l y H o m o m o r p h i c E n c r y p t i o n,F H E);如果支持对密文进行部分形式的计算,例如仅支持加法、仅支持乘法或支持有限次加法和乘法,则称其为半同态加密或部分同态加密,英文简称为 S W H E(S o m e w h a t H o m o m o r p h i c E n c r y p t i o n)或 P H E(P a r t i a l l y H o m o m o r p h i c
44、 E n c r y p t i o n)。一般而言,由于任意计算均可通过加法和乘法构造,若加密算法同时满足加法同态性和乘法同态性,则可称其满足全同态性。技术优势同态加密的这个“可算不可见”的特性对于保护信息的安全具有重要意义,利用同态加密技术可以先对多个密文进行计算之后再解密,不必对每一个密文解密而花费高昂的计算代价;利用同态加密技术可以实现无密钥方对密文的计算,密文计算无须经过密钥方,既可以减少通信代价,又可以转移计算任务,由此可平衡各方的计算代价;利用同态加密技术可以实现让解密方只能获知最后的结果,而无法获得每一个密文的消息,从而可以提高信息的安全性。应用领域同态加密的概念最初提出用于解
45、决云计算等外包计算中的数据机密性保护问题,防止云计算服务提供商获取敏感明文数据,实现“先计算后解密”等价于传统的“先解密后计算”。随着区块链、隐私计算等新兴领域的发展及其对隐私保护的更高要求,同态加密的应用边界拓展到了更为丰富的领域。2022 云安全联盟大中华区版权所有1 83.2.5 区块链技术技术要点区块链(B l o c k c h a i n)是一种按照时间顺序将若干数据区块相连的、不可篡改、不可伪造、全程留下痕迹、交易可以追溯的分布式共享账本。通过密码学技术和分布式共识协议保证网络传输与访问安全,实现数据多方维护、交叉验证、全网一致、不易篡改,是解决多方协作和多方信任问题的有力工具。
46、通过共识机制在参与方之间建立信任基础,实现点对点的价值传递。通过智能合约实现链上数据真实性验证和审计。通过协作机制、激励机制的设计和共识,促进数据的开放共享和价值协作。技术优势将区块链技术与隐私计算结合,已成为业内厂商的共识。隐私计算实现了在隐私计算过程中对于输入输入数据的隐私保护,但身份认证、数据来源可信以及计算结果追溯及验证均存在问题,与区块链技术相结合,利用区块链的分布式账本、智能合约等技术可以实现参与计算的原始数据链上存证、计算过程关键步骤的上链存证回溯,确保整个计算过程的可验证性。早期的区块链通过大规模的复制传递计算信任,但吞吐量有限,隐私和安全性也不完善。将区块链与链下隐私计算方案
47、结合,区块链专注链上业务逻辑的可信执行与数据权属凭证的流通,将密集的数据计算业务放在链下,通过链下隐私计算-可信计算网络进行大规模数据运算和数据价值流通业务,将提高链的吞吐量,保证工作任务的完整性,及隐私数据的机密性,充分发挥“数据可用不可见”,促进数据的价值流通。通过区块链将各方愿意共享的数据通过文件上链智能合约进行上链存证,存证的数据主要包含文件的哈希、发布者等相关元数据信息,便于使用时在链上对数据进行溯源和交叉验证,进而提升隐私计算的活动监测和监管审计能力;文件通过上链智能合约进行上链,上链后监听合约的执行,形成记录分享数据元信息的数据市场;数据使用者通过浏览检索数据元数据市场找到目标元
48、数据,通过授权使用智能合约进行申请授权使用,在申请时使用分布式身份,进行身份校验。通过对参与计算的各方进行数字身份管理,链上记录参与者行为,提高恶意参与者的作恶成本。数据使用者再获得使用授权后,在隐私计算平台上进行相关隐私计算的操作,通过平台提供的隐私计算方法,获得隐私计算结果。2022 云安全联盟大中华区版权所有1 9将密集的数据计算放在链下,保持主链的性能,通过预言机打通链上链下数据的连接。链上轻量保存上链数据的相关元数据信息,如数据的产生者、文件哈希、文件相关元数据,链下进行数据的密集计算。不同机构接入区块链网络后,将参与多方计算的敏感数据集哈希上链,同时发布数据集的相关元数据信息(如数
49、据内容,数据集格式和数据价值等);另外数据集将通过可信信道加密后保存到可信计算服务器上;其次,数据使用方加入区块链网络后,通过区块链浏览器查看链上发布的相关元数据信息,选择目标数据,申请授权使用;在整个隐私计算过程中数据“可用不可见”,且全流程审计上链,方便日后追溯审查。3.3 其它隐私增强技术3.3.1 差分隐私差分隐私(Differrential Privacy,DP)是Dwork等人在2006年针对数据库隐私问题提出的一种严格的、可量化的隐私定义和技术。DP是密码学中的一种手段,旨在提供一种当从统计数据库查询时,最大化数据查询的准确性,同时最大限度减少识别记录的机会。技术要点差分隐私技术
50、的基本原理是:在计算结果中添加噪声(如适用于数值型输出的拉普拉斯噪声和适用于非数值型输出的指数噪声),使得修改数据集中单条记录不会对统计结果造成显著的影响,从而保证攻击者在拥有背景知识的情况下也无法推断出该记录对应的敏感信息。差分隐私具有两个重要的优点:一是提出背景知识无关的隐私保护模型,实现攻击者背景知识最大化假设;二是为隐私保护水平提供严格定义和量化评估方法。技术优势(1)严格分离差分隐私在实际运行过程中,会严格限制攻击者获得的背景内容,也就是说,假设攻击者知道原数据中的大部分信息,哪怕只是不知道一条信息,即使在这样理想化的攻击形态下,利用差分隐私,依然可以保证整个数据的安全,这在过去是不