信息安全技术个人信息去标识化指南(GB-T 37964-2019).pdf-淘文阁

资源描述

《信息安全技术个人信息去标识化指南(GB-T 37964-2019).pdf》由会员分享，可在线阅读，更多相关《信息安全技术个人信息去标识化指南(GB-T 37964-2019).pdf（36页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、ICS 35.040L 80中中华华人人民民共共和和国国国国家家标标准准GB/T XXXXXXXXX信息安全技术个人信息去标识化指南Information security technology Guide for De-Identifying Personal Information点击此处添加与国际标准一致性程度的标识（报批稿）（本稿完成日期：2018 年 5 月 14 日）XXXX-XX-XX 发布XXXX-XX-实施GB/T XXXXXXXXXI目次前言.II引言.III1 范围.12 规范性引用文件.13 术语和定义.14 概述.34.1 去标识化目标.34.2

2、去标识化原则.34.3 重标识风险.44.4 去标识化影响.44.5 不同公开共享类型对去标识化的影响.45 去标识化过程.55.1 概述.55.2 确定目标.55.3 识别标识.65.4 处理标识.75.5 验证审批.85.6 监控审查.86 角色职责与人员管理.96.1 角色职责.96.2 人员管理.9附录A（资料性附录）常用去标识化技术.11附录B（资料性附录）常用去标识化模型.18附录C（资料性附录）去标识化模型和技术的选择.25附录D（资料性附录）去标识化面临的挑战.30参考文献.32GB/T XXXXXXXXXII前言本标准按照GB/T 1.12009标准化工作导则第1部分：标准的

3、结构和编写给出的规则起草。请注意本文件的其他内容可能涉及专利，本文件的发布机构不承担识别这些专利的责任。本标准由全国信息安全标准化技术委员会（SAC/TC260）提出并归口。本标准主要起草单位：清华大学、启明星辰信息技术集团股份有限公司、浙江蚂蚁小微金融服务集团有限公司、阿里巴巴（北京）软件服务有限公司、北京奇安信科技有限公司(360)、北京天融信网络安全技术有限公司、中国科学研究院软件研究所、中国软件评测中心、上海计算机软件技术开发中心、北京数字认证股份有限公司、西安电子科技大学、湖南科创信息技术股份有限公司、中国电子技术标准化研究院、陕西省信息化工程研究院。本标准主要起草人：金涛、谢安明、

4、陈星、白晓媛、郑新华、刘贤刚、陈文捷、刘玉岭、宋鹏举、赵亮、宋玲娓、叶晓俊、王建民、方明、裴庆祺、潘正泰。GB/T XXXXXXXXXIII引言在大数据、云计算、万物互联的时代，基于数据的应用日益广泛，同时也带来了巨大的个人信息安全问题。为了保护个人信息安全，同时促进数据的共享使用，特制定个人信息去标识化指南标准。本标准旨在借鉴国内外个人信息去标识化的最新研究成果，提炼业内当前通行的最佳实践，研究个人信息去标识化的目标、原则、技术、模型、过程和组织措施，提出能科学有效地抵御安全风险、符合信息化发展需要的个人信息去标识化指南。本标准关注的待去标识化的数据集是微数据（以记录集合表示的数据集，逻辑上

5、可通过表格形式表示）。去标识化不仅仅是对数据集中的直接标识符、准标识符进行删除或变换，而且应当结合后期应用场景考虑数据集被重标识的风险，进而选择恰当的去标识化模型和技术措施，并实施合适的效果评估。对于不是微数据的数据集，可以转化为微数据进行处理，也可以参照本标准的目标、原则和方法进行处理。比如针对表格数据，如果关于同一个人的记录有多条，则可将多条记录拼接成一条，从而形成微数据，其中同一个人的记录只有一条。GB/T XXXXXXXXX1信息安全技术个人信息去标识化指南1范围本标准描述了个人信息去标识化的目标和原则，提出了去标识化过程和管理措施。本标准针对微数据提供具体的个人信息去标识化指导，适用

6、于组织开展个人信息去标识化工作，也适用于网络安全相关主管部门、第三方评估机构等组织开展个人信息安全监督管理、评估等工作。2规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件，仅注日期的版本适用于本文件。凡是不注日期的引用文件，其最新版本（包括所有的修改单）适用于本文件。GB 116431999公民身份号码GB/T 250692010信息技术安全技术术语GB/T 317222015信息技术安全技术信息安全风险管理GB/T 352732017信息安全技术个人信息安全规范3术语和定义GB/T 250692010中界定的以及下列术语和定义适用于本文件。3.1个人信息persona

7、l information以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息。GB/T 35273-2017，定义3.13.2个人信息主体personal data subject个人信息所标识的自然人。GB/T 35273-2017，定义3.33.3去标识化de-identification通过对个人信息的技术处理，使其在不借助额外信息的情况下，无法识别个人信息主体的过程。GB/T 35273-2017，定义3.14注：去除标识符与个人信息主体之间关联性。3.4微数据microdataGB/T XXXXXXXXX2一个结构化数据集，其中每

8、条（行）记录对应一个个人信息主体，记录中的每个字段（列）对应一个属性。3.5聚合数据aggregate data表征一组个人信息主体的数据，比如各种统计值的集合。3.6标识符identifier微数据中的一个或多个属性，可以实现对个人信息主体的唯一识别。注：标识符分为直接标识符和准标识符。3.7直接标识符direct identifier微数据中的属性，在特定环境下可以单独识别个人信息主体。例如：姓名、身份证号、护照号、驾照号、地址、电子邮件地址、电话号码、传真号码、银行卡号码、车牌号码、车辆识别号码、社会保险号码、健康卡号码、病历号码、设备标识符、生物识别码、互联网协议（IP）地址号和网络通

9、用资源定位符（URL）等。注：特定环境指个人信息使用的具体场景。比如，在一个具体的学校，通过学号可以直接识别出一个具体的学生。3.8准标识符quasi-identifier微数据中的属性，结合其它属性可唯一识别个人信息主体。比如：性别、出生日期或年龄、事件日期（例如入院、手术、出院、访问）、地点（例如邮政编码、建筑名称、地区）、族裔血统、出生国、语言、原住民身份、可见的少数民族地位、职业、婚姻状况、受教育水平、上学年限、犯罪历史、总收入和宗教信仰等。3.9重标识re-identification把去标识化的数据集重新关联到原始个人信息主体或一组个人信息主体的过程。3.10敏感属性sensiti

10、ve attribute数据集中需要保护的属性，该属性值的泄露、修改、破坏或丢失会对个人产生损害。注：在潜在的重标识攻击期间需要防止其值与任何一个个人信息主体相关联。3.11有用性usefulness数据对于应用有着具体含义、具有使用意义的特性。去标识化数据应用广泛，每种应用将要求去标识化数据具有某些特性以达到应用目的，因此在去标识化后，需要保证对这些特性的保留。3.12完全公开共享completely public sharingGB/T XXXXXXXXX3数据一旦发布，很难召回，一般通过互联网直接公开发布。注：同英文术语The Release and Forget Model。3.13受

11、控公开共享controlled public sharing通过数据使用协议对数据的使用进行约束，数据使用协议规定内容应包含但不限于：a)禁止信息接收方发起对数据集中个体的重标识攻击；b)禁止信息接收方关联到外部数据集或信息；c)禁止信息接收方未经许可共享数据集。比如，针对合格的研究者，可基于数据使用协议共享数据。注：同英文术语The Data Use Agreement Model。3.14领地公开共享enclave public sharing在物理或者虚拟的领地范围内共享，数据不能流出到领地范围外。注：同英文术语The Enclave Model。3.15去标识化技术de-identif

12、ication technique降低数据集中信息和个人信息主体关联程度的技术。注1：降低信息的区分度，使得信息不能对应到特定个人，更低的区分度是不能判定不同的信息是否对应到同一个个人，实践中往往要求一条信息可能对应到的人数超过一定阈值。注2：断开和个人信息主体的关联，即将个人其它信息和标识信息分离。3.16去标识化模型de-identification model应用去标识化技术并能计算重标识风险的方法。4概述4.1去标识化目标去标识化目标包括：a)对直接标识符和准标识符进行删除或变换，避免攻击者根据这些属性直接识别或者结合其它信息识别出原始个人信息主体；b)控制重标识的风险，根据可获得的数

13、据情况和应用场景选择合适的模型和技术，将重标识的风险控制在可接受范围内，确保重标识风险不会随着新数据发布而增加，确保数据接收方之间的潜在串通不会增加重标识风险；c)在控制重标识风险的前提下，结合业务目标和数据特性，选择合适的去标识化模型和技术，确保去标识化后的数据集尽量满足其预期目的（有用）。4.2去标识化原则对数据集进行去标识化，应遵循以下原则：GB/T XXXXXXXXX4a)合规：应满足我国法律法规和标准规范对个人信息安全保护的有关规定，并持续跟进有关法律法规和标准规范；b)个人信息安全保护优先：应根据业务目标和安全保护要求，对个人信息进行恰当的去标识化处理，在保护个人信息安全的前提下确

14、保去标识化后的数据具有应用价值；c)技术和管理相结合：根据工作目标制定适当的策略，选择适当的模型和技术，综合利用技术和管理两方面措施实现最佳效果。包括设定具体的岗位，明确相应职责；对去标识化过程中形成的辅助信息（比如密钥、映射表等）采取有效的安全防护措施等；d)充分应用软件工具：针对大规模数据集的去标识化工作，应考虑使用软件工具提高去标识化效率、保证有效性；e)持续改进：在完成去标识化工作后须进行评估和定期重评估，对照工作目标，评估工作效果（包括重标识风险和有用性）与效率，持续改进方法、技术和工具。并就相关工作进行文档记录。4.3重标识风险4.3.1重标识方法常见的用于重标识的方法如下：a)分

15、离：将属于同一个个人信息主体的所有记录提取出来；b)关联：将不同数据集中关于相同个人信息主体的信息联系起来；c)推断：通过其它属性的值以一定概率判断出一个属性的值。4.3.2重标识攻击常见的重标识攻击包括：a)重标识一条记录属于一个特定个人信息主体；b)重标识一条特定记录的个人信息主体；c)尽可能多的将记录和其对应的个人信息主体关联；d)判定一个特定的个人信息主体在数据集中是否存在；e)推断和一组其它属性关联的敏感属性。4.4去标识化影响对数据集进行去标识化，会改变原始数据集，可能影响数据有用性。业务应用使用去标识化后的数据集时应充分认识到这一点，并考虑数据集变化可能带来的影响。4.5不同公开

16、共享类型对去标识化的影响在开展去标识化工作之前需要根据应用需求确定数据的公开共享类型，不同公开共享类型可能引发的重标识风险和对去标识化的要求如表 1 所示。表 1不同公开共享类型对去标识化的影响公开共享类型可能的重标识风险对去标识化的要求完全公开共享高高受控公开共享中中领地公开共享低低GB/T XXXXXXXXX55去标识化过程5.1概述去标识化过程通常可分为确定目标、识别标识、处理标识以及验证审批等步骤，并在上述各步骤的实施过程中和完成后进行有效的监控和审查。如图 1 所示。图 1去标识化过程5.2确定目标5.2.1概述确定目标步骤包括确定去标识化对象、建立去标识化目标和制定工作计划等内容。

17、5.2.2确定去标识化对象确定去标识化对象，指确定需要去标识化的数据集范围，宜根据以下要素确定哪些数据属于去标识化对象：a)法规标准。了解国家、地区或行业的相关政策、法律、法规和标准，待采集或发布数据是否涉及去标识化相关要求。b)组织策略。了解数据是否属于组织列入的重要数据或敏感数据范畴，数据应用时是否存在去标识化的要求。c)数据来源。了解这些数据采集时是否做过去标识化相关承诺。d)业务背景。了解数据来源相关信息系统的业务特性，了解业务内容和业务流程，披露数据是否涉及个人信息安全风险。e)数据用途。了解待发布数据的用途，是否存在个人信息安全风险。f)关联情况。了解数据披露历史和去标识化历史情况

18、，待披露数据是否和历史数据存在关联关系。5.2.3建立去标识化目标建立去标识化目标，具体包括确定重标识风险不可接受程度以及数据有用性最低要求。需要考虑的因素包括：a)数据用途。了解数据去标识化后的用途，涉及到业务系统的功能和特性。b)数据来源。了解数据获取时的相关承诺，以及涉及哪些个人信息。c)公开共享类别。若为数据发布实施个人信息去标识化，需了解数据是完全公开共享、受控公开GB/T XXXXXXXXX6共享还是领地公开共享，以及对数据在浏览和使用方面的安全保护措施。d)去标识化模型和技术。了解数据适用的保护或去标识化标准，以及可能采用的去标识化模型和技术。e)风险级别。了解数据属性和业务特性

19、，拟采用的重标识风险评估模型及设定的风险级别。5.2.4制定工作计划制定个人信息去标识化的实施计划，包括去标识化的目的、目标、数据对象、公开共享方式、实施团队、实施方案、利益相关方、应急措施以及进度安排等，形成去标识化实施计划书。确定相关内容后，去标识化实施计划书应得到组织高级管理层的批准和支持。5.3识别标识5.3.1概述识别标识符的方法包括查表识别法、规则判定法和人工分析法。5.3.2查表识别法查表识别法指预先建立元数据表格，存储标识符信息，在识别标识数据时，将待识别数据的各个属性名称或字段名称，逐个与元数据表中记录进行比对，以此识别出标识数据。建立的标识符元数据表，应包括标识符名称、含义

20、、格式要求、常用数据类型、常用字段名字等内容。查表识别法适用于数据集格式和属性已经明确的去标识化场景，如采用关系型数据库，在表结构中已经明确姓名、身份证号等标识符字段。5.3.3规则判定法规则判定法是指通过建立软件程序，分析数据集规律，从中自动发现标识数据。组织可分析业务特点，总结可能涉及到直接标识符和准标识符的数据格式和规律，确立相关标识符识别规则，然后通过运行程序，自动化地从数据集中识别出标识数据。如可依据 GB 116431999公民身份号码建立身份证号码识别规则，并通过自动化程序在数据集中自动发现存在的身份证号码数据。组织识别标识数据宜先采用查表识别法，并根据数据量大小和复杂情况，结

21、合采用规则判定法。规则判定法在某些情况下有助于发现查表识别法不能识别出的标识符，如标识符处于下面情况时：a)业务系统存储数据时未采用常用的字段名称，如使用“备注”字段存储身份证号；b)数据中存在混乱或错误情况，如“备注”字段前 100 条记录的值为空，而后 10000 条记录的值为用户身份证号码。规则判定法不仅仅适用于结构化数据应用场景，也适用于某些半结构化和非结构化数据应用场景，如对于非结构化存储的司法判决书，可以通过建立身份证号识别规则和开发程序，从司法判决书中自动识别出所有的身份证号。5.3.4人工分析法人工分析法是通过人工发现和确定数据集中的直接标识符和准标识符。组织可在对业务处理、数

22、据集结构、相互依赖关系和对数据集之外可用数据等要素分析的基础上，综合判断数据集重标识风险后，直接指定数据集中需要去标识化的直接标识符和准标识符。人工分析法在结构化、半结构化和非结构化数据应用场景下都可使用。在下列场景时，人工分析法具有明显的优势：GB/T XXXXXXXXX7a)数据集中的多个不同数据子集之间存在关联、引用关系时，如通过数据挖掘算法，可关联分析数据集中多个非常见标识符属性后识别出唯一的用户身份；b)数据集中有特别含义的数据，或者数据具有特殊值、容易引起注意的值，从而可能被用来重标识时，如超出常人的身高、独特的地理坐标、罕见的病因等。相比较于查表识别法和规则判定法，人工分析法能够

23、更加准确地识别出标识符。5.4处理标识5.4.1概述处理标识步骤分为预处理、选择模型技术、实施去标识化三个阶段工作。5.4.2预处理预处理是在对数据集正式实施去标识化前的准备过程。一般地，预处理是对数据集施加某种变化，使其有利于后期进行处理。预处理阶段工作可参考如下方法进行：a)形成规范化，或满足特定格式要求的数据；b)对数据抽样，减小数据集的规模；c)增加或扰乱数据，改变数据集的真实性。组织应根据数据集的实际情况选择预处理措施，或选择不预处理。5.4.3选择模型技术不同类型的数据需要采用不同的去标识化技术，所以在去标识化的早期阶段，重要的一步是确定数据的类型和业务特性，选择合适的去标识化模型

24、和技术。选择的参考因素包括但不限于如下方面：a)是否需要对重标识风险进行量化；b)聚合数据是否够用；c)数据是否可删除；d)是否需要保持唯一性；e)是否需要满足可逆性；f)是否需要保持原有数据值顺序；g)是否需要保持原有数据格式，如数据类型、长度等保持不变；h)是否需要保持统计特征，如平均值、总和值、最大值、最小值等；i)是否需要保持关系型数据库中的实体完整性、参照完整性或用户自定义完整性；j)是否可以更改数据类型，比如在针对字符串类型的“性别”（男/女）进行去标识化时，是否可以变成数字类型表示（1/0）；k)是否需要满足至少若干个属性值相同，以加强数据的不可区分性；l)是否可以对属性值实施随

25、机噪声添加，对属性值做微小变化；m)去标识化的成本约束。附录 A 和附录 B 分别给出了常见的去标识化技术和模型，针对这些技术和模型的特点以及选择方法可参考附录 C。5.4.4实施去标识化根据选择的去标识化模型和技术，对数据集实施去标识化。主要工作包括：a)若存在多个需要去标识化的标识符，则根据数据特点和业务特性设定去标识化的顺序；GB/T XXXXXXXXX8b)依次选择相应的工具或程序；c)设置工具或程序的属性和参数，如设置数据源、用户名/口令、算法参数等；d)依次执行去标识化工具或程序，获得结果数据集。5.5验证审批5.5.1验证结果含义对数据集去标识化后进行验证，以确保生成的数据集在重

26、标识风险和数据有用性方面都符合预设的目标。在验证满足目标过程中，需对去标识化后重标识风险进行评估，计算出实际风险，与预期可接受风险阈值进行比较，若风险超出阈值，需继续进行调整直到满足要求。由于重标识技术和重标识攻击的能力在迅速演变，需要由内部专业人员或权威的外部组织定期展开验证评估。5.5.2验证个人信息安全验证去标识化数据满足个人信息安全保护要求的方法包括：a)检查生成的数据文件，以确保文件数据或元数据中不包含直接标识符和准标识符；b)检查生成的数据文件，以确保所得数据符合既定重标识风险要求；c)评估去标识化软件及其参数配置；d)进行有针对性的入侵者测试，看看是否有具备合格能力的外部人员可以

27、使用公开的数据集执行重标识；e)让团队利用内部数据进行有针对性的入侵者测试，模拟违规者或敌对内幕人士可能发生的情况。这些方法不能保证去标识化后的数据满足个人信息安全保护的要求，但它们可以作为整个组织风险评估的一部分。可证明的个人信息安全保护应依赖于形式化方法，比如用于规划组织数据发布的差分隐私方法。通过使用经过验证的去标识化软件，可以大大简化去标识化数据的个人信息安全保护的验证工作。5.5.3验证数据有用性去标识化降低了数据质量和生成数据集的有用性。因此，需要考虑去标识化后的数据集对于预期的应用仍然有用。存在一些方法用于验证数据有用性。例如，内部人员可对原始数据集和去标识化的数据集执行统计计算

28、，并对结果进行比较，以查看去标识化后是否导致不可接受的更改。组织可让可信的外部人员检查去标识化数据集，以确定数据能被用于预期目的。5.5.4审批去标识化工作在完成处理标识和验证结果后，组织管理层应依据数据发布共享用途、重标识风险、数据有用性最低要求等因素，以及验证结果、去标识化各步骤实施过程中的监控审查记录等因素，做出是否认可数据去标识化结果的决定。审批由组织高级管理层来执行。5.6监控审查5.6.1监控审查去标识化各步骤实施过程应确保去标识化的每一步骤均实现了预定目标。在去标识化的各个步骤中，为有效完成去标识化任务，需在确定目标步骤撰写去标识化工作方案，明确各步骤要完成的工作，并在识别标识、

29、处理标识、验证结果阶段记录工作过程和结果，形成文档。GB/T XXXXXXXXX9组织管理层在去标识化的各个步骤完成时，对该阶段记录文档进行审查，检查输出文档是否齐全和内容完备，及时发现已经出现或可能出现的错误或偏差，并采取适当控制措施，监督各步骤执行过程得到完整和有效地执行。监控审查过程也应记录到文档中，记录内容至少包括监控审查对象、时间、过程、结果和措施等内容。5.6.2持续监控去标识化效果持续监控是指数据在去标识化、审批同意交付用户后，宜根据情况变化或定期进行去标识化数据的重标识风险评估，并与预期可接受风险阈值进行比较，以保障个人信息安全性。情况发生变化是指重标识风险的相关要素发生变化，

30、相关要素包括但不限于：a)去标识化数据使用者；b)目标信息系统；c)目标信息安全环境；d)新增去标识化数据。此外，即使各种要素均未发生变化，只要去标识化数据仍然可以被目标用户访问，也需定期对数据进行重标识风险评估。这是由于重标识技术以及重标识攻击能力都在迅速演变，所以要通过重标识风险评估，检查先前的去标识化数据是否仍然安全。6角色职责与人员管理6.1角色职责个人信息去标识化工作相关的主要角色包括规划管理者、执行者、监督者。a)规划管理者在组织中，规划管理者对个人信息去标识化工作负总责，具体职责包括：规划个人信息去标识化策略，建立相关的规范制度和监控审计机制，宣贯去标识化政策和制度，认可和批准去

31、标识化工作的结果，和上级主管部门和监管机构进行沟通，与外部技术单位进行合作和交流。b)执行者执行者负责去标识化业务的具体执行，主要职责包括：依据数据共享场景，提出个人信息去标识化需求；识别个人信息安全风险，制定去标识化工作计划；执行去标识化工作，记录工作情况；申请审批去标识化结果。c)监督者监督者的主要职责是监督去标识化工作情况、审计该业务执行过程，保证业务合规、安全风险可控。6.2人员管理组织应整体规划个人信息去标识化有关的工作任务和职责，做到有效保护个人信息安全、确保个人信息去标识化工作顺利开展。在人员管理方面还应考虑如下因素：a)提炼个人信息去标识化工作岗位需求，包括技术能力需求和安全保

32、密需求；b)个人信息去标识化工作岗位招聘时应按照相关法律、法规、道德规范和相应的工作岗位需求，对应聘人员进行考察；c)与个人信息去标识化工作岗位人员工作合同或补充文档中，应明确其理解工作职责和要承担的安全保密要求；d)组织应定期开展业务和安全培训，确保个人信息去标识化工作岗位人员接受充分和最新的培训，GB/T XXXXXXXXX10保证岗位人员达到培训要求，持续拥有适当的技能，能够按要求执行个人信息去标识化的相关工作；e)个人信息去标识化工作岗位人员离职时，应依据其涉及数据重要程度，在离职保密协议中增加适当的保密要求条款。GB/T XXXXXXXXX11附录A（资料性附录）常用去标识化技术A.

33、1统计技术（Statistical techniques）A.1.1概述统计技术是一种对数据集进行去标识化或提升去标识化技术有效性的常用方法，主要包含数据抽样和数据聚合两种技术。A.1.2数据抽样（Sampling）数据抽样是通过选取数据集中有代表性的子集来对原始数据集进行分析和评估的，它是提升去标识化技术有效性的重要方法。对数据抽样技术选择和使用应注意以下几个方面：a)从数据集中抽取样本的方法很多，各方法差异很大，需根据数据集的特点和预期的使用场景来选择。b)数据抽样经常用于去标识化的预处理，对数据集进行随机抽样能够增加识别出特定个人信息主体的不确定性，从而可以提高后续应用的其它去标识化技术

34、的有效性。c)数据抽样可以简化对数据集的计算量，因此，在对大样本的数据集进行去标识化时，首先进行抽样，然后再采用某项特定的技术进行去标识化。例如：某市从 1000 万市民中随机抽取 1 万人的 4 项信息（性别、学历、籍贯、身高）。如果攻击者发现市民 A 的情况完全符合记录甲（男，本科，北京，1.75 米），攻击者并不能确定记录甲就是指市民 A，因为 A 并不一定在此抽样数据集中。A.1.3数据聚合（Aggregation）数据聚合作为一系列统计技术（如求和、计数、平均、最大值与最小值）的集合，应用于微数据中的属性时，产生的结果能够代表原始数据集中的所有记录。对数据抽样技术选择和使用应注意以下

35、几个方面：a)数据聚合可能会降低数据的有用性；因为得到的是统计值，无法反映独立数据记录的特征。b)数据聚合对重标识攻击非常有效；数据聚合的输出是“统计值”，该值有利于对数据进行整体报告或分析，而不会披露任何个体记录。例如：2012 年我国 18 岁及以上成年男性平均身高 1.67 米。如果数据集以平均身高来标识数据集中每个人的身高值，则记录（男，本科，北京，1.67 米，1980 年 9 月 1 日）中，身高属性值对攻击者识别身份主体没有什么作用。A.2密码技术（Cryptographic techniques）A.2.1概述本部分描述适用于去标识化的密码技术。使用密码技术应遵循国家密码管理相

36、关规定。A.2.2确定性加密（Deterministic encryption）确定性加密是一种非随机加密方法。在去标识化过程中应用时，可以用确定性加密结果替代微数据GB/T XXXXXXXXX12中的标识符值。对确定性加密技术的选择和使用应注意以下几个方面：a)确定性加密可以保证数据真实可用，即相同的两个数据用同一密钥进行加密将产生两个一样的密文。b)确定性加密可以一定程度上保证数据在统计处理、隐私防挖掘方面的有用性，确定性加密也可以生成用于精准匹配搜索、数据关联及分析的微数据。对确定性加密结果的分析局限于检查数据值是否相等。c)对确定性加密的重标识攻击主要在于不具备密钥使用权时的攻击；关联

37、性攻击则可能适用于采用同一密钥进行确定性加密的密文，攻击能否成功很大程度上取决于对加密算法参数的选择。A.2.3保序加密（Order-preserving encryption）保序加密是一种非随机加密方法。用作去标识化技术时，可以用保序加密值替代微数据中的标识符值。对保序加密技术选择和使用应注意以下几个方面：a)密文的排序与明文的排序相同。b)保序加密可以在有限的范围内保证加密结果在统计处理、隐私防挖掘、数据外包存储与处理等场景中的有用性。保序加密可以产生用于范围/区间匹配搜索、分析的微数据。对保序加密结果的分析局限于检查数据相等和排序比较关系。c)保序加密数据的完全重标识仅可能适用于拥有密

38、钥的一方。关联性攻击能否成功很大程度上取决于保序加密方案的参数选择。A.2.4保留格式加密（Format-preserving encryption）保留格式加密是一种适宜于去标识化技术的加密方法，加密要求密文与明文具有相同的格式，当作为去标识化技术的一部分加以采用时，可用保留格式加密值替代微数据中的标识符值。对保留格式加密技术的选择和使用应注意以下几个方面：a)某些保留格式加密具有确定性加密技术一样的特点，如相同数据在同一密钥下加密生成同样的密文，且可以通过生成微数据进行精准匹配搜索、数据关联分析等。b)保留格式加密适用于多种格式的数据，包括字符型、数字型、二进制等，加密结果也是同类型数据。

39、c)和其它加密技术不一样，在给定有限符号集的情况下，保留格式加密可以保证加密后的数据具有与原始数据相同的格式和长度，这有助于在不需要应用修改的情况下，实现去标识化。A.2.5同态加密（Homomorphic encryption）同态加密是一种随机加密。当作为去标识化技术的一部分加以采用时，对加密数据进行处理，但是处理过程不会泄露任何原始内容。同时，拥有密钥的用户对处理过的数据进行解密后，得到的正好是处理后的结果。同态加密用加密值替代微数据中的标识符值。对同态加密技术的选择和使用应注意以下几个方面：a)对经过同态加密的数据进行处理得到一个输出，将这一输出进行解密，其结果与用同一方法处理未加密的

40、原始数据得到的输出结果是一样的。b)与传统的确定性加密方案相比，同态加密的性能一般较低，存储成本较高。c)同态加密方案具有语义上的安全性，使得在不具备访问私钥权限时无法实现重标识攻击。A.2.6同态秘密共享（Homomorphic secret sharing）GB/T XXXXXXXXX13同态秘密共享可将一个秘密拆分为“若干份额”，可利用拆分后秘密信息的特定子集来重构原始的秘密，如果对用于重构秘密的所有份额执行相同的数学运算，则其结果等价于在原始秘密上执行相应数学运算的结果。当作为去标识化技术的一部分加以采用时，同态秘密共享可用信息共享算法得出的两个或以上若干份额替代数据记录中的任何标识符

41、或敏感属性。这样，便可将这些若干份额分配给两个或以上的份额持有者。这些份额持有者的数量通过秘密共享方案加以确定。有效的同态秘密共享的特性是，相同份额持有者共享机密的两个值可与加密方案的同态运算相结合，产生代表原始属性运算结果的新份额。此外，同态密钥共享可与安全的多方计算相结合，以便对去标识化数据进行任何安全运算。同态密钥共享并不会降低数据的真实性。虽然同态密钥共享有着相对低的计算性能开销，但存在与份额持有者之间交换份额的额外开销。共享秘密数据的存储开销是有限的。基于安全多方计算执行的数据去标识化的处理技术是灵活的，但根据所采用的不同方案，可能会导致高昂的成本。同态密钥共享会产生微数据的分布式实

42、例，该类实例可被同态运算或安全多方计算技术处理。同态加密方案是随机的，攻击者只有控制所有份额持有者才能实现重标识攻击。A.3抑制技术（Suppression techniques）A.3.1概述抑制技术即对不满足隐私保护的数据项删除，不进行发布。包括从所有记录中选定的属性（如屏蔽）、对所选定的属性值（例如，局部抑制）、或是从数据集中选定的记录（例如，记录抑制）进行的删除操作。抑制技术主要适用于分类数据。抑制技术可用于防止基于关联规则推导的攻击，因为不发布能最大化降低关联规则支持度和置信度的属性值，从而破坏关联规则推导攻击。抑制技术适用于数值与非数值数据属性，执行相对比较容易，且可以保持数据的真

43、实性。A.3.2屏蔽（Masking）屏蔽技术包括从数据集中删除整个直接标识符，或删除直接标识符的一部分，使其不再是直接标识符也不是唯一标识符。使用屏蔽技术后，通常还会对数据集使用其它去标识化技术。在将屏蔽技术作为唯一的去标识化技术的系统中，应采取安全措施和组织其它的管理措施去保护未被识别的数据。屏蔽技术也有其它一些叫法，如：a)部分数据移除：指在屏蔽过程中不会删除所有标识符。b)数据隔离：指屏蔽需要有严格的安全措施，以确保对数据集的授权访问，如访问控制和相应的合约条款c)数据限制：指在有特定目的的环境中收集数据时进行数据抑制的情况。A.3.3局部抑制（Local suppression）局部

44、抑制技术是一种去标识化技术，即从所选记录中删除特定属性值，该特定属性值与其它标识符结合使用可能识别出相关个人信息主体。通常应用局部抑制技术来移除准标识符在泛化后仍然出现的稀有值（或这些值的稀有组合）。局部抑制技术应用于分类值，而泛化通常应用于数值，其共同目标是增加共享其标识符值的记录数。A.3.4记录抑制（Record suppression）GB/T XXXXXXXXX14“记录抑制”是一种从数据集中删除整个记录或一些记录的去标识化技术。典型应用场景为删除包含稀有属性（如异常值）组合的记录。A.3.5注意事项抑制技术会导致信息丢失，抑制技术处理后的数据有被重标识的风险，因此需要与其它去标识化

45、技术相结合以降低数据的重标识风险。过多的抑制会影响数据的效用，所以在具体应用时，为保证数据的可用性，要对抑制的数据项数量设定一个上限值。A.3.6示例在某个具体应用中，需要对某组织的不同工作年限的薪资水平进行分析，原始数据集包括姓名，性别，薪水，工作年限，职务，采用如下步骤进行去标识化：a)姓名是直接标识符，需要应用抑制技术删除；通过职务、工作年限或者职务、性别也可以推导出该组织中的一部分员工，因此应用抑制技术删除职务属性；b)剩下的性别，薪水，工作年限，有被重标识的风险，需要结合泛化技术，对“薪水”、“工作年限”属性值进行泛化处理，如薪水泛化为 5k-10k、10k-15k、15k-20k

46、等，工作年限泛化为0-3 年、4-6 年等；c)如果数据记录中只有 1 人工作年限为 0-3 年，薪水为 15k-20k，则能够定位到某个员工，应用抑制技术删除该条记录。A.4假名化技术（Pseudonymization techniques）A.4.1概述假名化技术是一种使用假名替换直接标识（或其它准标识符）的去标识化技术。假名化技术为每一个人信息主体创建唯一的标识符，以取代原来的直接标识或准标识符。不同数据集中的相关记录在进行假名化处理后依然可以进行关联，并且不会泄露个人信息主体的身份。在使用假名化技术的过程中，通常会使用一些辅助信息。这些辅助信息包括从原始数据集中删除的标识符、假名分配表

47、或密钥等，采取必要的措施来保护这些辅助信息有利于降低重标识风险。假名创建技术主要包括独立于标识符的假名创建技术和基于密码技术的标识符派生假名创建技术。假名创建技术的选择需要考虑以下因素：创建假名的成本、散列函数的抗碰撞能力、以及重标识过程中假名被还原的手段。独立于标识符的假名创建技术不依赖于被替代的属性原始值，而是独立生成，典型方法为用随机值代替属性原始值。基于密码技术的标识符派生假名创建技术通过对属性值采用加密或散列等密码技术生成假名，这一过程也称为对数据集中的属性进行“密钥编码”。其中加密技术生成的假名可以用合适的密钥及对应的算法解密，而散列技术是一种单向的数学运算。A.4.2独立于标识符

48、的假名创建独立于标识符的假名创建技术不依赖于被替代的属性原始值，而是独立生成，典型方法为用随机值代替属性原始值。使用该类技术时需创建假名与原始标识的分配表。根据去标识化的目标，应采取适当的技术与管理措施限制和控制对该分配表的访问。比如，使用去标识化后数据的应用系统禁止访问分配表。A.4.3基于密码技术的标识符派生假名创建GB/T XXXXXXXXX15基于密码技术的标识符派生假名创建技术通过对属性值采用加密或散列等密码技术生成假名，这一过程也称为对数据集中的属性进行“密钥编码”。其中加密技术生成的假名可以用合适的密钥及对应的算法解密，而散列技术是一种单向的数学运算。采用多种密码技术的组合可更好

49、地保护属性原始值。采用加密方法来创建假名的计算成本很高，但非常有效。应采取特殊措施来保护密钥，防止密钥被未授权访问，包括密钥与数据分离，不与第三方共享密钥，安全地删除密钥以防重标识等。散列函数的单向运算及抗碰撞能力等特性，使其适用于假名化过程。但是，当散列算法和所用密钥是已知的，且有可能遍历散列函数生成数值空间时，散列函数是可逆的。因此使用密钥散列函数时可增加另一随机输入，增强其对抗暴力搜索攻击的能力，防止未经授权的重标识。即使采用了安全的散列技术，如果在使用或执行散列算法中发生了疏忽，或未经授权共享密钥，均可能导致数据的重标识。A.4.4注意事项如果采用恰当的方式构建假名与原始标识的分配表，

50、并能对分配表和分配技术加以保护，则能够有效的降低数据的重标识风险。采用多个原始标识符对应一个假名的分配表比采用一一对应的分配表能够更加有效降低重标识风险。加密技术通常是一一对应的分配技术；散列技术由于碰撞性的存在，通常是多对一的分配技术；采用纯随机的方式构建分配表通常也是多对一的。采用多个原始标识符对应一个假名的分配表方法和分配技术，会导致在以标识符为统计对象的数据分析结果失真，从而降低数据的有用性。加密技术能够还原标识符，在需要还原原始标识符的情况下采用该技术。A.4.5示例在某个具体的应用中，需要从外部某数据库中抽取包含人名的有效数据以供分析，采用如下步骤进行去标识化：a)构建常用人名字典

展开阅读全文