(大数据资料)数据脱敏方案.docx

上传人:君**** 文档编号:96418108 上传时间:2023-11-24 格式:DOCX 页数:6 大小:24.71KB
返回 下载 相关 举报
(大数据资料)数据脱敏方案.docx_第1页
第1页 / 共6页
(大数据资料)数据脱敏方案.docx_第2页
第2页 / 共6页
点击查看更多>>
资源描述

《(大数据资料)数据脱敏方案.docx》由会员分享,可在线阅读,更多相关《(大数据资料)数据脱敏方案.docx(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、(大数据资料)数据脱敏方案政府数据共享交换平台数据脱敏方案1 概述1.1 数据脱敏定义从原始环境向目标环境进行敏感数据交换的过程中,通过一定方法消除原始环境数据中的敏感信息,并保留目标环境业务所需的数据特征或内容的数据处理过程.1.2 数据脱敏原则1.2.1基本原则数据脱敏工作不仅要确保敏感信息被去除,还需要尽可能的平衡脱敏所花费的代价、使用方的业务需求等多个因素.因此,为了确保数据脱敏的过程、代价可控,得到的结果正确且满足业务需要,在实施数据脱敏时,应从技术和管理两方面出发,符合以下基本原则.1.2.2技术原则a) 有效性数据脱敏的最基本原则就是要去掉数据中的敏感信息,保证数据安全,这是对数

2、据脱敏工作最基本的要求.有效性要求经过数据脱敏处理后,原始信息中包含的敏感信息已被移除,无法通过处理后的数据得到敏感信息;或者需通过巨大经济代价、时间代价才能得到敏感信息,其成本已远远超过数据本身的价值.此外,在处理敏感信息时,应注意根据原始数据的特点和应用场景,选择合适的脱敏方法.b) 真实性由于脱敏后的数据需要在相关业务系统、测试系统等非原始环境中继续使用,因此需保证脱敏后的数据仍能真实体现原始数据的特征,且应尽可能多的保留原始数据中的有意义信息,以减小对使用该数据的系统的影响.需要注意的是,如果某一数据特征本身就是敏感信息,则不应保留.这是从后续使用到数据的系统出发提出的要求.真实性要求

3、脱敏过程需保持用于后续分析的数据真实特征,以助于实现数据相关业务需求.包括但不限于数据结构特征和数据统计特征:数据结构特征是指数据本身的构成遵循一定的规则(例如身份证号由地区编码、生日、顺序号和校验码组成);数据统计特征是指大量的数据记录所隐含的统计趋势(例如开户人地区分布、年龄分布等).为达到真实性要求,在开展数据脱敏工作时,一般情况下应注意:v 保持原数据的格式;v 保持原数据的类型;v 保持原数据之间的依存关系v 保持语义完整性;v 保持引用完整性;v 保持数据的统计、聚合数据;v 保持频率分布;v 保持唯一性.c) 高效性应保证数据脱敏的过程可通过程序自动化实现,可重复执行.在不影响有

4、效性的前提下,需注意平衡脱敏的力度与所花费的代价,将数据脱敏的工作控制在一定的时间和经济成本内.本质上,高效性是成本和安全性相互作用的结果,在确保一定安全底线的前提下,尽可能减少数据脱敏工作所花费的额外代价.d) 稳定性由于原始数据间存在关联性,为保障数据使用者可正常使用和分析数据,因此数据脱敏时需保证对相同的原始数据,在各输入条件一致的前提下,无论脱敏多少次,结果最终结果数据是相同的.如最终结果是不稳定的,可能导致数据使用者无法将本有联系的数据正确的进行关联,从而造成数据的使用出现问题.例如,某ID有两条记录,但是由于脱敏结果的不稳定,得到了两个不同的脱敏ID1和ID2,则在使用该数据时,就

5、无法得知ID1和ID2其实是同一个ID,从而使得数据分析结果出现错误.e) 可配置性同一份原始数据,可能被用于不同的数据分析场景,由于不同场景下的安全要求不同,数据脱敏时的处理方式和处理字段也不尽相同.因此需通过配置的方式,按照输入条件不同生成不同的脱敏结果,从而可以方便的按数据使用场景等因素为不同的最终用户提供不同的脱敏数据.1.2.3管理原则a) 敏感信息识别在进行数据脱敏前,首先应完整的梳理待处理数据中包含的所有信息分类(包括单条记录中每一个项目的内容/格式、多条记录联合后包含的统计特征等),然后明确其中哪些信息分类属于敏感信息,并标注出其敏感程度、泄露后可能造成的后果、应急预案等.需要

6、注意的是,有些信息本身可能并不直接是敏感信息,但是可通过与其他一些信息结合后推断出敏感信息,此时也应将此类信息纳入数据脱敏的范围.b) 安全可控经过数据脱敏处理后,已知的敏感信息已经被隐藏和处理,但脱敏后的数据由于保持了原始数据的部分统计特征和结构特征等信息,仍可能存在一定的敏感信息泄漏风险.因此,仍然需要采取合适的方式控制知悉范围,通过恰当的安全管理手段,防止数据外泄.c) 安全审计在数据脱敏的各个阶段需加入安全审计机制,严格、详细记录数据处理过程中的相关信息,形成完整数据处理记录,用于后续问题排查与数据追踪分析,一旦发生泄密事件可追溯到是在哪个数据处理环节发生的.d) 代码安全对于执行数据

7、脱敏的程序和代码模块,应当进行代码审查,并对上线前的程序和模块进行代码安全扫描,确保执行数据脱敏过程的程序安全可靠,无漏洞和后门.1.3 数据脱敏常用方法3.1.1泛化技术泛化是指在保留原始数据局部特征的前提下使用一般值替代原始数据,泛化后的数据具有不可逆性,具体的技术方法包括但不限于:a) 数据截断:直接舍弃业务不需要的信息,仅保留部分关键信息,例如将手机号码13500010001截断为135.b) 日期偏移取整:按照一定粒度对时间进行向上或向下偏移取整,可在保证时间数据一定分布特征的情况下隐藏原始时间,例如将时间20150101 01:01:09按照5秒钟粒度向下取整得到20150101

8、01:01:05.c) 规整:将数据按照大小规整到预定义的多个档位,例如将客户资产按照规模分为高、中、低三个级别,将客户资产数据用这三个级别代替.3.1.2抑制技术抑制是指通过隐藏数据中部分信息的方式来对原始数据的值进行转换,又称为隐藏技术,具体的技术方法包括但不限于:a) 掩码:用通用字符替换原始数据中的部分信息,例如将手机号码13500010001经过掩码得到135*0001,掩码后的数据长度与原始数据一样.3.1.3扰乱技术扰乱是指通过加入噪声的方式对原始数据进行干扰,以实现对原始数据的扭曲、改变,扰乱后的数据仍保留着原始数据的分布特征,具体的技术方法包括但不限于:a) 加密:使用加密算

9、法对原始数据进行加密,例如将编号12345加密为abcde.b) 重排:将原始数据按照特定的规则进行重新排列,例如将序号12345重排为54321.c) 替换:按照特定规则对原始数据进行替换,如统一将女性用户名替换为F.d) 重写:参考原数据的特征,重新生成数据.重写与整体替换较为类似,但替换后的数据与原始数据通常存在特定规则的映射关系,而重写生成的数据与原始数据则一般不具有映射关系.例如对雇员工资,可使用在一定范围内随机生成的方式重新构造数据.e) 均化:针对数值性的敏感数据,在保证脱敏后数据集总值或平均值与原数据集相同的情况下,改变数值的原始值.f) 散列: 即对原始数据取散列值,使用散列

10、值来代替原始数据.3.1.4有损技术有损是指通过损失部分数据的方式来保护整个敏感数据集,适用于数据集的全部数据汇总后才构成敏感信息的场景,具体的技术方法包括但不限于:a) 限制返回行数:仅仅返回可用数据集合中一定行数的数据,例如商品配方数据,只有在拿到所有配方数据后才具有意义,可在脱敏时仅返回一行数据.1.4 数据脱敏全生命周期数据脱敏包括制定数据脱敏规程、发现敏感数据、定义脱敏规则、执行脱敏工作和验证脱敏成效等步骤.2 制定数据脱敏规程组织机构应制定数据脱敏工作相关的规范和流程,对工作相关方进行规程的推广和培训,并长期维护和修订规程的内容,以保证数据脱敏工作执行的规范性和有效性.在该过程中,

11、可实现以下事项:a) 根据业务需求,建立敏感数据的分类分级制度、数据脱敏的工作流程、脱敏工具的运维管理制度,并定期对相关流程制度进行评审和修订.b) 建立敏感数据分类分级制度时,可从个人隐私数据(如客户数据)、业务运营数据等方面对敏感数据分类,并根据敏感数据的重要性程度定义敏感数据的安全级别,同时明确对各类、各级别数据相应的安全管控机制.c) 在数据脱敏工具的运维管理制度中,可纳入对数据脱敏工具的系统安全检测,以保证数据脱敏工具自身的安全性.d) 在制度建立完成后,定期对数据脱敏工作的相关方,如数据管理方、数据使用方、脱敏工具运维方,开展针对相关制度的培训工作,以提升全员的规范化意识.e) 针

12、对数据脱敏工作流程,如数据脱敏申请、申请审批、数据下发、数据使用、数据回收等工作的流程化,可采用自动化的方式实现,提升数据脱敏工作开展的效率.3 发现敏感数据在已有的数据脱敏规程的基础上,为了有效的开展数据脱敏工作,如保证工作的开展能够覆盖到必须的业务范围、脱敏后数据对原数据业务特性的继承(如保持原数据间的依赖关系),组织机构需首先分析建立完整的敏感数据位置和关系库.基于敏感数据分类分级制度,一方面明确敏感数据结构化或非结构化的数据表现形态,如敏感数据固定的字段格式;另一方面建立有效的数据发现手段,在组织机构完整的数据范围内查找并发现敏感数据.在该过程中,可实现以下事项:a) 定义数据脱敏工作

13、执行的范围,在该范围内执行敏感数据的发现工作.b) 通过数据表名称、字段名称、数据记录内容、数据表备注、数据文件内容等直接匹配或正则表达式匹配的方式发现敏感数据;c) 考虑数据引用的完整性,如保证数据库的引用完整性约束.d) 数据发现手段应支持主流的数据库系统、数据仓库系统、文件系统,同时应支持云计算环境下的主流新型存储系统.e) 尽量利用自动化工具执行数据发现工作,并降低该过程对生产系统的影响.f) 数据发现工具具有扩展机制,可根据业务需要自定义敏感数据的发现逻辑.g) 固化常用的敏感数据发现规则,例如身份证号、手机号等敏感数据的发现规则,避免重复定义数据发现规则.4 定义脱敏规则针对组织机

14、构内已定位出的敏感数据,组织机构需建立敏感数据在相关业务场景下的脱敏规则.在敏感数据生命周期识别的基础上,明确存在数据脱敏需求的业务场景,并结合行业法规的要求和业务场景的需求,制定相应业务场景下有效的数据脱敏规则.在该过程中,可实现以下事项:a) 识别组织机构业务开展过程中应遵循的个人隐私保护、数据安全保护等关键领域国内外法规、行业监管规范或标准,以此作为数据脱敏规则必须遵循的原则.b) 对已识别出的敏感数据执行生命周期(产生、采集、使用、交换、销毁)流程的梳理,明确在生命周期各阶段,用户对数据的访问需求和当前的权限设置情况,分析整理出存在数据脱敏需求的业务场景.例如,在梳理过程中,会发现存在

15、对敏感数据的访问需求和访问权限不匹配的情况(用户仅需获取敏感数据中部分内容即可,但却拥有对敏感数据内容全部的访权限),因此该业务场景存在敏感数据的脱敏需求.c) 进一步分析存在数据脱敏需求的业务场景,在”最小够用”的原则下明确待脱敏的数据内容、符合业务需求的脱敏方式,以及该业务的服务水平方面的要求,以便于脱敏规则的制定.其中,脱敏的方式可参考”6 数据的脱敏方法”.d) 数据脱敏工具应提供扩展机制,从而让用户可根据需求自定义脱敏的方法.e) 通过数据脱敏工具选择数据脱敏方法时,脱敏工具中应对各类方法的使用进行详细的说明,说明应包括但不限于规则的实现原理、数据引用完整性影响、数据语义完整性影响、

16、数据分布频率影响、约束和限制等,以支撑脱敏工具的使用者在选择脱敏方式时做出正确的选择.f) 应固化常用的敏感数据脱敏规则,例如身份证号、手机号等的常用脱敏规则,避免数据脱敏项目实施过程中重复定义数据脱敏规则.5 执行脱敏工作根据已定义的数据脱敏规则、以及数据脱敏工作的流程和数据脱敏工具的运维管理制度,在实际业务运营过程中执行数据脱敏,可包括条数据脱敏和块数据脱敏.条数据脱敏是对单条数据根据脱敏规则实施脱敏,块数据脱敏是对聚合数据实施脱敏.在日常的脱敏工作中,监控分析数据脱敏过程的稳定性、以及对业务的影响性,同时对脱敏工作开展定期的安全审计,已发现脱敏工作中存在的安全风险.在该过程中,可实现以下

17、事项:a) 支持从数据源克隆数据到新环境(例如从生产环境、备份库克隆数据到新环境),并在新环境中进行脱敏过程的执行;也支持在数据源端直接进行脱敏.b) 对脱敏任务的管理,可考虑采用自动化管理的方式提升任务管理效率,例如定时、条件设置的方式触发脱敏任务的执行.c) 执行对脱敏任务的运行监控,关注任务执行的稳定性、以及脱敏任务对业务的影响.d) 设置专人定期对数据脱敏的相关日志记录进行安全审计,审计应重点关注高权限账号的操作日志和脱敏工作的记录日志;发布审计报告,并跟进审计中发现的例外和异常.6 验证脱敏成效通过收集、整理数据脱敏工作执行的数据,例如相关监控数据、审计数据,对数据脱敏的前期工作开展情况进行反馈,从而优化相关规程、明确数据脱敏过程中应关注的事项.在该过程中,可实现以下事项:a) 利用测试工具评估脱敏后数据对应用系统的功能、性能的影响,从而明确对整体业务服务水平的影响;测试负载应尽量保证与生产环境一致,应尽量提供从生产环境克隆数据访问负载到脱敏系统进行回放测试的功能.b) 根据组织业务发展的情况和脱敏工作执行的反馈,优化数据脱敏工作开展的规程,旨在全组织机构范围内增强数据安全能力并满足合规要求.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 标准材料 > 建筑材料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁