《大数据安全白皮书(2018年).pdf》由会员分享,可在线阅读,更多相关《大数据安全白皮书(2018年).pdf(39页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 大数据安全白皮书 大数据安全白皮书 (2018 年) (2018 年) 中国信息通信研究院 安全研究所 2018 年 7 月 I 引言 当前,全球大数据产业正值活跃发展期,技术演进和应用创新并行加速推进,非关系型数据库、分布式并行计算以及机器学习、深度挖掘等新型数据存储、计算和分析关键技术应运而生并快速演进,大数据挖掘分析在电信、互联网、金融、交通、医疗等行业创造商业价值和应用价值的同时,开始向传统第一、第二产业传导渗透,大数据逐步成为国家基础战略资源和社会基础生产要素。 与此同时,大数据安全问题逐渐暴露。大数据因其蕴藏的巨大价值和集中化的存储管理模式成为网络攻击的重点目标,针对大数据的勒索
2、攻击和数据泄露问题日趋严重,全球大数据安全事件呈频发态势。相应的,大数据安全需求已经催生相关安全技术、解决方案及产品的研发和生产,但与产业发展相比,存在滞后现象。 习近平主席在中共中央政治局就实施国家大数据战略第二次集体学习时指出,要构建以数据为关键要素的数字经济,推动实体经济和数字经济融合发展,推动互联网、大数据、人工智能同实体经济深度融合。同时,要切实保障国家数据安全。这要求我们必须坚持国家总体安全观,树立正确的网络安全观,坚持“以安全保发展,以发展促安全” ,充分发II 挥大数据在推动产业转型升级、提升国家治理现代化水平等方面重要作用的同时,深刻认识大数据安全的重要性和紧迫性,认清大数据
3、安全挑战,积极应对复杂严峻的安全风险,坚持安全与发展并重,加速构建大数据安全保障体系,保障国家大数据发展战略顺利实施。 本报告首先从大数据带来的变革出发,探讨了大数据安全区别于传统安全的特殊内涵;然后聚焦技术领域,给出大数据安全技术总体视图,分别从平台安全、数据安全和个人隐私安全三个方面梳理了大数据环境下面临的安全威胁以及相应的安全保障技术的发展情况;最后基于大数据安全技术发展现状,提出大数据安全技术未来发展方向与建议,为大数据产业和安全技术发展提供依据和参考。 III 目录 引 言 . I 一、对大数据安全的认识和思考 . 1 二、大数据安全技术总体视图 . 5 (一)大数据平台安全 . 6
4、 (二)数据安全 . 7 (三)隐私保护 . 8 三、大数据安全面临的技术问题和挑战 . 8 (一)平台安全问题与挑战 . 9 (二)数据安全问题和挑战 . 13 (三)个人隐私安全挑战 . 16 四、大数据安全技术发展情况 . 17 (一)大数据平台安全技术 . 17 (二)数据安全技术 . 22 (三)个人隐私保护技术 . 26 (四)大数据安全技术发展现状总结 . 28 五、大数据安全技术未来发展建议 . 31 IV (一)需要站在总体安全观的高度,构建大数据安全综合防御体系 . 31 (二)从攻防两方面入手,强化大数据平台安全保护 . 32 (三)以关键环节和关键技术为突破点,完善数据
5、安全技术体系 . 32 (四)加强隐私保护核心技术产业化投入,兼顾数据利用和隐私保护双重需求. 33 (五)重视大数据安全评测技术的研发,构建第三方安全检测评估体系 . 34 中国信息通信研究院安全研究所 大数据安全白皮书(2018 年) 1 一、对大数据安全的认识和思考 大数据在数量规模、处理方式、应用理念等方面都呈现了与传统数据不同的新特征。大数据是具有体量大、结构多样、时效强等特征的数据;处理大数据需采用新型计算架构和智能算法等新技术;大数据的应用强调以新理念应用于辅助决策、发现新知识,更强调在线闭环的业务流程优化。从安全视角看,大数据这些新特性,产生了哪些影响?我们认为: (一)大数据
6、已经对经济运行机制、社会生活方式和国家治理能力产生深刻影响,需要从“大安全”的视角认识和解决大数据安全问题 (一)大数据已经对经济运行机制、社会生活方式和国家治理能力产生深刻影响,需要从“大安全”的视角认识和解决大数据安全问题 大数据发展过程中,资源、技术、应用相依相生,以螺旋式上升的模式发展。无论是商业策略、社会治理、还是国家战略的制定,都越来越重视大数据的决策支撑能力。但也要看到,大数据是一把双刃剑,大数据分析预测的结果对社会安全体系所产生的影响力和破坏力可能是无法预料和提前防范的。例如,美国一款健身应用软件将用户健身数据的分析结果在网络上公布,结果涉嫌泄露美国军事机密,这在以往是不可想象
7、的。未来,基于大数据的智能决策将会在经济运行、社会生活、国家治理方面发挥更重要的作用,大数据可能会对国家“11种安全”的方方面面产生更加深远的影响。大数据安全白皮书(2018 年) 中国信息通信研究院安全研究所 2 因此,必须从“大安全”的视角审视大数据安全问题,必须站在国家总体安全观的高度,打破传统的重技术的安全保护思维模式,建立涉及经济、法律、技术等多角度全方位的大数据安全保障体系。 (二)大数据正逐渐演变为新一代基础性支撑技术,大数据平台的自身安全将成为大数据与实体经济融合领域安全的重要影响因素 (二)大数据正逐渐演变为新一代基础性支撑技术,大数据平台的自身安全将成为大数据与实体经济融合
8、领域安全的重要影响因素 目前来看,大数据正在成为一种通用的数据处理技术,除推动人工智能、虚拟现实等新兴信息技术应用创新之外,互联网、大数据通过与实体经济的深度融合,正加速推进传统制造业向数字化、网络化、智能化发展。然而,在信息化和工业化融合业务繁荣发展的背后,安全问题如影随形。针对大数据平台的网络攻击手段正在悄然变化,攻击目的已经从单纯地窃取数据、瘫痪系统转向干预、操纵分析结果,攻击效果已经从直观易察觉的系统宕机、信息泄露转向细小难以察觉的分析结果偏差,造成的影响可能从网络安全事件上升到工业生产安全事故。目前,传统基于监测、预警、响应的网络安全技术难以应对上述攻击变化,需要进行理念创新,针对不
9、断变化演进的网络攻击形态,设计建构更加完善的大数据平台安全保护体系,为上层跨行业跨领域的业务应用提供基础性安全保障。 中国信息通信研究院安全研究所 大数据安全白皮书(2018 年) 3 (三) 大数据时代, 数据在流动过程中实现价值最大化,需要重构以数据为中心、适应数据动态跨界流动的安全防护体系 (三) 大数据时代, 数据在流动过程中实现价值最大化,需要重构以数据为中心、适应数据动态跨界流动的安全防护体系 大数据时代,数据作为一种特殊的资产,能够在流通和使用过程中不断创造新的价值。 因此, 在大数据应用场景下,数据流动是“常态” ,数据静止存储才是“非常态” 。同时,可以预见到,未来大数据业务
10、环境将更加开放,业务生态将更加复杂,参与数据处理的角色将更多元,系统、业务、组织边界将进一步模糊,导致数据的产生、流动、处理等过程比以往更加丰富和多样。数据的频繁跨界流动,除可能导致传统的数据泄露风险外,还会引发新的安全风险。特别是在数据共享环节中,传统数据访问控制技术无法解决跨组织的数据授权管理和数据流向追踪问题,仅靠书面合同或协议难以实现对数据接收方的数据处理活动进行实时监控和审计,极易造成数据滥用的风险, 最典型的案例即是今年曝光的“剑桥分析”事件。未来,数据共享和流通将成为刚性业务需求,传统的静态隔离安全保护方法将彻底不能满足数据流动安全防护的需求,必须通过动态变化的视角分析和判断数据
11、安全风险,构建以数据为中心的动态、连续的数据安全防护体系。 (四)大数据推动数字经济新业态新模式蓬勃发展,广(四)大数据推动数字经济新业态新模式蓬勃发展,广大数据安全白皮书(2018 年) 中国信息通信研究院安全研究所 4 大民众却面临享受便捷化泛在化信息服务与保护个人信息权利之间的两难抉择 大民众却面临享受便捷化泛在化信息服务与保护个人信息权利之间的两难抉择 近年来,我国网络购物、移动支付、共享经济等数字经济新业态新模式发展迅猛,基于互联网、移动互联网、物联网的信息服务已经渗透到社会生活的方方面面,为广大民众提供便捷、高效、全天候的服务。以普惠金融为例,利用大数据对个人数据的挖掘和分析,能够
12、帮助金融科技公司更好的理解用户需求,提供个性化定制服务;利用大数据进行金融风险控制,能够实现流水线操作,减少经营成本,提高服务效率,提升用户体验。例如,某互联网金融服务企业推出的“310”个人信贷服务模式,即“3 分钟填表、1 分钟批贷、0人工干预” ,为用户提供了传统信贷服务无法比拟的业务体验,同时将业务成本从每单 2000 元降至 2.3 元。然而,用户享受便捷服务的代价是出让自己的个人信息权利。每日推荐、个人日报、免押租车等信息服务,都是基于大数据技术对用户个人数据进行挖掘分析,形成用户画像,进而提供的定制化服务。但大数据应用场景下,无所不在的数据收集技术、专业化多样化的数据处理技术,使
13、得用户难以控制其个人信息的收集情境和应用情境,用户对其个人信息的自决权利自然被削弱。特别是,企业间的数据共享日益频繁,利用大数据的超强分析能力对多源数据进行处理,能够将经过匿名化处理的数据再次还原,导致现有数据脱敏技术“失灵” ,直接威中国信息通信研究院安全研究所 大数据安全白皮书(2018 年) 5 胁用户的隐私安全。 综上,大数据安全是涉及技术、法律、监管、社会治理等领域的综合性问题,其影响范围涵盖国家安全、产业安全和个人合法权益。同时,大数据在数量规模、处理方式、应用理念等方面的革新,不仅导致大数据平台自身安全需求发生变化,还带动数据安全防护理念随之改变,同时引发对高水平隐私保护技术的需
14、求和期待。 二、大数据安全技术总体视图 如前所述,大数据安全是一个跨领域跨学科的综合性问题,可以从法律、经济、技术等多个角度进行研究。本报告以技术作为切入点,梳理分析当前大数据的安全需求和涉及的技术,提出大数据安全技术总体视图,如图 1 所示。在绘制大数据安全技术总体视图的过程中,我们参考了 NIST 等国内外关于大数据技术参考架构的研究成果。考虑到大数据平台为上层应用系统提供存储和计算资源,是对数据进行采集、存储、计算、分析与展示等处理的工具和场所,因此,我们以大数据平台为基本出发点,形成了大数据安全总体视图。 在总体视图中,大数据安全技术体系分为大数据平台安全、数据安全和个人隐私保护三个层
15、次,自下而上为依次承载的关系。大数据平台不仅要保障自身基础组件安全,还要大数据安全白皮书(2018 年) 中国信息通信研究院安全研究所 6 为运行其上的数据和应用提供安全机制保障;除平台安全保障外,数据安全防护技术为业务应用中的数据流动过程提供安全防护手段;隐私安全保护是在数据安全基础之上对个人敏感信息的安全防护。 图 1.大数据安全技术总体视图 (一)大数据平台安全 (一)大数据平台安全 大数据平台安全是对大数据平台传输、存储、运算等资源和功能的安全保障,包括传输交换安全、存储安全、计算安全、平台管理安全以及基础设施安全。 传输交换安全是指保障与外部系统交换数据过程的安全可控,需要采用接口鉴
16、权等机制,对外部系统的合法性进中国信息通信研究院安全研究所 大数据安全白皮书(2018 年) 7 行验证,采用通道加密等手段保障传输过程的机密性和完整性。存储安全是指对平台中的数据设置备份与恢复机制,并采用数据访问控制机制来防止数据的越权访问。计算组件应提供相应的身份认证和访问控制机制,确保只有合法的用户或应用程序才能发起数据处理请求。平台管理安全包括平台组件的安全配置、资源安全调度、补丁管理、安全审计等内容。此外,平台软硬件基础设施的物理安全、网络安全、虚拟化安全等是大数据平台安全运行的基础。 (二)数据安全 (二)数据安全 数据安全防护是指平台为支撑数据流动安全所提供的安全功能,包括数据分
17、类分级、元数据管理、质量管理、数据加密、数据隔离、防泄露、追踪溯源、数据销毁等内容。 大数据促使数据生命周期由传统的单链条逐渐演变成为复杂多链条形态,增加了共享、交易等环节,且数据应用场景和参与角色愈加多样化,在复杂的应用环境下,保证国家重要数据、企业机密数据以及用户个人隐私数据等敏感数据不发生外泄,是数据安全的首要需求。海量多源数据在大数据平台汇聚,一个数据资源池同时服务于多个数据提供者和数据使用者,强化数据隔离和访问控制,实现数据“可用不可见” ,是大数据环境下数据安全的新需求。利用大数据技术对海量数据进行挖掘分析所得结果可能包含涉及国家安全、经济运行、社会治理等敏感信息,需要对分析结果的
18、共享和大数据安全白皮书(2018 年) 中国信息通信研究院安全研究所 8 披露加强安全管理。 (三)隐私保护 (三)隐私保护 本报告所提的隐私保护是指利用去标识化、匿名化、密文计算等技术保障个人数据在平台上处理、流转过程中不泄露个人隐私或个人不愿被外界知道的信息。隐私保护是建立在数据安全防护基础之上的保障个人隐私权的更深层次安全要求。然而,我们也意识到大数据时代的隐私保护不再是狭隘地保护个人隐私权,而是在个人信息收集、使用过程中保障数据主体的个人信息自决权利。实际上,个人信息保护已经成为一个涵盖产品设计、业务运营、安全防护等在内的体系化工程,不是一个单纯的技术问题。但由于本报告重点聚焦大数据安
19、全技术,因此在谈及数据主体的个人权益保护时,我们选择去繁从简,从研究方向更为清晰的隐私保护技术入手开展研究。 三、大数据安全面临的技术问题和挑战 大数据安全威胁渗透在数据生产、采集、处理和共享等大数据产业链的各个环节,风险成因复杂交织;既有外部攻击,也有内部泄露;既有技术漏洞,也有管理缺陷;既有新技术新模式触发的新风险,也有传统安全问题的持续触发。本报告将聚焦于大数据本身面临的安全威胁,从大数据平台安全、数据安全和个人信息安全三个方面展开分析,确定大中国信息通信研究院安全研究所 大数据安全白皮书(2018 年) 9 数据安全需求。 (一)平台安全问题与挑战 1、 大数据平台在Hadoop开源模
20、式下缺乏整体安全规划,自身安全机制存在局限性 (一)平台安全问题与挑战 1、 大数据平台在Hadoop开源模式下缺乏整体安全规划,自身安全机制存在局限性 目前,Hadoop 已经成为应用最广泛的大数据计算软件平台,其技术发展与开源模式结合。Hadoop 的最初设计是为了管理大量的公共 web 数据, 假设集群总是处于可信的环境中,由可信用户使用的相互协作的可信计算机组成。因此最初的 Hadoop 没有设计安全机制,也没有安全模型和整体的安全规划。随着 Hadoop 的广泛应用,越权提交作业、修改 JobTracker 状态、 篡改数据等恶意行为不断出现, Hadoop开源社区开始考虑安全需求,
21、 并相继加入了Kerberos 认证、文件 ACL 访问控制、 网络层加密等安全机制, 这些安全功能可以解决部分安全问题,但仍然存在局限性。在身份管理和访问控制方面,依赖于 Linux 的身份和权限管理机制,身份管理仅支持用户和用户组,不支持角色;仅有可读、可写、可执行三个权限,不能满足基于角色的身份管理和细粒度访问控制等新的安全需求。安全审计方面,Hadoop 生态系统中只有分布在各组件中的日志记录,无原生安全审计功能,需要使用外部附加工具进行日志分析。另外,开源发展模式也为 Hadoop 系统带来了潜在的安全隐患。企业在进行工具研发的过程中,多注重功能的实现和性能的提高,对代码的大数据安全
22、白皮书(2018 年) 中国信息通信研究院安全研究所 10 质量和数据安全关注较少。因此,开源组件缺乏严格的测试管理和安全认证,对组件漏洞和恶意后门的防范能力不足。据 Common Vulnerabilities and Exposures(以下简称“CVE”)漏洞列表显示,从 2013 年到 2017 年,Hadoop暴露出来的漏洞数量共计 18 个,其中有 5 个是关于信息泄露的漏洞,并且漏洞数量逐年增长,这五年的具体漏洞数量如图 2 所示。 图 2.2013-2017 年 Hadoop 漏洞统计图 2、大数据平台服务用户众多、场景多样,传统安全机制的性能难以满足需求 2、大数据平台服务用
23、户众多、场景多样,传统安全机制的性能难以满足需求 大数据场景下,数据从多个渠道大量汇聚,数据类型、用户角色和应用需求更加多样化,访问控制面临诸多新的问题。首先,多源数据的大量汇聚增加了访问控制策略制定及01234567820132014201520162017Hadoop漏洞数量单位:个数据来源:CVE中国信息通信研究院安全研究所 大数据安全白皮书(2018 年) 11 授权管理的难度,过度授权和授权不足现象严重。其次,数据多样性、用户角色和需求的细化增加了客体的描述困难,传统访问控制方案中往往采用数据属性(如身份证号)来描述访问控制策略中的客体,非结构化和半结构化数据无法采取同样的方式进行精
24、细化描述,导致无法准确为用户指定其可以访问的数据范围,难以满足最小授权原则。大数据复杂的数据存储和流动场景使得数据加密的实现变得异常困难,海量数据的密钥管理也是亟待解决的难题。 3、大数据平台的大规模分布式存储和计算模式导致安全配置难度成倍增长 3、大数据平台的大规模分布式存储和计算模式导致安全配置难度成倍增长 开源 Hadoop 生态系统的认证、权限管理、加密、审计等功能均通过对相关组件的配置来完成,无配置检查和效果评价机制。同时,大规模的分布式存储和计算架构也增加了安全配置工作的难度,对安全运维人员的技术要求较高,一旦出错,会影响整个系统的正常运行。据 Shodan 互联网设备搜索引擎的分
25、析显示,大数据平台服务器配置不当,已经导致全球 5120TB 数据泄露或存在数据泄露风险,泄露案例最多的国家分别是美国和中国1。 本年初针对 Hadoop 平台的勒索攻击事件,在整个攻击过程中并没有涉及常规漏洞,而是利用平台的不安全配置,轻而易举地对数据进行操作。 4、针对大数据平台网络攻击手段呈现新特点,传统安4、针对大数据平台网络攻击手段呈现新特点,传统安1https:/ 大数据安全白皮书(2018 年) 中国信息通信研究院安全研究所 12 全监测技术暴露不足 全监测技术暴露不足 大数据存储、计算、分析等技术的发展,催生出很多新型高级的网络攻击手段,使得传统的检测、防御技术暴露出严重不足,
26、无法有效抵御外界的入侵攻击。传统的检测是基于单个时间点进行的基于威胁特征的实时匹配检测,而针对大数据的高级可持续攻击(APT)采用长期隐蔽的攻击实施方式, 并不具有能够被实时检测的明显特征, 发现难度较大。此外,大数据的价值低密度性,使得安全分析工具难以聚焦在价值点上,黑客可以将攻击隐藏在大数据中,传统安全策略检测存在较大困难。因此,针对大数据平台的高级持续性威胁(APT)攻击时有发生,大数据平台遭受的大规模分布式拒绝服务(DDoS)攻击屡见不鲜。Verizon 公司2018年数据泄露调查报告显示,48%的数据泄露与黑客攻击有关,其中,DDoS、钓鱼攻击以及特权滥用是主要的黑客攻击方式,具体数
27、据如图 3 所示。 中国信息通信研究院安全研究所 大数据安全白皮书(2018 年) 13 图 3.数据泄露中主要攻击手段统计图 (二)数据安全问题和挑战 (二)数据安全问题和挑战 除数据泄露威胁持续加剧外,大数据的体量大、种类多等特点,使得大数据环境下的数据安全出现了有别于传统数据安全的新威胁。 1、数据泄露事件数量持续增长,造成的危害日趋严重 1、数据泄露事件数量持续增长,造成的危害日趋严重 大数据因其蕴藏的巨大价值和集中化的存储管理模式成为网络攻击的重点目标,针对大数据的勒索攻击和数据泄露问题日趋严重,重大数据安全事件频发。Gemalto 2017数据泄露水平指数报告显示,2017 年上半
28、年全球范围内数据泄露总量为 19 亿条, 超过 2016 年全年总量(14 亿), 比2016 年下半年增长了 160%多,从 2013 年到 2017 年全球数据泄露的具体数目如图 4 所示,从图中可以看出数据泄露0%10%20%30%40%50%60%物理攻击特权滥用社会工程学攻击配置或操作错误恶意软件黑客攻击数据泄露中主要攻击手段统计数据来源:Verizon大数据安全白皮书(2018 年) 中国信息通信研究院安全研究所 14 的数目呈现逐年上涨的趋势。仅 2017 年,全球发生了多起影响重大的数据泄露事件,美国共和党下属数据分析公司2、征信机构3先后发生大规模用户数据泄露事件, 影响人数
29、均达到亿级规模。 我国数据泄露事件也时有发生。 2017 年 3 月,京东试用期员工与网络黑客勾结,盗取涉及交通、物流、医疗等个人信息 50 亿条,在网络黑市贩卖。此外,数据泄露的潜在隐患同样不容乐观, 据 Shodan 统计, 截至 2017 年 2月 3 日,中国有 15046 个 MangoDB 数据库暴露在公网,存在严重安全问题。 图 4.2013-2017 年数据泄露数量统计图 2、数据采集环节成为影响决策分析的新风险点 2、数据采集环节成为影响决策分析的新风险点 在数据采集环节,大数据体量大、种类多、来源复杂的2 2017 年 6 月,美国共和党国家委员会下属的数据分析公司 Dee
30、p Root Analytics 被曝泄露 1.98 亿美国公民的个人信息。 3 2017 年 5 月至 7 月,美国三大征信机构之一 Equifax 的数据库遭受攻击,1.43 亿用户个人信息遭窃取。 0.005.0010.0015.0020.0025.0030.00201320142015201620175.7510.237.0813.7926.01数据泄露事件数量单位:亿个数据来源:Gemalto中国信息通信研究院安全研究所 大数据安全白皮书(2018 年) 15 特点为数据的真实性和完整性校验带来困难,目前,尚无严格的数据真实性、可信度鉴别和监测手段,无法识别并剔除虚假甚至恶意的数据。
31、若黑客利用网络攻击向数据采集端注入脏数据,会破坏数据真实性,故意将数据分析的结果引向预设的方向,进而实现操纵分析结果的攻击目的。 3、数据处理过程中的机密性保障问题逐渐显现 3、数据处理过程中的机密性保障问题逐渐显现 数字经济时代来临,越来越多的企业或组织需要参与产业链协同,以数据流动与合作为基础进行生产活动。企业或组织在开展数据合作和共享的应用场景中,数据将突破组织和系统的边界进行流转,产生跨系统的访问或多方数据汇聚进行联合运算。保证个人信息、商业机密或独有数据资源在合作过程中的机密性,是企业或组织参与数据共享合作的前提,也是数据有序流动必须要解决的问题。 4、数据流动路径的复杂化导致追踪溯
32、源变得异常困难 4、数据流动路径的复杂化导致追踪溯源变得异常困难 大数据应用体系庞杂,频繁的数据共享和交换促使数据流动路径变得交错复杂,数据从产生到销毁不再是单向、单路径的简单流动模式,也不再仅限于组织内部流转,而会从一个数据控制者流向另一个控制者。在此过程中,实现异构网络环境下跨越数据控制者或安全域的全路径数据追踪溯源变得更加困难,特别是数据溯源中数据标记的可信性、数据标记与数据内容之间捆绑的安全性等问题更加突出。 2018年 3 月的“剑桥分析”事件中, Facebook 即是因为对第三方使大数据安全白皮书(2018 年) 中国信息通信研究院安全研究所 16 用数据缺乏有效的管理和追责机制
33、,最终导致 8700 万名用户资料被滥用, 还带来了股价暴跌、 信誉度下降等严重后果。 (三)个人隐私安全挑战 (三)个人隐私安全挑战 大数据应用对个人隐私造成的危害不仅是数据泄露,大数据采集、处理、分析数据的方式和能力对传统个人隐私保护框架和技术能力亦带来了严峻挑战。 1、传统隐私保护技术因大数据超强的分析能力面临失效的可能 1、传统隐私保护技术因大数据超强的分析能力面临失效的可能 在大数据环境下,企业对多来源多类型数据集进行关联分析和深度挖掘,可以复原匿名化数据,进而能够识别特定个人或获取其有价值的个人信息。在传统的隐私保护中,数据控制者针对单个数据集孤立地选择隐私保护技术和参数来保护个人
34、数据,特别是利用去标识、掩码等技术的做法,无法应对上述大数据场景下多源数据分析挖掘引发的隐私泄露问题。 2、传统隐私保护技术难以适应大数据的非关系型数据库 2、传统隐私保护技术难以适应大数据的非关系型数据库 在大数据技术环境下,数据呈现动态变化、半结构化和非结构化数据居多的特性, 对于占数据总量 80%以上的非结构化数据,通常采用非关系型数据库(NoSQL)存储技术完成对大数据的抓取、管理和处理。而非关系型数据库目前尚无严格的访问控制机制及相对完善的隐私保护工具,现有的中国信息通信研究院安全研究所 大数据安全白皮书(2018 年) 17 隐私保护技术,如去标识化、匿名化技术等,多适用于关系型数
35、据库。 四、大数据安全技术发展情况 面对上述大数据安全挑战与威胁,产业各界在安全防护技术方面进行了针对性的实践与探索。本报告从大数据平台安全、数据安全、隐私保护三个方面阐述大数据安全技术的发展现状。 (一)大数据平台安全技术 (一)大数据平台安全技术 随着市场对大数据安全需求的增加,Hadoop 开源社区增加了身份认证、访问控制、数据加密等安全机制。商业化Hadoop 平台也逐步开发了集中化安全管理、细粒度访问控制等安全组件,对平台进行了安全升级。部分安全服务提供商也致力于通用的大数据平台安全加固技术和产品的研发,已有多款大数据平台安全产品上市。这些安全机制的应用为大数据平台安全提供了基础机制
36、保障。 1、Hadoop 开源社区增加了基本安全机制,但安全能力不能满足现实需求 1、Hadoop 开源社区增加了基本安全机制,但安全能力不能满足现实需求 Hadoop 开源系统中提供了身份认证、访问控制、安全审计、数据加密等基本安全功能。身份认证方面,Hadoop支持两种身份验证机制:简单机制和 Kerberos 机制。简单大数据安全白皮书(2018 年) 中国信息通信研究院安全研究所 18 机制是默认设置,根据客户进程的有效 UID 确定用户名,只能避免内部人员的误操作。 Kerberos 机制支持集群中服务器间的认证和 Client 到服务器的认证。因为 Kerberos 可以实现较强的
37、安全性,同时保证较高的运行性能,目前还没有哪种认证方式可以取代 Kerberos 认证。基于 Kerberos 的认证方式对于系统外部可以实现强安全认证,但 Kerberos 的认证颗粒度基于操作系统用户,无法支持系统内组件之间的身份认证。访问控制方面,目前大数据安全开源技术在访问控制方面主要有基于权限的访问控制、访问控制列表、基于角色的访问控制、基于标签的访问控制和基于操作系统的访问控制等几种方式。POSIX 权限和访问控制列表方式可用于HDFS、MapReduce、HBase 中,Hive 支持基于角色的访问控制,HBase 和 Accumulo 提供了基于标签的访问控制。在以上几种访问控
38、制方式中,企业主流使用的是基于权限的访问控制和基于角色的访问控制。大数据场景下用户角色众多,用户需求更加多样化,难以精细化和细粒度地控制每个角色的实际权限,导致无法准确为用户指定其可以访问的数据范围,实现细粒度访问控制较为困难。大数据环境访问控制的复杂性不仅在于访问控制的形式多样,另一方面在于大数据系统允许在不同系统层面广泛共享数据,需要实现一种集中统一的访问控制从而简化控制策略和部署。安全审计方面,Hadoop 开源系统各组件均提供日志和审计文件,可以中国信息通信研究院安全研究所 大数据安全白皮书(2018 年) 19 记录数据访问过程,为追踪数据流向和发现违规数据操作提供原始依据。但 Ha
39、doop 各组件分别进行基本的日志和审计记录,并存储在其内部,实现全系统的安全审计较为困难,需要使用外部的日志聚合系统从集群中所有节点拉取审计日志,放入集中化的位置进行存储和分析。数据加密方面,大数据环境下需要实现数据在静态存储及传输过程的加密保护,其难点在于密钥管理。从 Hadoop2.6 开始,HDFS 支持原生静态加密应用层加密,是一种基于加密区的透明加密方法,需要加密的目录被分解为若干加密区,当数据写入加密区时被透明地加密,客户端读取数据时被透明地解密。对于动态传输数据,对应 RPC、TCP/IP 和 HTTP,Hadoop提供了不同的动态加密方法,保证客户端与服务器传输的安全性。目前
40、 Hadoop 开源技术能够支持通过基于硬件的加密方案,大幅提高数据加解密的性能,实现最低性能损耗的端到端和存储层加密。加密的有效使用需要安全灵活的密钥管理和分发机制,目前在开源环境下没有很好的解决方式,需要借助商业化的密钥管理产品。 2、商业化大数据平台解决方案已经具备相对完善的安全机制 2、商业化大数据平台解决方案已经具备相对完善的安全机制 商业化的大数据平台,如 Cloudera 公司的 CDH(Cloudera Distribution Hadoop) 、Hortenworks 公司的HDP(Hortonworks Data Platform ) 华 为 公 司 的大数据安全白皮书(2
41、018 年) 中国信息通信研究院安全研究所 20 FusionInsight、 星环信息科技的 TDH (Transwarp Data Hub)等,在平台安全机制上,做了如下几个方面的优化。集中安全管理和审计方面, 通过专门的集中化的组件 (如 Manager、Ranger、Guardian)形成了大数据平台总体安全管理视图,实现集中的系统运维、安全策略管理和审计,通过统一的配置管理界面,解决了安全策略配置和管理繁杂的难题。身份认证方面,通过边界防护,保证 Hadoop 集群入口的安全,通过集中身份管理和单点登录等方式,简化了认证机制,通过界面化的配置管理方式,可以方便的管理和启用基于Kerb
42、eros 的认证。访问控制方面,通过集中角色管理和批量授权等机制,降低集群管理的难度,通过基于角色或标签的访问控制策略,实现资源(例如文件、目录、表、数据库、列族等访问权限)的细粒度管理。加密和密钥管理方面,提供灵活的加密策略,保障数据传输过程及静态存储都是以加密形式存在, 也可以实现对 Hive、 HBase 的表或字段加密,同时提供更好的秘钥存储方案, 并能提供和企业现有的 HSM(HardwareSecurity Module)集成的解决方案。 商业化大数据安全方案从 2008 年开始起步,经过了大量的测试验证,有众多部署实例,大量的运行在各种生产环境,技术成熟度高。由于这类安全方案的安
43、全机制是只针对特定平台开发,安全保障组件仅适用于该平台,对于其他大数据平台,很难采取此类方案实现平台安全加固。 中国信息通信研究院安全研究所 大数据安全白皮书(2018 年) 21 3、商业化通用安全组件可以为已建大数据平台提供安全加固方案 3、商业化通用安全组件可以为已建大数据平台提供安全加固方案 通用安全组件是指适用于原生或二次开发的 Hadoop 平台的安全防护机制,一般实现方式是通过在 Hadoop 平台内部部署集中管理节点,负责整个平台的安全管理策略设置和下发,实现对大数据平台的用户和系统内组件的统一认证管理和集中授权管理。通过在原功能组件上部署安全插件,对数据操作指令进行解析和拦截
44、,实现安全策略的实施,从而实现身份认证、访问控制、权限管理、边界安全等功能。身份认证方面,在兼容平台原有 Kerberos+LDAP 认证机制的基础上,支持口令、手机、PKI 等多因素组合认证方式,实现外部用户认证和平台内部组件之间的认证,支持用户单点登录。访问控制方面,引入 DAC、MAC、RBAC、DTE 等多种访问控制模式,实现 HDFS 文件、计算资源、组件等细粒度的访问控制,支持安全、审计、操作三权分立。实现平台安全配置基线检查,提高大数据平台自身的安全性。还实现敏感数据的动态模糊化管理等功能。 通用安全组件易于部署和维护、适合对已建大数据系统进行安全加固,可以在不改变现有系统架构的
45、前提下,解决企业的大数据平台安全需求。灵活性强,方便与现有的安全机制集成。这类产品的提供者一般都是专业的安全服务商,专注于安全问题的解决,防护机制的完备性强,精度高,为大数据安全白皮书(2018 年) 中国信息通信研究院安全研究所 22 开源大数据平台提供了较完备的安全加固方案。 (二)数据安全技术 (二)数据安全技术 数据是信息系统的核心资产,是大数据安全的最终保护对象。除大数据平台提供的数据安全保障机制之外,目前所采用的数据安全技术,一般是在整体数据视图的基础上,设置分级分类的动态防护策略,降低已知风险的同时考虑减少对业务数据流动的干扰与伤害。对于结构化的数据安全,主要采用数据库审计、数据库防火墙,以及数据库脱敏等数据库安全防护技术;对于非结构化的数据安全,