面向隐私保护的数据挖掘和数据发布方法研究童云海.pptx

上传人:莉*** 文档编号:87368615 上传时间:2023-04-16 格式:PPTX 页数:58 大小:1.97MB
返回 下载 相关 举报
面向隐私保护的数据挖掘和数据发布方法研究童云海.pptx_第1页
第1页 / 共58页
面向隐私保护的数据挖掘和数据发布方法研究童云海.pptx_第2页
第2页 / 共58页
点击查看更多>>
资源描述

《面向隐私保护的数据挖掘和数据发布方法研究童云海.pptx》由会员分享,可在线阅读,更多相关《面向隐私保护的数据挖掘和数据发布方法研究童云海.pptx(58页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用2讨论内容 面向隐私保护的数据挖掘方法 研究背景和问题描述 体系架构和评估体系 关联规则挖掘中的隐私保护方法 面向隐私保护的数据发布方法 研究背景和问题描述 面向微数据发布的身份保持的K-匿名第1页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用3隐私问题的产生 信息技术的飞速发展让各类数据的采集、存储、使用变得方便快捷 医院信息管理系统(电子病例)人口管理系统(市民卡)金融业务系统(银行卡)病人基本信息、疾病信息、医疗服务与药品购买记录市民家庭住址、收入状况、个人爱好、犯罪记录客户私有信息及其交易行为第

2、2页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用4数据分密码学隐私保护方法的研究通过多用户、多权限、多层次的资源访问控制策略,实现对隐私数据的安全存数据库安全信息安全隐私保护统计学利用有效的加密算法对隐私数据进行加密,再通过有效的解密算法实现数据的访问和使用析方法通过数据干扰和查询限制等方法,在不针对个体信息的条件下得到普遍的规律储与访问第3页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用5数据挖掘中的隐私保护问题 数据挖掘是从大量数据中抽取出新颖的、潜在有用的模式或者规则 关联规则挖掘、分类、聚类、异常点分析 数据挖掘所关注信息和各类

3、挖掘结果的隐藏性,使得人们对数据挖掘中的隐私保护问题异常关注 解决数据挖掘中的隐私保护问题成为研究的热点第4页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用6 从大量数据中挖掘出来的模式或者规则,通常是针对综合数据而非细节数据 是否可以在不精确访问原始数据详细信息的条件下,挖掘出准确的模式与规则呢?隐私保护数据挖掘问题的描述 原始数据中包含着数据所有者(或者第三方)的隐私信息,而挖掘者需要从中获取有用的知识第5页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用7相关研究工作 IBM Almaden Research Center (Rake

4、sh Agrawal)Privacy Preserving Data Mining,SIGMOD2000Privacy Preserving OLAP,SIGMOD2005 Stanford University (H.G.Molina&R.Motwani)Privacy&Databases,PORTIA project with Yale&Microsoft Purdue University (Chris Clifton)Privacy Preserving Distributed Data Mining Syracuse University (Wenliang Du)Randomiza

5、tion approaches Chinese University of Hong KongPersonalized Privacy Preservation,SIGMOD2006 CMU、UIUC、Cornell、Texas A&M 等第6页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用8架构及其流程评估指标体系架构及其流程研究基础有效处理方法关键技术评估指标体系可靠保障数据挖掘算法成果体现数据处理强 相 关 的 隐 私 属 性数 值 类 型 隐 私 数 据枚 举 类 型 隐 私 数 据布 尔 类 型 隐 私 数 据特征重构我们研究的重点内容隐私保护的数据挖掘算

6、法第7页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用9项目支持 国家自然科学基金项目 “面向隐私保护的数据挖掘方法研究”北京市科学技术委员会博士论文资助项目 政府、金融、电信行业实际应用项目第8页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用10数据挖掘中隐私保护方法的架构与流程 隐私数据处理方法的多样性 数据变换、数据阻塞、数据归并、数据交换、数据抽样等 数据挖掘算法的多样性 关联规则挖掘、分类、聚类等 系统的简洁性和可操作性 支持海量隐私数据的分析与挖掘第9页/共59页挖掘算法XM挖掘结果X11发布数据库D数据处理隐私数据需要保护原

7、始数据库D CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用受到保护特征重构隐私保护策略挖掘挖掘算法M算法调整结果X尽量接近数据特征FKD3 架构 Knowledge Discovery in Distorted Database隐私数据Knowledge Discovery in Database第10页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用12KD3 架构的工作流程1.分析数据特征2.确定保护策略(参数选择)3.进行数据处理(参数使用)4.调整挖掘算法(参数使用)5.实施特征重构(参数使用)6.生成挖掘结果(参数使用)数据所有者数据挖掘者

8、第11页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用13方法的评估指标体系 有效的衡量标准和评价指标体系,可以帮助用户根据不同的数据特征和应用需求,选择出最合适的隐私保护技术 四个方面的评估指标体系 隐私性 准确性 高效性 适用性第12页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用14隐私性 方法对隐私信息的保护程度,可以用被保护的隐私信息仍然被发现或者预测出来的可能性来衡量 分类属性:隐私破坏系数 BreachBreach =P真实数据所占的比例P真实数据被识别出来的概率P非真实数据所占的比例P非真实数据被识别出来的概率P非真实数据

9、被还原的概率第13页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用15隐私性(续)连续值属性:隐私破坏区间宽度 BreachWidth 如果原始数据 x 落到区间x1,x2上的概率为c%,则称区间x1,x2是置信度为c%的隐私破坏区间,而该区间的宽度(x2x1)就定义了置信度为c%的隐私破坏区间宽度第14页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用16准确性 应用隐私保护方法之后的挖掘结果误差,或有效信息损失和数据功能性损失的程度 原始数据与发布数据的内在特征吻合程度 实际挖掘结果与真实结果之间的差异 重构特征的误差和方差分析第15页

10、/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用17高效性 方法所需的时间和空间代价,或为了保护隐私信息而额外花费的时间和使用的空间 算法运行的效率和资源使用情况 方法的整体性能 数据处理的性能 特征重构的性能 针对发布数据进行挖掘的性能 通过时间和空间计算复杂度来进行评估第16页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用18适用性 方法适用于不同数据类型、不同数据挖掘算法和不同数据分布状况的能力 提高数据处理方法对各类数据挖掘算法的适用性水平,有助于提高数据挖掘中隐私保护方法的一致性和规范性水平 数据入侵者会试图通过各种数据挖掘算法,

11、来威胁隐私信息的安全,只有适用性强的通用方法,才能真正实现有效的隐私保护第17页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用19关联规则挖掘中的隐私保护方法 在KD3架构与流程的基础上实现 提出了部分隐藏的随机化回答(RRPH)方法 数据干扰和查询限制的隐私保护策略相结合 布尔类型的数据处理和特征重构方法 关联规则挖掘中基于RRPH的隐私保护方法 相同时间和空间开销 更好的隐私保护程度 更高的挖掘结果准确性第18页/共59页算法CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用20D频繁项集生成算法总体架构隐私项需要保护原始事务集隐私项受到保护发布事

12、务集D数据处理特征重构RRPH方法关联规则隐私保护频繁项集支持度 生成计数算法调整第19页/共59页统计学究成果 部分隐藏的随机化回答(RRPH)方法 1 XCCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用21原始数 关处理后的数据均与相结合据直接相 引入 中的研提供的所有数据都是真实数据RRPH方法 现有的数据处理方法 数据干扰策略 查询限制策略00 0 1 10 0 1 01 1 0 0 10 01 0 1 1 1 0 0 X 支持布尔类型的数据处理和特征重构 0 0 1 0 X 用于实现关联规则挖掘中的隐私保护 X 1 1 1 0第20页/共59页CCF YOCSEF 报

13、告会:数据挖掘及其在网络信息安全中的应用22RRPH的数据处理方法 随机化参数,0p1,p2,p31,且 p1+p2+p3=1 对 x0,1,令 r1=x,r2=1,r3=0,随机函数 r(x)以概率 pj返回 rj 用向量 X=(x1,x2,.,xn)表示数据库 D 中的一条记录,其中 xi0,1 用 Y=R(X)生成随机向量 Y=(y1,y2,.,yn),其中 yi=r(xi),分别以概率 p1,p2,p3 返回 xi,1,0 随机向量 Y 在形式上与原始向量相同,作为处理后的数据记录被加入到数据库 D 中p1xp21p30第21页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络

14、信息安全中的应用 p2p1 序号XAYA映射概率123400110101p1+p3p2p3p1+p2隐私保护的频繁项集生成算法 1-项集的支持度计算 表示项 A 在 D 中的支持度 表示项 A 在 D 中的支持度 (p1 p2)(1)p2 p1 p22323第22页/共59页mij tmax(0,i jk)C j(p1 p2)t p3Ck j p2CC=MC,C 1Ck C ,C 1CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用24k-项集的支持度计算 A=i1,i2,ik 是一个 k-项集 恰好包含 A 中 j 项的 D 中事务 T(共 Cj个)经过 RRPH 方法处理,变

15、成为恰好包含 A 中 i 项的 D 中事务 T(共 Ci 个)的概率 mij都相等,M=mij是(k+1)(k+1)矩阵C0 C0 Ck 当 M 可逆时,令 M-1=aij,则项集 A 的支持度计数为Ck ak,0C0 ak,1C1 ak,kCk ititjtmin(i,j)t(p1 p3)ki jt第23页/共59页Breach1=p p+(1-p)(1-p)1=p (1 p)CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用25RRPH方法的隐私性分析 在真实数据所占的比例相同,都为 p 的情况下 MASK方法VLDB2002,随机化参数为 p,Breach1 Breach2

16、=当时,Breach1 Breach2p1 2p21 2(2p1)(2p1)(p 1)p 12p3 2p2 p1p1120 p 22第24页/共59页,(p ),(p )p (1 p2)2p1p2n (2p 1)4p 4np (2p 1)26 MASK 方法 RRPH 方法 取 p1=p,p2=p3,则 当RRPH方法的准确性分析121 (1 p)2p1 1 12p(1 p)n(2p1)2Var(1)2 p2p1 2np1 2 2p1(1 p1)np1 2Var(2)(1 p)(1 p)4np2p2(1 p2)np1 2Var(2)1 和 2 都是 的无偏估计量,而)122,(p (1 p)(

17、3p 1)2 21 p21 p pVar(1)Var(2)13 p 1时,Var(1)Var(2)CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用第25页/共59页平均项集度误差()CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用2520151050实验结果300.10.20.3 0.35 0.4 0.45 0.49 0.51 0.55 0.6 0.65 0.70.80.9MASKRRPH随机化参数 p MASK方法的误差变化比较大当 p 接近 0 或 1 时,挖掘结果比较准确在 p 从 0 或 1 接近 0.5 的过程中,挖掘结果准确性显著下降 RRPH方法的

18、误差变化相对比较平稳随着 p 值从 0 增加到 1,挖掘结果的准确性不断提高2727第26页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用28RRPH方法的优势 当时,RRPH 方法比 MASK 方法同时具有更好的隐私性和更高的准确性 权衡数据的隐私性和挖掘结果的准确性,我们建议在区间0.35,0.6上选取随机化参数 p 的值,来使用RRPH方法进行隐私保护的关联规则挖掘1213 p 第27页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用29朴素贝叶斯分类中的隐私保护方法 在KD3架构与流程的基础上实现 扩展的部分隐藏随机化回答(ERRP

19、H)方法 RRPH方法在数据类型上的扩展 枚举类型的数据处理和特征重构方法 转换的随机化回答(TRR)方法 数值类型的数据处理和特征重构方法 分类挖掘中基于ERRPH和TRR的隐私保护方法 实现了完整的朴素贝叶斯分类算法 同时支持分类属性和连续值属性的数据第28页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用30讨论内容 面向隐私保护的数据挖掘方法 研究背景和问题描述 体系架构和评估体系 关联规则挖掘中的隐私保护方法 面向隐私保护的数据发布方法 研究背景和问题描述 面向微数据发布的身份保持的K-匿名第29页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信

20、息安全中的应用31数据发布中的隐私保护 核心问题:在保护隐私的前提下,发布较为准确的数据 统计数据库把数据发布分为三种类型 微数据:指包含个体信息的数据;聚集数据:指汇总之后的各项分类的统计数据;其他统计数据:包括其他各种类型的总体描述,比如回归因子、相对指数等。第30页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用32我们研究的重点 微数据发布场景 分析单一个体对应多个记录的情况,提出了身份保持的匿名模型 分析动态数据发布的场景和隐私推理途径,提出了t-rotation模型处理动态数据 联机分析处理(OLAP)中的数据保护 基于度量的OLAP数据隐私保护方法 基于

21、维度的OLAP数据隐私保护方法第31页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用33问题提出 很多部门和单位(例如:医院)需要发布一些数据表。包含个体信息的表称为微数据(microdata)微数据是记录个人信息的数据 身份标识属性(Individually Identifying Attribute ,简称ID ):记录了可以唯一识别个人的取值,比如身份证号、电话号码、姓名等信息 准标识属性(Quasi-identifiers,简称QI):记录了对个人的一些类型属性的取值,比如性别、所在的邮政编码、出生日期等 敏感属性(Sensitive Attribute,简

22、称ST):记录了个人不愿为人所知的取值信息,比如个人收入、所患病症等第32页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用34问题提出:微数据发布场景 为了提供研究,医院发布了一个病人情况表 简单的方法:去掉“身份标识属性”publish第33页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用35连接推理发布表Quasi-identifier (QI)attributes选民登记表An adversary第34页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用36连接推理 Swe00的研究表明,87的美国人口信息可

23、以通过性别、出生日期、5位邮政编码进行个人重建 我们研究了宁波城区中的居民数据,得到了类似的结论 78的人口可以通过出生日期和6位邮政编码唯一确定 58的人口可以通过出生日期和5位邮政编码唯一确定第35页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用37问题定义(1)设数据集的模式:T=ID1,IDr,QI1,QIs,ST1,STt IDi (i=1,2,r):身份标识属性 QIj (j=1,2,s):准标识属性 STk (k=1,2,t):敏感属性 为了保护个人隐私,发布数据集需要设定一个隐私保护需求 为了达到隐私保护需求,需要对数据集T中的元组t进行转化得到t,

24、设转化函数为f第36页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用38问题定义(2)对转化函数f 设t=(d1,dr,q1,qs,s1,st),f把t转化为t(d1,dr,q1,qs,s1,st),即t=f(t)。通常在微数据发布处理方法中,f并不修改敏感属性的取值,即sk=sk,(k=1,2,t)对于需要处理的数据集T,转化函数f把T转化为发布数据集PT,其中PT=f(t)|tT。转化后(q1,qs)取值相同的那些元组形成一个QI分组。为了尽量准确地评价发布数据,需要建立评价指标,设为第37页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的

25、应用39问题定义(3)隐私保护的数据发布问题可以表示为一个四元组PPDP=(T,f,)T是需要发布的数据集,发布的数据集为PTf(t)|tT 是隐私保护需求f 是转化函数 是对发布数据集的评价结果 隐私保护的数据发布问题就是在满足隐私保护需求的前提下,最大化数据有效性指标 实现隐私信息的合理保护和获得数据信息的最大效用第38页/共59页抑制隐私保护需求评价指标CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用记录处理k-匿名l-多样化(,k)-匿名背景知识隐私攻击待发布表中间表属性处理发布表外部表40处理的基本框架概化有损分解第39页/共59页CCF YOCSEF 报告会:数据挖

26、掘及其在网络信息安全中的应用41相关研究工作 隐私保护需求k-anonymity (TKDE01)l-diversity (ICDE06)(,k)-anonymity (KDD06)t-closeness (ICDE07)个性化隐私 (SIGMOD06)转化方法单维概化 (TKDE01)多维概化 (ICDE06)有损连接 (VLDB06)空间索引 (VLDB07,VLDB07)第40页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用42相关研究工作 评价指标 概化比例DR (KDD02)可识别性DM (ICDE05)确定性代价NCP (KDD06)隐私攻击 Minim

27、ality Attack (VLDB07)Privacy Skyline (VLDB07)第41页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用43隐私保护需求 研究者提出了多种隐私保护需求 k-anonymity:每个QI分组中至少包含k个元组 l-diversity:每个QI分组中的敏感属性至少有l个不同的取值 (,k)-anonymity:每个QI分组中的每个敏感属性取值的概率不超过,并且每个QI分组中至少包含k个元组 t-closeness 第42页/共59页4 QI 分组CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用44anonymous

28、)QI 属性ST属性隐私保护需求:k-anonymity 具有相同的准标识属性组(QI)的元组至少有k个(2-第43页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用45数据转化方法:概化 概化关系D :设两个域Di,Dj,|Dj|Di|,Dj称为Di的一个概化,如果对任何一个diDi,都存在djDj,dj是di的概化。第44页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用46数据转化方法:有损分解 有损分解 设数据表T,属性集AGID QI ST,其中GID属性用于记录每个元组分组之后的分组标号,QI是准标识属性集合,ST是敏感属性集合。

29、将表T分解为两个表STT和QIT进行发布 QITGID QI STTGID ST第45页/共59页23M 1pneumonia35591dyspepsia6565QIT表47有损分解方法 发布表变成两张表,类标识属性表(QIT)和敏感属性表(STT)Count2221221Age Sex23 M27355961MMMF13000590001200054000656570FFF250002500030000gastritisSTT表AgeZipcode11000DiseaseGroup-ID DiseaseSex ZipcodeGroup-ID1100027M 1M 11M 2130005900

30、0120001dyspepsia dyspepsiapneumonia2 bronchitispneumonia flu61F 2F 2F 2540002500025000flugastritisflu70F30000bronchitisMicrodataCCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用47第46页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用48身份保持的匿名 现有的匿名方法只考虑每个个体只出现一次的情况不考虑身份标识属性,直接删除大量信息损失,只保留QI与ST的关系,没有保留ST之间的关系可能带来部分元组敏感属性的隐私保护度降低第

31、47页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用49身份保持的匿名 四元组PPDP=(T,f,)中,设t=(d1,dr,q1,qs,s1,st)现有方法中,f把t转化为t(q1,qs,s1,st)身份保持的匿名中,t(d,q1,qs,s1,st),其中d是重编码后的身份属性取值,多个身份属性只保留一个即可。身份保持的匿名 考虑了单一个体出现多次的情况 提高信息有效性,保留QI与ST的关系以及ST之间的关系 是现有方法的一般形式第48页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用50隐私保护需求 身份保持的隐私保护需求 Identit

32、y-reserved k-anonymity:每个准标识属性分组中至少有k个不同的个体 Identity-reserved (k,l)-anonymity:每个准标识属性分组中至少有k个不同的个体,并且敏感属性取值不少于l个 Identity-reserved (,)-anonymity:每个准标识属性分组中任何个体所占频率不超过,每个敏感属性取值频率不超过第49页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用51数据转化方法 属性处理方法 原有的方法就是简单删除身份属性 对身份属性进行处理 选择一个身份属性进行随机化重编码 删除其他身份属性 匿名实现方法 概化 有

33、损分解第50页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用52数据转化方法:概化 单维全子树重编码不要求同一属性的取值概化到相同层次 提出一种自底向上的全子树重编码算法检查所有元组,将满足匿名要求的元组添加上分组标号选择一个准标识属性进行概化,检查还没有分组的元组,将满足匿名要求的元组添加上组标号这一过程重复下去,直到所有元组都被添加了组标号或者剩余元组的数目达不到匿名要求(比如当k=7时,剩余5个元组)对于这些剩余的元组,进行迁移和合并的方法进行处理第51页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用53要求身份保持的2-匿名要求身

34、份保持的(0.5,0.5)-匿名第52页/共59页CCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用54数据转化方法:有损分解 有损分解方法发布两张表,一张是准标识属性表QIT,另一张是敏感属性表STT QIT包含了准标识属性的原始取值和分组标号 STT包含3个属性:身份属性ID,敏感属性ST和分组标号 有损分解的实现基于概化算法 对身份标识属性重编码 采用概化算法,得到满足身份保持的匿名表T 将T 的准标识属性投影到QIT中,同时把每个元组对应的分组号填入到分组标号属性中,然后删除重复的记录 将T的ID和敏感属性取值投影到STT中,同时把每个元组对应的分组号填入到分组号属性中第

35、53页/共59页55QIT要求身份保持的2-匿名STTCCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用55第54页/共59页vulnerable group ratioCCF YOCSEF 报告会:数 k value其在网络信息安全中的应用据挖掘及56实验与分析(1)实验数据来自于UCI的美国人口数据样例库 定义单一个体的平均元组数作为衡量个体的重复程度,记为rpi元组总数/个体总数。普通k-匿名方法在rpi1时,隐私保护度降低的分组称为脆弱分组 脆弱分组比例与rpi、k的关系0.50.450.40.350.30.250.20.150.10.0502 3 4 5 6 7rpi=

36、1.2rpi=1.4rpi=1.6rpi=1.8第55页/共59页distortion ratioCCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用57实验与分析(2)用概化度描述信息损失的指标,概化层次越低,概化度越小,信息损失越少 比较普通k-匿名与身份保持的k-匿名的概化度0.120.10.080.060.040.020234567k value (rpi=1.2)common k-anonymityidentity-reserved k-anonymity第56页/共59页relative correctnessCCF YOCSEF 报告会:数据挖掘及其在网络信息安全中的应用580.2012345678910 11 12 13k values(rpi=1.2)实验与分析(3)用查询有效性来比较概化与有损分解两种实现方法在信息有效性上的差别。实现身份保持的匿名时,两种方法的相对查询正确率比较10.80.60.4lossy joingeneralization第57页/共59页谢谢!Contact Information:E-mail:Telephone:62756920 (Office)Office:Room 2312,No.2 Science Building ,Peking University第58页/共59页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > PPT文档

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁