《数据挖掘导论习题答案(中文版).pdf》由会员分享,可在线阅读,更多相关《数据挖掘导论习题答案(中文版).pdf(163页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、介绍数据挖掘教师的解决方案手册陈甘美华Pang-NingMichael 教授Vipin Kumar 内 容。1 Introduction 52 Data53 Exploring Data 194 Classification:Basic Concepts,Decision Trees,and Model 24Evaluation245 Classification:Alternative Techniques 446 Association Analysis:Basic Concepts and Algorithms 717 Association Analysis:Advanced Conc
2、epts 958 Cluster Analysis:Basic Concepts and Algorithms 1279 Cluster Analysis:Additional Issues and Algorithms 14610 Anomaly Detection 1541介绍1.讨论是否执行下列每项活动的是一种数据miningtask。(a)把客户的公司根据他们的性别。否。这是一种简单的数据库查询。(b)把客户的公司根据他们的盈利能力。第 这 是 一 种 会 计 计 算、应用程序的门限 值。然而,预测盈利的一种新的客户将数据挖掘。(c)计算的总销售公司。否。这又是简单的会计工作。(d)排
3、序的学生数据库基于学生的身份证号 码。第 再次,这是一种简单的数据库查 询。(e)预测结果丢(公平)的一对骰子。否。既然死是公正的,这是一种概率的 计 算。如果死是不公平的,我们需要估计的概率对每个结果的数据,那么这更象研究的问题数据挖掘。然而,在这种特定的情况下,要解决这一问题是由数学家很长一段时间前,因此,我们不认为它是数据挖掘。(0 预测未来股价的公司使用。historical records是 的。我们将试图创建的模型,可以预测未来的持续价值的股票价 格。这 是 一 例 的2第1章 介 绍领域的数据挖掘预测模型。我们可以使用回归分析。这一建模,尽管研究人员在许多领域已经开发了多种技术来
4、预测时间序 列。(g)监控在患者心率异常。是 的。我们将构建一种型号的正常行为的心率和提高报警当寻常心的行为发生。这将涉及领域的数据挖掘被称为异常检 测。这也可以看作是一种分类的问题如果我们的例子两个正常和不正常的心的行为。(h)监测地震波地震活动。是 的。在这种情况下,我们将构建模型的不同类型的地震波的行为与地震活动和提高报警时,这些不同类型的地震活动。这一例子说明,在区域的数据挖掘已知的分级。(i)解压的频率的声音波形。否。这是信号处理。2.假设您是作为一种数据挖掘咨询顾问的互联网搜索引擎公司。介绍如何将数据挖掘可以帮助该公司的具体的例子,说明技术,如 群 集、分 类、关联规则挖掘和异常检
5、测可以被应用。下面的示例将可能的答案。群集可以组的结果与类似的主题和现在的他们的用户以更精简的形式,例如,报告了 10个最常见的词集。分类可以将结果以预定义的类别如“体育”、“政治”等。连续的关联分析可以检测到这种特定的查询按照某些其他的查询使用的概率很高,从而更有效的高速缓存。异常检测技术可以发现不寻常的模式的用户流量,例如,一主题已突然变得更 受 欢 迎。广告策略可以调整,以利用这种事态发展。33.对于下面的每个数据集说明数据是否privacy is 一项重要的问题。(a)普查数据的收集从1900年一1950年。无(b)IP地址和访问次数的Web用户访问你的网站。单 击“是”(c)图像从地
6、球轨道运行的卫星。无(d)名字和地址的人从电话通讯簿。无(e)姓名和电子邮件地址收集网。无2数据1 .在最初的例子第2章、统计师说:“是的,字 段2和3基本上是相同的。您能告诉我从三条线的样本数据所显示的为什么她说吗?Field 2P M dS N对所显示的值。虽然它可以是危险的结论从这样的小样本,两个字似乎包含基本相同的信息。2.分 类 以 下 属 性 为B i n a r y、离散或连续的。还将其力为质量(名义或序数)或数量(时间间隔或比例)。某些情况下可能会有多个解释,简要说明你的理由如果您认为可能有某些含糊不清之火。例 如:年 龄。答:独 立 的、定 量 的、比率(a)时间在上午或下午
7、。B i n a r y 定 性、序号(b)亮度计测量光度计。持 续 不 断 的、定 量 的、比率(c)亮度测量人的判决。离 散 的、定 性 的、序号(d)角度以度为单位0。和3 6 0。持 续 不 断 的 定 量 的 比 率(e)铜 牌、银牌和金牌颁发的奖项在奥运会上。离 散 的、定 性 的、序号(f)高度海平面以上。持 续 不 断 的、定 量 的、间隔/比例(取决于海一级被认为是一种任意的来源)。(g)多的病人在医院里。离 散 的、定 量 的、比率(h)I S B N号 的 书 籍。(查找格式在W e b上 的)离 散 的、定 性 的、名义上的(I S B N号码没有订单信息,虽然)第2章
8、 数据(i)可以通过指示灯的以下值:不 透 明、半 透 明、透 明。离 散 的、定 性 的、序号 军 衔。离 散 的、定 性 的、序号(k)中心的距离园区。持 续 不 断 的、定量的 间隔/比例(取决于)(1)密度的物质以克每立方厘米。离 散 的、定 量 的、比率(m)检查涂层的编号。(当你参加活动,你 可 以 常 常givey o u r衣的人将为您提供的号码,您可以使用要求您的外套当你离开。)离 散 的、定 性 的、名义3.您接触的营销总监,当地一家公司,他认为他已设计出一种简易的方法来衡量客户的满意度。他解释了他的计划:“它是如此的简单,我不相信没有 人 想 过。我只是保持跟踪客户投诉的
9、每个产品。我读的是数据挖掘的图书,计数率的属性,因此,我国的产品满意度必须是比特性。但当我的产品都是基于我的新的客户满意度测量和显示出他们对我的老板,他告诉我,我忽略了很明显的,我的措施是毫无价值的。我认为他是疯了,因为我们最畅销的产品,最满意的,因为它的投诉最多。你可以帮我把他直吗?”(a)谁是谁的营销总监或老板吗?如果您的回答,hisboss你将如何修复措施的满意度?老板是正确的。一种更好的衡量标准是由投诉的产品满意地注意到产品)=。总数销售的产品(b)你能说什么关于属性的类型的原始productsat i sfact i on 属性?没有什么可以说的属性类型的原始度量。例如,两个产品具有
10、相同的客户满意度的级别会有不同的投诉数目和反之亦然。4.几个月后,你会再次接触相同的营销directoras行 使3。这一次,他已经设计出一种更好的方法来衡量在多大程度上对客户更喜欢一种产品在其他类似的产品。他解释说,当我们开发新的产品,我们通常要创建几个变量和评估这一客户的喜欢。我们的标准程序,以使我们的测试主体所有的 产品变化在一段时间,然后让他们排的变型产品。然而,我们的测试科目有很优柔寡断的,尤其是当有两个以上的产品。结果,测试永远需 要 的。我建议,我们执行的比较成对的然后使用这些比较获得的排名。因此,如果我们有三个产品的变化,我们的客户比较不同1和2、2和3,和 最 后3和1。我们
11、的测试时间与我的新程序是第三,什么是旧的程序,但雇员在测试的抱怨说他们无法拿出排名的结果。和我的老板想要的最新的产品的评价,昨 天。我还要提到的是他的人了老产品的评价办法。您能帮助我吗?”(a)是营销总监的麻烦吗?将他的方法工作的生成顺序排列的变型产品的客户的首选项?解 释 一 下。是的,营销总监是有麻烦了。客户可能会不稳定的排名。例如,客户可能 更 喜 欢1,2,2,3,但3到1。(b)有什么方法可以修复的营销总监的做法?更普遍的是,你能说什么来创建顺序测量基于规模的成对比较的吗?解决方案之一:三个项目,只 做 前 两 个 比 较。一种更通用的解决方案:将选择的客户之一,订购产品,但仍然只允
12、许配对比较的。总的创建顺序测量基于规模的成对比较是很困难的,因为可能的矛盾之处。(c)对于原来的产品评估计划的整体排名eachproduct变化中发现的计算其平均在所有测试的科目。评论你是否认为这是一种合理的办法。有什么其他的办法可能您考虑吗?第一,存在的问题是分摊比额表是不可能有时间间隔或比例分摊比额表。但实际上,平均可能不够好。更重要的是,少数几个极端的评级可能会导致在总的评级,是 一 种 误 导。因此,中值或修剪指(请参阅第3章)可能是更好的选择。5.您能想到的情况的识别号码将useful fo r预测吗?例 如:学 生ID是 一 种 良 好 的“调头预警”功能的毕业日期。6.一名教育心
13、理学家想要使用关联分析方法来分析。testre su lts测试包括100个问题有四个可能的答案。第2章 数据(a)你将如何将此类数据转换成适合于associationanalysis吗?关 联 规 则 分 析 工 程 使 用binary属性,因此您必须将原始数据转化为Binary格式如下所示:0=力Q=BQ=CQ=DQoo=AQoo=BQoo=COoo=D1000100000100100(b)特别是,什么类型的属性将您和h o wm a n y,他们有吗?4 0 0 不对称的二元属性。7.以下哪一项的数量很可能会表现出更多的时间自动关联:雨量或每日的温度吗?为什么?一种功能显示的空间自动关联
14、如果位置更接近每个其他的更多的类似的值的功能比位置更远的地方。这是更为常见的物理关闭位置有类似的温度比类似的降雨量降雨量以来可以非常本地化;,即降雨量可更改突然从一级向另一处。因此,每日温度显示了更多的空间自相关性然后每天的降雨量。8.讨论为什么有的文档的列表是一种数据集h a sa sy m m e tri c离散或连续的非对称性的特点。I j t h 的 项的文档的列表的次数,长 期j出现在 我的文档。大多数文档所包含的只是一小部分的所有可能的条件,因此,零条目并没有很大的意义,不论是在描述或比较文档。因此,文档的矩阵有不对称的离散特性。如果我们应用了 T F I D F正常化的条件和归档
15、到二级缓存的规范1、然后这将会创建一个文档矩阵与连续的功能。然而,功能仍然是不对称的,因为这些变化并不创建非零的条目中的所有条目,以 前 是0,因此,零条目仍没有很大的意义。9 .许多科学依赖于观察而不是(或除了)设计实验。比较的数据质量问题的参与观测的科学与实验科学和数据挖掘。观测科学的问题,不能够完全控制数据的质量,他们获得 的。例如,直到地球轨道运行的卫星,测量,海洋表面的温度依赖的测量船。同样的,天气的测量往往采取从站位于城镇或城市。因此,有必要与所提供的数据,而不是数据从精心设计的实验。在这种意义上说,数据分析的科学观测类似的数据挖掘。1 0.讨论之间的差值的精度测量和t e r m
16、s s ing le和双精度,因为它们是用来在计算机科学中,通常为代表的浮点数字,需 要3 2位 和6 4位 的 分 别。精度的浮点数字的最大精度。更明确地规定,精度通常表示的有效数字的位数来表示的 值。因此,单精度数只能代表值与多达3 2位、和9位小数位数的精 确。然而,往往的精度值使用3 2位(6 4 b it s)是远远少于3 2位数(6 4位)。1 1 .提供至少两个优点与数据存储在文本文件中ins t e ad of a b inar y格 式。(1)文本文件可以很容易的检查键入的文件或查看它的文本编辑器。(2)文本文件是更便携的b inar y文 件、两个跨越多个系统和方案。(3)
17、文本文件可以更方便地进行修改,例如,使用文本编辑器或pe r l。1 2 .区分噪音和异常值。请 务 必 考 虑。f ollow ing q u e s t ions(a)噪音是以往任何时候都更加令人感兴趣的或需要?异常值 没有任何的定义。是的。(请参阅第10章。)(b)可以噪音对象弄常值?是 的。陵机的数据失真通常负责为离群值。(c)有噪音的对象总是异常值?第随机的失真会导致对象或值更象是正常的。(d)都是异常值总是发出噪音的对象吗?第往往离群值仅仅是类的对象,是不同于正常的对象。(e)可以使噪声典型值不寻常的一种,或反之亦然?是 的。1 3.考 虑 的 问 题 是 找 出 近邻的数据对象。
18、程序员在设计算法2.1来执行这项任 务。算 法2.1算 法 查 找(最 接 近 的 邻 居。1:f o r i=1的数据对象2:查 找 距 离 的 对 象 的 所 有 其 他 对 象。3:排序这些距离递减的顺序。(跟踪对象所关联的每个距离)。4:返回的 关 联 对 象 的 第 一 次/的 距 离,经过排序的列表。5:结 束。(a)描述了可能出现的问题与此算法如果有重复的对象的数据集。假设距离函数将仅返回的距离为0的对象是相同的。有 几 个 问 题。第一,重复的对象在最近的邻居列表将取决于细节的算法和对象的顺序数据集。第二,如果有足够的重复的、最近的邻居列表中可能包含重复的记录。第三,对象可能不
19、是自己的最接近的邻居。(b)您将如何解决此问题?有多个方法这取决于具体情况。一种方法是只保留某个对象的每个组对 象 重 复。在这种情况下,每个邻居都可以是单一的对象或一组对象重复。1 4 .以下属性用于衡量成员对一群亚洲象:重 量、高 度、象 牙 的 长 度、中继线的长 度,和 耳 区。基于这些测量值,什么种类的相似性测量从2.4节您会使用比较或组这些大象?证明您的答案和解释的任何特殊情况。这些属性中的所有数字,但可以具有完全不同的值的范围内,取决于所使用的比额表对它们进行测 量。此外,该特性没有不对称和规模的属性问题。这后者的两个事实消除了余弦和相关措施。欧几里德距离 应用进行标准化后的属性
20、要有平均的0和 标 准 偏 差 为1,将 是 适 当 的。1 5.你 是 给 定 一 组 加 对 象 分 为 的 群 体,其中的 组 的 大 小 美。如果我们的目标是要获得的样本大小。血之间有什么区别以下两个抽样计划?(假定采样 与 更 换。)(a)我 们 随 机 选 择n*m i/m元 素的每个组。(b)我 们 随 机 选 择n 个 元素中的数据集,而该组对象所属的。第一计划是保证获得相同数量的对象从每个组,而第二个方案,对象的数量从每个组将会有所不同。更具体地说,第 二 个 计 划 只guarantes,平均来说,对象的 数 目 从 每 组n*mi/m。1 6.考虑文档的列表,其 中t f
21、i j是 频 率 的i t h word(词)在 文 档j t h和 加 的文档的 数 量。考虑变量的变换,由定义%=小*我/(2 D在df i的文档中的 词出现在 文 档 的 频 率。这种转变称为 逆向文档频率 变 换。(a)什么是影响这一转变的如果长期发生在某个文档吗?在每个文档吗?条款中所发生的每个文档都有0个重量,而那些出现在某个文档的最大重量,即登录m(b)可能是什么目的,这种转型?这一正常化的反映意见,条款中出现的每个文档没有任何权力来区分不同的文档,同时那些相对较少。17.假 设,我们应用的平方根转换的比例属性x以获得新的属性/作 为 一 部 分 的 分 机 切定的时同间隔)、加
22、X*具有线性关系的另一种属性y。(一)什么是相应的时间间隔(a、在A?(弟/蛤 出 的 公 心y以x。在该时间间隔内,y =18.此练习进行比较和对比某些相似性和距离的措施。(一)为Binary数 据、L 1距离与海宁的距离;即位数不同的两个二元矢量。Jaccard相似性是衡量之间的相似性两个binary引 导 程 序。计 算Hamming距 离 和Jaccard相类似,以下两个二元矢量。X =0101010001 y=0100011000Hamming di stance:数量的不同位数=3Jaccard相似度=1/匹配函数数量的位数-0匹配)=2/5=0.4(b)哪种办法,雅 卡 尔 或H
23、 a m m i n g距 离、更多的是类似于整合匹配系数,哪种方法更多的类似于余弦的措施吗?解 释 一 下。(注:海宁的措施是一种距离,而其他的三个措施都是相似的,但不要让这种混淆你。)在海宁的距离是类似于S M C。事实上,S M O H a m m i n g d i s t a n c e/的 位 数。J a c c a r d措施是类似于余弦测量由于忽略匹配的0比。握 手 言 和。(c)假设您是如何比较两个类似的生物都是d i f f e r e n t s p e c i e s数方面的基因他 们 的 份 额。介绍了测量,海 宁 或J a c c a r d、您认为更适合用于比较的
24、遗传组成的两个生 物。解 释 一 下。(假设每个动物的二元向量中的每个属性 是1如果某一特定基因存在于生物体和0否 则。)雅卡尔是更适当的作一比较的遗传组成的两个生物体;因为我们要了解很多基因的这两个生物的份额。(d)如果您想要比较的遗传组成的两个生物体的相同的物种,例如两个人类,您将使用的H a m m i n g距离,J a c c a r d系 数、或不同程度的相似性或距离吗?解 释 一 下。(注意,两 人 共 享)9 9.9%的遗传因子相同。)两 人 共 享 9 9.9%的 相 同 基 因。如果我们想要比较的遗传组成的两个人,我们应把重点放在它们之间的分歧。因此,H am m i n
25、g距离更适合这种情况。1 9.对于下面的引导程序、x和y,计算出所示的相似性或距离的措施。(a)X =(1 4 i 1)*y =(2、2 -2 4 2)余 弦、关联 砍几里德的 co s(x,y)=l、更正(x,y)=0/0(未 定 义)、欧几里德(x,y)=2(b)X =(0 4 0 4)y =(1 0、1 0)余 弦、关 联、欧几里德,雅卡尔 co s(x,y)=0、更正(x,y)=T、欧几里德(x,y)=2、雅卡尔(x,y)=0(c)X =(0 7 0 4)*y =(1 0 -1 0)余 弦、关联被 几 里 德 的 co s(x,y)=0、更正(x,y)=0、欧几里德(x,y)二2(d)
26、X =(1、1、0、1、0、1)、y =(1 1 1 0 0、1)余 弦、关 联、雅卡尔co s(x,y)=0.75、更正(x,y)=0.2 5 的 Jaccar d(x,y)=0.6(e)X 0、2、0、-3),y =(-l 1-1 *0 *0、-1)余 弦、关联的co s(x,y)=0、更正(x,y)=02 0.在这里,我们深入探讨和余弦的相互关系的措施。(a)什么是值的范围,均可用于测量角度的余弦值?1 1 许 多 倍 的 数 据 只 有 积 极 的 条 目。在这种情况下该值的范围是0,1(b)如果两个对象具有角度的余弦值的测量1、他们是相同的吗?解 释 一 下。不 一 定。所有我们知道
27、的是,属性数值相差恒定的因素。(c)是一种什么样的关系的角度的余弦值为测量的相关性,如 果有条提示:查看统计的措施,例如平均值和标准偏差的情况下,余弦和关联是相同的和不 同 的。)对 于 两 个 向 量x和y的 值 为0、更正(x,y)=cos(x、y)。(d)图2.1(a)显示了这种关系的角度的余弦值为测量的Euclideandistance100000陵机生成点已标准化的有L 2的 长 度 为1。何总的意见可以使之间关系的欧几里德距离和余弦相似性当引导程序具有L 2规 范1?因 为 所 有 的100000点落在曲线上,有一种功能关系欧几里德距离和余弦相似性的标准化数据。更具体地说,是一种逆
28、向的关系 余弦相似性和欧几 里 德距离。例如,如果两个数据点都是相同的,它们的余弦相似性是一种和他们的欧几里德距离为零,但如果两个数据点都有很高的欧几里德距离、他们的余弦值是接近于零。注意的是,所有的样例数据点是从积极的象限,即仅有积极的价值。这意味着所有的余弦(和关联值将是积极的。(e)图2.1(b)显示了这种关系的关联到欧几里德10万distancefor随机生成的点都已标准化,有的意思是0,标 准 差 为1。何总的意见可以使之间关系的欧几里德距离和关联当引导程序已经标准化的意思0、标 准 偏 差 为1?同先前的答覆,但与关联取代余弦。(0源之间的数学关系余弦相似性和欧几里德距离每个数据对
29、象都有L 2的长度 为1。让x和y是两个向量的每个引导程序已有L 2的 长 度 为1。对于这种媒 介 的 差 异 仅 仅 是n次的总和,其方形的属性值和两者之间的媒介是他们点的产品除以。d(x.y)=(以一块产 k=l=犹一2以 探+蟾 k=l=J1-2cos(x,y)+1=/2(l-cos(x,y)(g)源之间的数学关 系 的 关 联 和Euclideandistance在每个数据点都已进行了标准化,减去它的意思和除以其标准偏差。让x和y是两个向量的每个向量的平均值为0,标 准 偏 差 为1。对于这种 媒 介 的 差 异(标 准 偏 差 的 平 方)是 次的总和,其方形的属性值和两者之间的媒
30、介是 他 们 点 的 产 品 除以。d(x,y)=.(以 一队)2 k=l=碌一2外 兴+优 k=l=Jn 2ncorr(x,y)+冗,272.(1 一 更正(x,y)2 1.显示设置的不同度量的HA,U -B)的 大 小 枚B-4)符合指标定理给出第70页 上。月 和8是 设 置 和4-8的 差 值。(一)关系操转相除(b)之间的关系欧几里德距离和角度的余弦值测量距离和关联。图2.1。图为演习20日。第1条)。这是因为一组是大于或等于0,d(x,y)0。3.First,note that d(A,B)=size(A)+size(B)-2size(A n B).1cM书/埠 C =s?e(4)
31、+gze(C)+2stze(B)2size(AnB)2size(B1(b).if A=%then A-B=B-A=empty set and thus d(x,y)=02.d(A,B)=size(A B)+size(B A)=size(B A)+size(A 8)=d(,、/)焊接钢菅.-no因 为大小(A n s)w大 小 和 大 小(B n o w大 小(扮、()+()size(A)+size()+2size()-2size()=size(A)+s/ze size(A)+size(C)-2size(A nC)=d(A.C)d(A,C)00 i f corr 0对于预测的行为的一种时间序列从
32、另一,有必要考虑强烈的负面影响,以及强烈 的 积 极 的、相 互 关 联 的。在这种情况下,下 面 的 转 换、sim=|更正I可能是适 当 的。请注意,这一假定您只想要预测的规模,而不是方向。23.给定的一种相似性测量值的时间间隔 0、1介绍两个waysto转换这一相似性值的差异值在时间间隔 0,8。d=1和 d=-logs 24.近距离通常定义对之间的对象。(a)定义了两个方法,你可能定义的接近在海湾小组的对象。两个例子如下:(一)基于轮换的感应,即最小成对的相似性或成对的最大差异,或(i i)在欧几里德空间计算质心(意味着所有的点请参阅第8.2节)然后计算的总和或平均值的点的距离的中点。
33、(b)您如何定义两点之间的距离的点的集合在欧几里德空间吗?一种方法是计算距离质心之间的两个点集的。您如何定义接近两个数据集对象?(作出任何假设的数据对象,但一近距离测量的定义任何一对对象。)一种方法是计算得到的平均成对近距离的对象的一组对象中的对象组。其他的办法都是采取最小或最大距离。请注意,凝聚力的群集相关的概念接近的一组对象之间的分离的群集相关的概念接近,两个组的对象。(请 参 阅8.4节。)此外,靠近两个群集是一种重要的概念在种种机遇的分层结构的群集。(请参阅第8.2节)。25.你 是 给 定 的 一 组 点的欧几里德空间,以及远距离的 每 个 点 在S点 的X。(不要 紧 如 果x G
34、 S。)(a)如果我们的目标是要找到所有的点指定距离内 的 点y、Y=X、解释如何可以使用三角上的不平等和已计算的距离为x,可能减少距离计算的需要吗?提 示:在三角地的不平等现象,d(x,z)W/(x,y)+d(y,x)、可重写为 d(x,y)d(x、z)d(y,z)。不幸的是,有的打字错误,缺乏明确的提示。提示应如下所示:提 示:如 果Z是 一 种 任 意 点 的S然 后 是 三 角 的 不 平 等 现 象,d(x,y)W d(x,z)+d(y,z),可以写成 d(x,y)d(x、z)。另 一 应 用 程 序 的 三 角 不 平 等 从 成x,z)W d(x,y)+d(y,z)显示,d(y,
35、z)d(x、z)-d(x,y)。如果下限,d(y,z)从这些不平等现象是大于,然后d(y,z)不 需 要 计 算。另外,如 果 上 面 的 绑 定,d(y,z)获得的不平等d(y,z)d(y,x)+d(x、z)的值小于或等于,则d(x、z)不 需 要 计 算。(b)总的,如何将之 间 的 距 离x轴 和y轴的数量产生影响的距离计算?如 果x =y然后没有任何计算都是必要的。作 为x变到更远的地方,通常更多的远距离的计算是有需要的。假设,你 可 以 找 到 一 小 部 分 点S从原始的数据集,每点的数据集指定距离内,至 少 有 一 点 在S和,你也有成对的距离 矩 阵。介绍了一种使用此信息来计算
36、最短的距离计算,设置的所有接入点的距离范围内的/的指 定 点 的数据集。让x和y是 两 个 点 并 让x*和y 的 点 在S中最接近的两个点,分 别。如 果”(x,y*)+2 e W 0我 们 可 以 有 把 握 地 断 定d(x,y)W 。同样的,如果我们可以有把握地断定”(x*,y*)-2 e 2 0成x,y)/。这些公式都是派生的,考 虑 的 情 况 下x和y是 远 的x*和y*作为远或接近的。2 6.显 示1个 减 号J a c c a r d相似性是一种距离测量t w o d a t a之 间 的 对 象 的x和y满足指标定理给出第7 0页 上。具体来说,成x,y)=l-J(x,y)
37、。第 1 条)。因为 J(x,y)W l,成x,y)2 0。1(b)因为 J(x,x)=l,成x,x)=02 个。因为 J(x,y)=J(y,x),成x,y)=d(y,x)3。(证明 由 于J e f f r e y U l l m a n)m i nh a s h(x)是索引的第一非零 项 的x。伙m i nh a s h(x)=左)上的概率t h a m i nh a s h(x)=左 当x为 随 机交换。请 注意,j D r o Z s e p a l w i d t h 花瓣长度 花 瓣 宽 度。对于鲜 屑 型、糜 烂 型 足 和V i r g i n i i c a、s e p a
38、l l e n g t h s e p a l w i d t h和花瓣长度 花瓣宽度,但s e p a l l e n g t h 花 瓣 长 度、花 瓣 长 度 s e p a l w i d t h 01 0 .评论使用的框图来探索数据集与四个属性:年 龄、体 重、身 高、和 收 入。A 大量的信息可通过查找(1)”框 中 每 个p l o t s f o r属 性 和(2)框图的特定属性的各种类别的第二个属性。例如,如果我们比较一下框图的年龄的不同类别的年龄,我们就会看到,重量随年龄增加而上升。11.给出一种可能的解释,说明为什么大多数值的花瓣长度andwidth落在桶沿对角的 图3.
39、9。我们希望这种分布的三个品种的 综合注册资讯系统可以根据它们的大小,如果花瓣长度和宽度都是相关关系,厂的规模和每个其他。12.使 用 数 字3.14和3.15到识别的特点,和petal w idth花 瓣 长 度 属 性。23有一种相对平坦的曲线上的经验性的民防部队和分位点别出心裁的两片花瓣长度和宽度的花瓣。这表示一组鲜花,这些属性都有相对稳定的值。13.简单的线图,如 图2.12的5 6页 的、两 个whichshows时间序列,可以用来有效地显示高维数据。例如,在 图56很容易判断的频率的两个时间序列是不同的。有什么特点的时间系列允许的有效可视化高维数据吗?该属性的值是有序的。14.描述
40、的各种情况下产生稀疏或密集数据的多维数据集文件中说明的例子以外使用的通讯簿。任何的数据集的所有组合的价值是不大可能发生的将会产生稀疏的多维数据集。这将包括集的连续属性的一组对象的属性并不占据整个数据空间,但只有其中的一小部分,以及离散的属性,其中的许多组合值不发生。A 密集的多维数据集将会出现,当几乎所有的测试项目组合”类别中的基本属性会发生 或总的水平足够高,以便所有的组合都可能有值的。例如,考虑一种数据集包含类型的交通意外,以及它的位置和日期。原始数据的多维数据集将会十分稀疏,但如果它是聚合的类别包括单一的或多个车祸,意外的发生,在这个月里发生,然后我们就会获得一种密集的多维数据集。15.
41、您如何延长的概念的多层面数据的分析,以便使该目标变量是一种定性的变量?换句话说,什么类型的摘要统计信息或数据的可视化效果会有兴趣吗?A 摘要统计信息,将有利于将频率值withwhich或 组合的价值、目标和其他形 式 的 出 现。从这我们可以从条件之间相互关系的不同的值。反过来,这些关系可以显示使用的图形相似,用于显示贝叶斯算法的网络。16.构 建 多 维 数 据 集 的 表3.1。这是密集或稀疏数据立方体”。如 果 它 是 稀 疏 的、确定的单元格均为空。“多维数据集的表3.2。它是一种高密度的多维数据集;只有两个单元格都是空 的。表3.1。事实表的练习16。表3.2。多维数据集的练习16。
42、产品标识号位置识别号。销售数量11101 2 3总1316一2,1510 0 616222225 22 027总15 22 643位置识别号。17日。讨论之间的差别维度性减少基于聚合和维度性减少基于技术如PCA和SVD。的 维 度 性PCA或SVD可以被视为一种投影的数据放到缩小的尺寸。在 聚 合、团体的层面是结合在一起的。在某些情况下,如当天都汇聚到个月或六个月的销售一种产品的汇总,存储位置的聚合可以被视为一种改变分摊比额表。相比之下,维度性减少提供的PCA和SVD没有作出这种解释。4分类:基本概念、决 策 树、和型号。评价1.绘制完整的决策树的奇偶校验功能的四个布尔属性,4、B、C和D。它
43、可以简化的树吗?图4.1。决策树用于奇偶校验功能的四个布尔型属性。前面的树不能简化的。2.考虑培训的例子如表4.1所 示 的binary class!ficationproblem 表4.1。数据集的练习2。客户标识性别车型衬衫尺寸类别1M家庭小C 02M体育中等C 03M体育中等C 04M体育大C 05M体育超大C 06M体育超大C 07F体育小C 08F体育小C 09F体育中等C 010F豪华大C 011M家庭大C 112M家庭超大C 113M家庭中等C 114M豪华超大C 115F豪华小C 116F豪华小C 117F豪华中等C 118F豪华中等C 119F豪华中等C 120F豪华大C 1
44、(a)计算的基尼指数全面收集培训的例子。答:基尼系数=1-2 x 0.52=0.5。(b)计 算 的 基 尼 指 数 为“客 户 标 识”属 性。答:坚尼对于每个 客 户ID的 值 为0。因此,总的来说基尼系数的 客 户ID为0。(c)计 算 的 基 尼 指 数 的 性 别 属 性。答:坚尼的 男性 为1-2 x 0.52=0.5。坚尼 女 也0.5。因此,总的来说基尼系数的 性别 0.5 x 0.5+0.5 x 0.5=0.5。表4.2。数据集的 练 习3。实例1 2 3目标类1T T 1.+02T T 6.+03TF F 5.-+4F 04.05F T 7.-6F T 0-(d)计 算 的
45、7F FF 3.基尼指数 车型 属性使用的多 路 分8T 0-+离。答:8.坚 尼0的 家 庭 车0.375、体 育 汽 车0、豪华 车 是7.0.2188。总的基尼系数为0.1625。(e)计 算 的0基尼指数 衬衫尺寸 属性使用的多9F T 5.路 分 离。答:0坚尼的 小 衬衫的尺寸是0.4 8,中等 尺寸的衬衫是0.4898、宽 大 的T恤 尺 寸 是0.5,和 超 大 的T恤 尺 寸 是0.5。总 的 坚 尼 的 球 衣 大 小 属 性 为0.4914。哪些属性是更好的、性 别、车 型、或 衬 衫 的 尺 寸?答:车 型,因为它的基尼系数最低的三个属性。(g)解释为什么 客户标识 不
46、应被用作属性测试条件即使它具有最低的基尼系数。答:该特性没有预测能力,因为新客户分配给新的 客 户ID。3.考虑培训的例子中所示的表4.2的binary classificationproblem(a)什么是嫡的这一收集培训的例子respect to积极的类?答:有四个正面的例子和五个负面的例子。因此,P(+)=4/9 and P()=5/-4/91og2(4/9)-5/9 log(5/第9。嫡 的 训 练 实 例2 9)=0.二 一 一 二 九 九 一 一。(b)什 么 是 信 息 增 益 的 和z相对这些培训的例子吗?对 于 属 性1,相 应 的 计 教 和 概 率 比:嫡 的1是4g-(
47、3/4)log2(3/4)-(l/4)log2(l/4)5,+-(l/5)log2(l/5)-(4/5)log2(4/5)=0.7616因此,信 息 增 益 的 是0.二一一二九九-0.第12条健康权203-22153=022942557。对 于 属 性2 .相 应 的 计 数 和 慨 奉 是:嫡 的29-(2/5)log2(2/5)-(3/5)log2(3/5)4+-(2/4)log2(2/4)-(2/4)log2(2/4)=0.9839因此,信 息 增 益 的zO。二一一二九九-0.9839=0.0072 答:3-这 是 一 忖 逢 生 的 爆 性 计 算(X总 增 歹 为4个 可*t的
48、分 拆 3类的标签。拆分点炳。信息增益1.0+2.00.84840.14273.0-3.50.9885零点零零二六4.0+4.50.91830.07285.0-(d)什么是最好的拆分(a .&.根 据 信 感 的 网 程?答:根 据 信 息 的 增 益I产生最佳的拆分。5.0-5.50.98390.00726.0+6.50.97280.01837.07.0+7.50.88890.1022立好的拆分为3个时拆分点等于2。(e)什么是最好的拆分之间(a和 的的 分 类 期 决 奉?答:对 于 属 性 上 79 对 于 属 性2:精 读 率=4/9。因此,根据错误的发生率,I产生最佳的拆分。(0什
49、么是最好的拆分之间(a和的根据 基 尼 外 留?答:对 于 属 性1的 一-45O 1 (3/4)2-(1/4)2+1 _(1/5)2 _(4/5)2=0.3444“J y o对 于 属 性2 T-5 1 4g 1 一 (2/5产 _(3/5产+(2/4产 _ (2/4计=0.4889“。自在基尼指数为I是小,但它产生的更好地分 割。4个。显示嫡的节点永远不会增加后拆分成更小的后继路由器的节点。答:让?二 a,j c 表 示c类和才二 为,型,M 表 示k 的属性值的属性的才。在节点上的 拆 分 尤 嫡 是:E(Y)=-0()p(%)=p(%为)p(%)j=l j=l i=l(4.1)在那里我
50、们用的是,P(的)=E L.。(勺,为从法 的总的概率。拆 分 后 的 小、嫡 的 每 个 子 节 点X -xi :E(y|g)=-P(以 为)l og?P(%M/=i )(4.2)其 中R y/l x f)是 小 部 分 的 示 例 与 才=x/,属 于 类y j。嫡分割之后在才的加权平均信息量的子节点:kE(Y X)=P(g)E(Y|g)t=lk c=-P)P(切 睥)b g 2 P(%i=l j=k c=一 p(g,%)i og 2 P(如,=i?=i (4.3)P(%|g)x P(xi我们在那里用已知的事实是从概率论,/xi,y j)=of Y K i ve n X.).请注意,欧1|