2023年数据分析方法与技术作业及超详细解析超详细解析答案.pdf-淘文阁

资源描述

《2023年数据分析方法与技术作业及超详细解析超详细解析答案.pdf》由会员分享，可在线阅读，更多相关《2023年数据分析方法与技术作业及超详细解析超详细解析答案.pdf（14页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、一、填写题（抄题，写答案）1.数据分析“六步曲”按顺序依次是：明确分析目的和内容、数据收集、数据处理、数据分析、数据展现、报告撰写。2.定量数据一般可分为计量的、计数的、二种类型。定性数据一般可分为有序的、名义的、二种类型。3.数据收集方法总的可分为一手数据、二手数据、两大类。前一类方法常用的具体方法有调查法、观察法、实验法；后一类方法常用的具体方法有机构查询、书刊查询、网络查询。4.SPSS 中有三种主要的工作窗口，它们是：数据编辑窗口、结果浏览窗口、程序编辑窗口；在进行数据表编辑时，有二种主要视图，它们是：数据视图、变量视图。5.SPSS 中对变量属性进行定义时，对变

2、量的命名在 Name 栏中设置，定义变量值标签在 Values 栏中设置。6.根据数据的计量性质，可以将数据分为定量的数据和定性的数据；根据数据获得的直接性，可以将数据分为一手数据和二手数据。7.统计检验的一种思路是：设定原假设 H0，构造相应的统计判断量，当根据实验数据或样本数据计算出的统计判断量落在拒绝区域，则拒绝原假设；反之，则落在接受区域，接受原假设。在 SPSS 软件的统计操作中，通过计算样本数据的实际显著性概率 Sig.，并将其与给定的显著性概率水平比较，当 Sig.”或“”），则拒绝原假设。8.方差分析主要用来判断样本数据之间的差异是由不可控的随机因素造

3、成的还是由研究中施加的对结果形成影响的可控因素造成的。9.因子分析法是多元统计分析中处理降维的一种，其最主要的工作是降维，即将具有错综复杂关系的变量或者样品综合为数量较少的几个因子，以再现原始变量与因子之间的相互关系。10.下图所示因子分析结果中，数值 6.845 的含义是第一主成分特征根，数值 84.421 的含义是前三个主成分的累计贡献率；在 Extraction Sums 块中，有三行数据，其含义是根据提取因子条件-特征值大于 1，共选出了三个公共因子。11.下图所示椭圆圈中信息的含义 11 变量，200 样例。12.强规则是指：同时满足最小支持度阈值和最小置信度阈值的

4、规则。13.Statistica 中实现聚类分析的过程是：Statistics/Multivariate Exploratory Techniques/Cluster Analysis 。14.在对二值变量定类数据的距离进行计算时，若认为所取两个值的地位不对等，则可以用雅克比匹配系数对距离进行度量。15.熵可以作为训练集的不纯度度量，熵越大，不纯度就越高（高或低）。决策树的分枝原则就是使划分后的样本的子集越纯越好，即它们的熵越小越好。16.C&RT 算法的全称是 Classification and Regression Trees，它所构成的决策树是二叉树，该算法用

5、gini 指标指标作为选择分枝方案的依据，在选择分枝方案时，需经两步完成，第一步，在每个节点处评估所有属性的每个标准问题的 gini 指标，第二步，选择 gini 指标最大的标准问题作为分枝方案。17.已知某数据集中某属性的不同取值为，2.6，1，2.9，2，5，4.2，2.3，3，则该属性的标准问题集为 Is A 1.5,Is A2.15,Is A2.45,Is A2.75,Is A2.95,Is A3.6,Is A4.6。18.已知某数据集中某属性的不同取值为，优，良，中，差，则该属性的标准问题集为 Is A 优，Is A良，Is A中，Is A优，良，Is A良，中，Is A优，中，I

6、s A优，良，中。二、单项选择题（抄题干及你认为正确的选项，图可以不画）1.Excel 中，当把 F7 单元格复制到 G8 单元格时出现了如下信息提示，关于这一现象，以下描述正确的是(C)。(A)G8 单元格的数据应该是 17，可能格式设置为小数点后 5 位，超过了单元格显示区域，出现此提示(B)C8 或 D8 单元格的数据有问题 (C)D8 和 E8 不能相加(D)F8 为空值，无法加总得到结果 2.在 Excel 中，要实现如下图所示的汇率换算，可以在 D5 单元格中输入（B），之后将它复制到下面的单元格，就可以实现不同币值的换算。(A)$C$2*C5 (B)=C$2*C5 (C)=6.9

7、12*786 (D)=C2*C5 3.以下关于 SPSS 中定义变量值标签的描述中，错误的是（C）(A)定义值标签可简化数据录入 (B)在显示数据表时，通过点击工具栏中的 Value Labels 按钮，可以在标签和值之间切换显示 (C)通过定义值标签可以为不同范围的数据定义不同的标签显示(D)值标签的定义可以实现只输入标签就可以输入实际的数据 4.SPSS19 版本中数据文件的扩展名是（A）(A).sav (B).sps (C).dat (D).xls 5.如果将数据分析方法论比喻成服装设计图，则服装制作中的平面、立体剪裁、合缝、包缝等相当于数据分析中的（C）(A)分析工具 (B)分析技术

8、(C)分析思路 (D)补充分析 6.以下统计量中，反映集中趋势的量有（B,C,E）(A)标准误 (B)平均值 (C)众数 (D)方差 (E)四分位数 7.以下关于 SPSS 中定义变量值标签的描述中，错误的是（C）(A)定义值标签可简化数据录入 (B)在显示数据表时，通过点击工具栏中的 Value Labels 按钮，可以在标签和值之间切换显示 (C)通过定义值标签可以为不同范围的数据定义不同的标签显示(D)值标签的定义可以实现只输入标签就可以输入实际的数据 8.SPSS 中实现二变量相关分析的过程是(A)。(A)【Analyze】/【Correlate】/【Bivariate】(B)【Ana

9、lyze】/【Compare Means】/【Bivariate】(C)【Analyze】/【Correlate】/【Partial】(D)【Analyze】/【Factor Analysis】9.因子分析中 KMO 检验的作用是（C）。(A)检验各因子的齐次性 (B)说明各原始变量与因子的相关性(C)检验因子分析的可行性 (D)其作用与 LSB 检验效果相同 10.EM 聚类主要基于（C）进行聚类。(A)样本点之间的距离 (B)样本点之间的相似度 (C)数理统计模型(D)熵函数的计算 11.以下关于信度的描述中，错误的是（D）：(A)信度是反映测量的稳定性与一致性的一个指标(B)大部分信度指

10、标都是以相关系数表示的(C)如果一个问卷在测试中不受调查环境各种因素的影响，就说该问卷的信度系数等于 1(D)问卷信度的高低，取决于我们对系统误差的控制程度 12.以下关于信度的描述中，正确的是（B）：(A)信度高，则效度一定高(B)效度高，则信度一定高(C)0.6 0.7 量表设计存在问题，但有参考价值(D)折半信度系数是从问卷中取出一半来计算其克朗巴哈系数 13.对数据挖掘这一概念的理解，以下描述错误的是（A）。(A)发现的知识要可接受、可理解，且要有普遍的指导意义(B)一般数据源是历史数据，具有相对的稳定性(C)发现的是用户感兴趣的知识(D)数据源必须是真实的、大量的、含噪声的 14.关

11、于下图所反映的关联规则分析结果，以下描述中错误的是（D）。(A)这里的关联规则可以描述为 IF Body THEN Head 的形式(B)IF(Gender=Male)Then(Pizza)的置信度是 70.12195%(C)在此题中，IF(Gender=Male)Then(Pizza)与 IF(Pizza)Then(Gender=Male)的支持度均相同，这是正确的 (D)在此题中 57.5%的支持度表示的是 Head supp。15.关于下图的描述中，错误的是（C）。(A)上图反映了质心之间的距离(B)上图反映了两个类之间的距离(C)这是 K-means聚类分析的结果，即基于分类的成批修改

12、法(D)类之间距离的计算方法有最长距离法、最短距离法等三、简答题（抄题干及分析，不用画图）1.区分如下四个概念：类型抽样、等距抽样、整群抽样、多阶段抽样。类型抽样类型抽样也称分层抽样，是将总体中的各单位按照某种特征或某种规则划分成若干个不同的类型组，然后从各类型组中独立、随机地抽取样本，再将各类型组的样本结合起来，对总体的目标量进行估计。等距抽样等距抽样又称系统抽样，是将总体中各单位按照某一标志顺序排列，在规定的范围内随机确定起点，然后按照一定的间隔抽取其他样本单位的抽样组织形式。整群抽样整群抽样是将总体各单位划分为若干群，然后以群为单位从中随机抽取一些群，对抽中群的所有单位都进行调查

13、的抽样组织形式。多阶段抽样多阶段抽样也称多级抽样或阶段抽样，是将对总体单位的整个抽样过程分为两个或更多个阶段进行，先从总体中抽选若干个大的样本群，称为第一阶段单位，然后从被抽中的若干个大的单位群中，抽选较小的样本单位，以此类推。2.为什么要进行数据清洗？1.重复数据处理 2.处理缺失数据 3.检查数据逻辑错误数据仓库中的数据是面向某一主题的数据的集合，这些数据从多个业务系统中抽取而来而且包含历史数据，这样就避免不了有的数据是错误数据、有的数据相互之间有冲突，这些错误的或有冲突的数据显然是我们不想要的，称为“脏数据”。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。3.数

14、据分析方法论与具体的数据分析方法有何区别？数据分析方法论与数据分析法的区别数据分析方法论主要用来指导数据分析师进行一个完整的数据分析，它更多的是指导数据分析思路，比如，主要从哪几个方面开展数据分析？各方面包含什么内容或指标？数据分析方法论从宏观角度指导如何进行数据分析，它就像是一个数据分析的前期规划，指导着后期数据分析工作的开展。而数据分析法则是指各种具体的方法，主要从微观层面指导如何进行数据分析。4.简述类型抽样与整群抽样的区别。5.在数据分析方法的层次上，5W2H 属于方法论还是具体的方法，简述其主要内容。方法论，具体内容：why（何因）what(何事)who（何人）when（何时）wh

15、ere(何地)how(如何做)how much(何价)。(1)WHAT-是什么?目的是什么?做什么工作?(2)HOW-怎么做?如何提高效率?如何实施?方法怎样?(3)WHY-为什么?为什么要这么做?理由何在?原因是什么?造成这样的结果为什么?(4)WHEN-何时?什么时间完成?什么时机最适宜?(5)WHERE-何处?在哪里做?从哪里入手?(6)WHO-谁?由谁来承担?谁来完成?谁负责?(7)HOW MUCH-多少?做到什么程度?数量如何?质量水平如何?费用产出如何?6.假设检验的总体思路是怎样的，简述之。(PPT 95)总思路是：1）根据问题的需要对所研究的总体作某种假设，记作 H0；2）选取

16、合适的统计量，这个统计量的选取要使得在假设 H0 成立时，其分布为已知；3）由实测的样本，计算出统计量的值，并根据预先给定的显著性水平进行检验，作出拒绝或接受假设 H0 的判断。7.以下为 SPSS 中相关分析的结果图，试对其进行分析。从上图可知，皮尔森相关系数是为-0.449，Sig.=0.013，样本量为 30，Sig.0.05，拒绝原假设，接收备选假设，即0 xy。即文盲率与人均 GDP 存在相关性，文盲率与人均 GDP 负相关，但是-0.5-0.4490，所以相关性较小。8.以下为 SPSS 中方差分析的结果图，试对其进行分析。从上图可知组间离差平方和为，组内离差平方和为，总离差平方

17、和为，自由度为分别为：，组间均方和为组内均方和为，Sig.Within Groups的值，即品种对平均亩产有较大的影响。9.根据下图说明此数据挖掘算法是什么，并说明图中各主要参数项的含义。自下而上的聚合型层次聚类，采用最短距离法，amalgamation(融合，混合)计算欧式距离，对原始数据中变量 1,3-4,6-8进行聚类，Casewise 对样本的智能处理，默认是在统计时不取该行数据。10.聚类算法和分类算法有哪些区别？各自的目标是什么？“聚类分析”往往预先不知道各分类集合的目标属性，只有通过其它已知属性按聚类算法得到分类之后，才去分析各分类的特征，归纳出目标属性。其方向是通过“聚”来得到

18、分类。例如对银行客户的划分。“分类分析”对于目标属性及其取值是已知的，其目标是在已知的数据集中去发现其它属性与目标属性的某种规则模型，这一模型要能对未知对象的目标属性进行准确预测。其方向是通过“分”来找到规则。但二者又是有关联的，例如，可以在聚类识别了新的目标属性的基础上，在原数据集上增加新的目标属性；针对这一新的数据集，再用分类算法去找到基于已有发生推导出目标属性归属的分类规则，并用来对未知数据分类。11.什么是 K-means方法，请描述其用途及基本思想。K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量 V 最优分类，使得评价指标 J 最小。算法采用误差平方和准则

19、函数作为聚类准则函数。其步骤为：1)在 n 个数据中选取 k 个作为凝聚点,并且定义点与点之间的距离;2)其余 n-k 个点逐个进入,每个点进入时归入与相应凝聚点距离最近的类中，每个点进入之后重新计算每一类的重心作为该类新的凝聚点;3)重复 2)直至所有类的凝聚点均不再变化为止 12.写出在决策树算法中熵和增益的计算定义式，并说明式中各变量的含义。S 的熵(entropy)或者期望信息为:21()logniiientropy Spp，式中，ip表示类iC的概率。根据 A 划分的子集的熵或期望信息由下式给出：1|(,)()|miiiSentropy S Aentropy SS，式中，Si 表示

20、根据属性 A 划分的 S 的第i个子集，|S|和|Si|分别表示 S 和Si中的样本数目。信息增益用来衡量熵的期望减少值，因此，使用属性 A 对 S 进行划分获得的信息增益为:(,)()(,)gain S Aentropy Sentropy S A。gain(S，A)是指因为知道属性 A的值后导致的熵的期望压缩。四、分析题（抄题干及分析，不用画图）1.下图是 Excel 中得到的某市衣着类消费指数与消费总指数的回归分析结果图，请对此图所反映的回归模型、拟合优度等信息进行分析。2.已知数据库 D 中有 9 个事务（如下表示），设最小支持度为 2，求出所有的频繁项集。另，设置信度为70%，列出三个

21、强规则。TID 项目集 1 I1,I2,I5 2 I2,I4 3 I2,I3 4 I1,I2,I4 5 I1,I3 6 I2,I3 7 I1,I3 8 I1,I2,I3,I5 9 I1,I2,I3 由频繁项集产生强关联规则 confidence(A B)=P(B|A)=_()_()Supportcount ABSupportcount A 基于找出的频繁项集 I=I1,I2,I5 可以产生的强关联规则：I2,I1 I5,confidence=2/4=50%I1,I5 I2,confidence=2/2=100%I2,I5 I1,confidence=2/2=100%I1 I2,I5,confi

22、dence=2/6=100%I2 I1,I5,confidence=2/7=29%I5 I1,I2,confidence=2/2=100%最小置信度阈值为 70%,则只有 2，3 和最后一个规则可以输出，这些就是产生的强规则。3.已知如下数据集，目标分类属性为 buys_computer，运用 ID3 算法求出该训练集在根节点的最佳分类。ID age income student Credit_rating Class:buys_computer 1 youth high no fair no 2 youth high no excellent no 3 middle_aged high no

23、 fair yes 4 senior medium no fair yes 5 senior low yes fair yes 6 senior low yes excellent no 7 middle_aged low yes excellent yes 8 youth medium no fair no 9 youth low yes fair yes 10 senior medium yes fair yes 11 youth medium yes excellent yes 12 middle_aged medium no excellent yes 13 middle_aged h

24、igh yes fair yes 14 senior medium no excellent no 首先计算该训练集的熵，根据熵公式，需知道各分类的概率，buys_computer=yes 的记录有 9 条，其概率为 9/14,记该集合为 C1 buys_computer=no 的记录有 5 条，其概率为 5/14,记该集合为 C2 229955()log()log()0.94014141414entropy S 位首先考察 age 这一分类属性，需要知道按 age 分类后的各子集的目标属性集的概率，age 的 youth 类有 5 个样本，其中有 2 个属于 C1 类，即 buys_com

25、puter=yes，3 个属于 C2类，即 buys_computer=no age 的 middle_aged 类有 4 个样本，4 个属于 C1 类，0 个属于 C2类 age 的 senior 类有 5 个样本，3 个属于 C1 类，2 个属于 C2类于是，有：222222522334440053322(,)(loglog)(loglog)(loglog)0.694145555144444145555entropy S age 位因此，属性 age 的增益为：gain(S,age)=entropy(S)entropy(S,age)=0.940 0.694=0.246 位同理，可计算

26、得：gain(S,income)=0.029 位 gain(S,student)=0.151 位 gain(S,credit_rating)=0.048 位可见，按属性 age 分类具有最高的增益，因此选择其为分枝属性。其分枝结果如下图示。3.已知三个病人五种参考症状的数据情况，计算各样本点之间的雅克比匹配系数；说明该参量的使用特点及其用途。病人症状 A B C D E 甲 1 1 0 1 0 乙 0 1 1 0 1 丙 1 1 1 0 1 使用雅克比系数，则两两之间的距离为 1=0.22+2+12=0.42+2+13=0.753+1ddd甲乙甲丙乙丙二值变量之间的距离可以用匹配系

27、数来描述。假定 xi 和 xj 取值情况如表 3-1所示。q 表示两个个体共有 q 个性质同时取 1,r 表示ix取 1,jx取 0 的性质共有 r 个,其他依此类推雅克比匹配系数：ijqdqrs 雅克比匹配系数适合于这样的情况:认为二值变量所取的两个值的地位不是完全对等的，人们往往只对其中一种取值感兴趣。总要求总体要求：1）对数据集分析目的及过程进行简要描述 2）列出主要输入参数设置画面截图 3）列出主要输出结果，并进行必要的分析 4）11 月 9 日前以电子文档形式发到教师邮箱 tpgao-，邮件及作业文档标题为“2015DA 作业 2+学号+姓名”5）将方差分析、相关分析的四个题目都

28、放在一个文档中 1.1 方差分析部分要求（含两道题）*基于数据集“district and sale”方差分析，以了解广告形式对销售额的影响要求：参照课程讲授示例输出所有分析结果*基于文档“教改成绩”进行方差分析，要求分析教材、教法对成绩的影响一、基于数据集“district and sale”方差分析*基于数据集“district and sale”方差分析，以了解广告形式对销售额的影响要求：参照课程讲授示例输出所有分析结果最后的数据分析结果如下：Test of Homogeneity of Variances 销售额 Levene Statistic df1 df2 Sig.765

29、 3 140.515 方差齐次性检验的结果，显著性概率值0.05，因此不能拒绝方差齐次的原假设，方差分析的前提成立。ANOVA 销售额 Sum of Squares df Mean Square F Sig.Between Groups 5866.083 3 1955.361 13.483 .000 Within Groups 20303.222 140 145.023 Total 26169.306 143 这是方差分析的最主要结果。各参量的含义参照教材、课件。根据样本所计算出的 Sig.值为 0.000，该值小于 0.01 的显著性水平，所以样本所反映出的因素影响的差异性是高度显著的。即，

30、结合问题的背景，广告形式的不同对销售额有显著影响，这种差异是由广告形式的本质差别所导致的，而不是由于采样的随机误差所产生的。1.2 相关分析部分要求（含两道题）一、“体重与血压”相关分析*基于“体重与血压”数据进行相关分析，计算 Person 相关系数并进行统计检验。直接选择 Weight 和 Pressure 作为分析变量进行两变量相关分析。可以输出基本的描述统计量。Descriptive Statistics Mean Std.Deviation N weight 63.8333 10.14292 12 pressure 118.3333 24.73986 12 这是描述性统计结果的各变量

31、均值及标准差。Correlations weight pressure weight Pearson Correlation 1-.112 Sig.(2-tailed).728 N 12 12 pressure Pearson Correlation-.112 1 Sig.(2-tailed).728 N 12 12 这是相关分析结果。从相关系数看，体重与血压的相关系数为 0.112，可见二者呈现负相关，且相关性很弱。但从统计判断看，即看其实际计算出的显著性概率，为 0.728，大于 0.05 的较高水平，所以从统计意义上，不能否定原假设，即认为变量之间不相关，所以从统计意义上，二变量是不相关

32、的。二、“居民收入与支出”相关分析*基于“居民收入与支出”，分析农村家庭纯收入 X3 与城镇居民家庭消费 X1 的相关性由于这里有第三个变量，即城镇家庭收入，考虑到该变量可能带来的影响，需要进行偏相关分析。为了解控制变量带来的影响，输出零阶相关分析矩阵以进行对照。Correlations（零阶偏相关分析）Control Variables 城镇居民家庭人均消费农村居民家庭人均纯收入城镇居民家庭人均可支配收入-none-a 城镇居民家庭人均消费 Correlation 1.000 .994 1.000 Significance(2-tailed).000 .000 df 0 13 13 农

33、村居民家庭人均纯收入 Correlation .994 1.000 .994 Significance(2-tailed).000 .000 df 13 0 13 城镇居民家庭人均可支配收入 Correlation 1.000 .994 1.000 Significance(2-tailed).000 .000 .df 13 13 0 由分析结果知，在不考虑控制变量的情况下，农村家庭纯收入 X3 与城镇居民家庭消费 X1 的相关性在统计意义上高度显著，且相关系数与很高。Correlations（一阶偏相关分析）Control Variables 城镇居民家庭人均消费农村居民家庭人均纯收入城镇居民家庭人均可支配收入城镇居民家庭人均可支配收入城镇居民家庭人均消费 Correlation 1.000 .022 Significance(2-tailed).939 df 0 12 农村居民家庭人均纯收入 Correlation .022 1.000 Significance(2-tailed).939 .df 12 0 但在考虑控制变量的情况下，农村家庭纯收入 X3 与城镇居民家庭消费 X1 的相关性在统计意义上是不被支持的，相关系数也很低。

展开阅读全文