《统计分析与SPSS的应用》课后练习答案.doc-.pdf

上传人:赵** 文档编号:43612796 上传时间:2022-09-17 格式:PDF 页数:35 大小:1.59MB
返回 下载 相关 举报
《统计分析与SPSS的应用》课后练习答案.doc-.pdf_第1页
第1页 / 共35页
《统计分析与SPSS的应用》课后练习答案.doc-.pdf_第2页
第2页 / 共35页
点击查看更多>>
资源描述

《《统计分析与SPSS的应用》课后练习答案.doc-.pdf》由会员分享,可在线阅读,更多相关《《统计分析与SPSS的应用》课后练习答案.doc-.pdf(35页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、?统计分析与 SPSS 的应用第五版?课后练习答案第一章练习题答案1、SPSS 的中文全名是:社会科学统计软件包后改名为:统计产品与效劳解决方案英文全名是:Statistical Package for the Social Science.(StatisticalProduct and Service Solutions)2、SPSS 的两个主要窗口是数据编辑器窗口和结果查看器窗口。数据编辑器窗口的主要功能是定义SPSS 数据的结构、录入编辑和管理待分析的数据;结果查看器窗口的主要功能是现实管理SPSS 统计分析结果、报表及图形。3、SPSS 的数据集:SPSS 运行时可同时翻开多个数据编辑

2、器窗口。每个数据编辑器窗口分别显示不同的数据集合简称数据集。活动数据集:其中只有一个数据集为当前数据集。SPSS 只对某时刻的当前数据集中的数据进行分析。4、SPSS 的三种根本运行方式:完全窗口菜单方式、程序运行方式、混合运行方式。完全窗口菜单方式:是指在使用 SPSS 的过程中,所有的分析操作都通过菜单、按钮、输入对话框等方式来完成,是一种最常见和最普遍的使用方式,最大优点是简洁和直观。程序运行方式:是指在使用 SPSS 的过程中,统计分析人员根据自己的需要,手工编写 SPSS 命令程序,然后将编写好的程序一次性提交给计算机执行。该方式适用于大规模的统计分析工作。混合运行方式:是前两者的综

3、合。5、.sav 是数据编辑器窗口中的SPSS 数据文件的扩展名.spv 是结果查看器窗口中的 SPSS 分析结果文件的扩展名.sps 是语法窗口中的 SPSS 程序6、SPSS 的数据加工和管理功能主要集中在 编辑、数据等菜单中;统计分析和绘图功能主要集中在 分析、图形等菜单中。7、概率抽样(probability sampling):也称随机抽样,是指按一定的概率以随机原那么抽取样本,抽取样本时每个单位都有一定的时机被抽中,每个单位被抽中的概率是的,或是可以计算出来的。概率抽样包括简单随机抽样、系统抽样 等距抽样、分层抽样 类型抽样、整群抽样、多阶段抽样等。简单随机抽样(simple ra

4、ndom sampling):从包括总体 N 个单位的抽样框中随机地抽取 n 个单位作为样本,每个单位抽入样本的概率是相等的。是最根本的抽样方法,是其它抽样方法的根底。优点:简单、直观,在抽样框完整时,可直接从中抽取样本,用样本统计量对总体参数进行估计比拟方便。局限性:当N 很大时,不易构造抽样框,抽出的单位很分散,给实施调查增加了困难。分层抽样(stratified sampling):将抽样单位按某种特征或某种规那么划分为不同的层,然后从不同的层中独立、随机地抽取样本。优点:保证样本的结构与总体的结构比拟相近,从而提高估计的精度,组织实施调查方便(当层是以行业或行政区划分时),既可以对总体

5、参数进行估计,也可以对各层的参数进行估计。整群抽样(cluster sampling):将总体中假设干个单位合并为组(群),抽样时直接抽取群,然后对选中群中的所有单位全部实施调查。优点:抽样时只需群的抽样框,可简化工作量;调查的地点相对集中,节省调查费用,方便调查的实施。缺点:估计的精度较差。系统抽样(systematic sampling):将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规那么确定其它样本单位,先从数字 1 到 k 之间随机抽取一个数字r 作为初始单位,以后依次取 r+k,r+2k等单位。优点:操作简便,可提高估

6、计的精度。缺点:对估计量方差的估计较困难。多阶段抽样(multi-stage sampling):先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出假设干个单位进行调查。群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样。优点:具有整群抽样的优点,保证样本相对集中,节约调查费用。在大规模的抽样调查中,经常被采用的方法。非概率抽样是指抽取样本时不是依据随机原那么,而是根据研究目的对数据的要求,采用某种方式从总体中抽出局部单位对其实施调查,包括方便抽样、自愿抽样、配额抽样、判断抽样和滚雪球抽样等。方便抽样:样本限于总体中易于抽

7、到的一局部。最常见的方便抽样是偶遇抽样,即研究者将在某一时间和环境中所遇到的每一总体单位均作为样本成员。“街头拦人法就是一种偶遇抽样。方便抽样是非随机抽样中最简单的方法,省时省钱,但样本代表性因受偶然因素的影响太大而得不到保证。自愿抽样:某些调查对被调查者来说是不愉快的、麻烦的,这时为方便起见就采用以自愿被调查者为调查样本的方法。判断抽样:研究人员从总体中选择那些被判断为最能代表总体的单位作样本的抽样方法。当研究者对自己的研究领域十分熟悉,对研究总体比拟了解时采用这种抽样方法,可获代表性较高的样本。这种抽样方法多应用于总体小而内部差异大的情况,以及在总体边界无法确定或因研究者的时间与人力、物力

8、有限时采用。滚雪球抽样:以假设干个具有所需特征的人为最初的调查对象,然后依靠他们提供认识的合格的调查对象,再由这些人提供第三批调查对象,依次类推,样本如同滚雪球般由小变大。滚雪球抽样多用于总体单位的信息缺乏或观察性研究的情况。这种抽样中有些分子最后仍无法找到,有些分子被提供者漏而不提,两者都可能造成误差。配额抽样也称定额抽样,是将总体依某种标准分层群;然后按照各层样本数与该层总体数成比例的原那么主观抽取样本。配额抽样与分层概率抽样很接近,最大的不同是分层概率抽样的各层样本是随机抽取的,而配额抽样的各层样本是非随机的。总体也可按照多种标准的组合分层(群),例如,在研究自杀问题时,考虑到婚姻与性别

9、都可能对自杀有影响,可将研究对象分为未婚男性、已婚男性、未婚女性和已婚女性四个组,然后从各群非随机地抽样。配额抽样是通常使用的非概率抽样方法,样本除所选标识外无法保证代表性。8、利用 SPSS 进行数据分析的一般步骤:数据的准备-数据的加工处理-数据的分析-分析结果的阅读和解释。第二章练习题答案1、SPSS 中两个根本的数据组织方式:原始数据的组织方式和计数数据的组织方式。原始数据的组织方式:待分析的数据是一些原始的调查问卷数据,或是一些根本的统计指标。计数数据的组织方式:所采集的数据不是原始的调查问卷数据,而是经过分组汇总后的数据。2、个案:在原始数据的组织方式中,数据编辑器窗口中的一行称为

10、一个个案或观测。变量:数据编辑器窗口中的一列。3、默认的变量名:VAR-;默认的变量类型:数值型。变量名标签和变量值标签可增强统计分析结果的可读性。4、数据文件如下图:5、缺失值分为用户缺失值User Missing Value和系统缺失值System MissingValue。用户缺失值指在问卷调查中,将无答复的一些数据以及明显失真的数据当作缺失值来处理。用户缺失值的编码一般用研究者自己能够识别的数字来表示,如“0、“9、“99等。系统缺失值主要指计算机默认的缺失方式,如果在输入数据时空缺了某些数据或输入了非法的字符,计算机就把其界定为缺失值,这时的数据标记为一个圆点“。在变量视图中定义。6

11、、变量类型包括:数值型身高、定序型受教育程度以及定类型性别。在变量视图中定义。79 题 软件操作,答案略第三章练习题答案第三章练习题答案18 题 软件操作,答案略9、SPSS 排序功能仅实现将观测按用户指定顺序重新排列;拆分功能在按序排列的根底上,能够实现对数据按排序变量进行分组,并分组进行后续的统计分析。第四章练习题答案第四章练习题答案1、StatisticsStatisticsValidMissing户口所在地N户口所在地户口所在地中心城市Valid遥远郊区TotalFrequencyPercent2008228270.929.1100.0ValidPercent70.929.1100.0

12、CumulativePercent70.9100.0282028202820职业年龄职业职业国家机关商业效劳业文教卫生公交建筑业经营性公司学校一般农户种粮棉专业Valid 户种果菜专业户工商运专业户退役人员金融机构现役军人Total年龄年龄20 岁以下2035 岁Valid3550 岁50 岁以上TotalFrequencyPercent414691412821.451.832.314.5100.0ValidPercent1.451.832.314.5100.0CumulativePercent1.453.285.5100.0FrequencyPercent245418151815354103

13、4173532828.519.16.45.36.45.312.41.43.512.16.012.41.1100.0ValidPercent8.519.16.45.36.45.312.41.43.512.16.012.41.1100.0CumulativePercent8.527.734.039.445.751.163.564.968.480.586.598.9100.0分析:本次调查的有效样本为 282 份。常住地的分布状况是:在中心城市的人最多,有200 人,而在遥远郊区只有82 人;职业的分布状况是:在商业效劳业的人最多,其次是一般农户和金融机构;年龄方面:在35-50岁的人最多。由于变量

14、中无缺失数据,因此频数分布表中的百分比相同。2、分析:由表中可以看出,有效样本为282 份,存取款金额的均值是4738.09,标准差为10945.09,峰度系数为33.656,偏度系数为5.234。与标准正态分布曲线进行比照,由峰度系数可以看出,此表的存款金额的数据分布比标准正态分布更陡峭;由偏度系数可以看出,此表的存款金额的数据为右偏分布,说明此表的存款金额均值对平均水平的测度偏大。分析:由表中可以看出,中心城市有200 人,遥远郊区为 82 人。两局部样本存取款金额均呈右偏尖峰分布,且遥远郊区更明显。3、利用描述菜单下窗口对话框中的“将标准得分另存为变量功能实现。对标准分数变量按降序排列,

15、绝对值大于3 的可视为“与众不同的样本。理由:标准化值反映的是样本值与样本均值的差是几个标准差单位。如果标准化值等于0,那么表示该样本值等于样本均值;如果标准化值大于0,那么表示该样本值大于样本均值;如果标准化值小于 0,那么表示该样本值小于样本均值。如果标准化值的绝对值大于3,那么可认为是异常值。4、利用列联分析实现。首先编制列联表,然后进行卡方检验。以户口和收入的列联分析为例:表中,卡方统计量的观测值等于32.064,概率-P 值等于 0.001。假设显著性水平设为0.05,由于 0.0010.05,拒绝原假设,说明户口地与收入水平不独立。5、多项选择项分类法;存款的最主要目的是正常生活零

16、用6、计算结果:卡方统计量:2i1 j1rc(fijo fije)2feij,用于测度各个单元格的观测频数与期望频数的差异,并依卡方理论分布判断差异是否统计显著。由于期望频数代表的是行列变量独立下的分布,所以卡方值越大说明实际分布与期望分布差异越明显。本例中,由于概率 P 值小于显著性水平,应拒绝原假设,婆媳关系与住房条件有关系。7、将计数数据复原为原始数据,采用交叉分组下的频数分析,并进行卡方检验。表中,卡方统计量观测值为 4.339,对应的概率 P-值为 0.037,小于显著性水平 0.05,应拒绝原假设,说明减肥效果并不一致。8、多项选择项二分法;102794 份、101514 份、40

17、1400 份赚钱比例:30.3%,赔钱比例 38%主要依据:根本因素法;最少依据:更跟方法采用列联分析。卡方检验结果说明:专职和业余投资者在投资结果上存在显著差异。9、1变量:汽车价格、居住地区;类型:定序型变量、定类型变量2上述是计数数据的组织方式,应首先组织到 SPSS 的数据编辑器窗口中,再利用交叉分组下的频数分析方法。列联分析。原假设:不同居住区的私家车主接受的汽车价格具有一致性的。上表可知,如果显著性水平为 0.05,由于卡方检验的概率P-值小于显著性水平,因此应拒绝原假设。第五章练习题答案第五章练习题答案1、采用单样本 T 检验原假设 H0:u=u0=75,总体均值与检验值之间不存

18、在显著差异;One-Sample StatisticsOne-Sample StatisticsVAR00001One-Sample TestOne-Sample TesttdfSig.(2-tailed)VAR00001-.44210.668Test Value=75MeanDifference-1.2727395%Confidence Interval ofthe DifferenceLower-7.6891Upper5.1436NMean1173.7273Std.Deviation9.55082Std.ErrorMean2.87968分析:N=11 人的平均值mean为73.7,标准差

19、std.deviation为9.55,均值标准误差(stderror mean)为 2.87。t 统计量的观测值为-4.22,t 统计量观测值的双尾概率P-值 sig.(2-tailed)为 0.668;六七列是总体均值与原假设值差的 95%的置信区间:(-7.68,5.14)。采用双尾检验比拟 a 和 p。T 统计量观测值的双尾概率 p-值sig.(2-tailed)为 0.668a=0.05 所以不能拒绝原设;且总体均值的 95%的置信区间为(67.31,80.14),检验值 75 包括在置信区间内,所以经理的话是可信的。2、每周上网时间的样本平均值为27.5,标准差为 10.7,总体均值

20、 95%的置信区间为 23.8-31.2.3、利用两独立样本的T 检验实现,本质为两个总体比例差的检验。首先将计数数据通过加权功能复原为原始数据,然后,采用两独立样本 T 检验实现。检验变量为行为,分组变量为方式。Group Statisticsa2方式方式一方式二N200183Mean.4600.8798Std.Deviation.49965.32611Std.ErrorMean.03533.02411分析:从上表可以看出票丢仍买的人数比例为46%,钱丢仍买的人数比例为88%,两种方式的样本比例有较大差距。1.两总体方差是否相等 F 检验:F 的统计量的观察值为 257.98,对应的P 值为

21、 0.00,;如果显著性水平为0.05,由于概率 P 值小于 0.05,两种方式的方差有显著差异。看假设方差不相等行的结果。2.两总体均值比例差的检验:.T 统计量的观测值为-9.815,对应的双尾概率为0.00,T统计量对应的概率P值0.05,故推翻原假设,说明两总体比例有显著差异.更倾向心理学家的说法。4、此题是单个总体的比例检验问题。首先将数据组织成计数方式,并以数量为加权变量复原为原始数据。然后,采用独立样本的 T 检验实现。检验变量为是否开兰花,检验值为 0.75。分析:由表知:样本中 200 棵开兰花的比例为 71%。如果总体比例的原假设为 0.75,由于 T 统计量的概率 P 值

22、大于显著性水平0.05,不能拒绝原假设,不能说与遗传模型不一致。5、方式一:采用两配对样本t 检验Paired Samples StatisticsPaired Samples Statistics饲料 1饲料 2Mean32.57834.267N99Std.DeviationPair 1Paired Samples CorrelationsPaired Samples Correlations饲料 1&饲料2NCorrelationPair 1Paired Samples TestPaired Samples TestMeanStd.DeviationPaired DifferencesSt

23、d.ErrorMean95%ConfidenceInterval of theDifferenceLowerPair 饲料 1-1.681饲料 2894.63671.5456-5.2529Upper1.8752-1.0938.306tdfSig.(2-tailed)9.571.108Sig.3.81085.5993Std.ErrorMean1.27031.8664由上表可知,t 统计量观测值为-1.093,概率P-值为 0.306,大于显著性水平0.05,不应拒绝原假设,不能认为不同饲料使幼鼠体内钙的留存量出现了显著不同。方式二:采用两独立样本t 检验由上面的表可知,两组残留的样本平均值差异不

24、大。由下表可知,该检验的 F 统计量的观测值为 0.059,对应的概率 P-值为 0.811。如果显著性水平为 0.05,那么可以认为两总体的方差无显著差异。两总体均值的检验应看第一行。T 统计量的观测值为-0.584,P-值为 0.566,。如果显著性水平为 0.05,那么不应拒绝原假设,不能认为两饲料残留有显著差异。6、两独立样本 T 检验分析:1.两总体方差是否相等用 F 检验:F 的统计量的观察值为 0.257,对应的 P 值为 0.614,;如果显著性水平为0.05,由于概率P值大于0.05,两种方式的方差无显著差异.看假设方差相等行。2.两总体均值的检验:T 统计量的观测值为-0.

25、573,对应的双尾概率为 0.569,T 统计量对应的 P 值显著水平 0.05,故不能拒绝原假设,不能认为女生男生的课程平均分有显著差异。7、利用配对样本 T 检验,逐对检验8、由第一个表知,培训前和培训后样本的平均值mean有一定差异,培训后平均值较大;表二说明,在显著性水平为0.05 时,培训前后的销售量有一定的线性关系;由表三知,t 检验统计量的观测值为-2.3,对应的双尾概率 p-值为 0.04,小于显著水平 a=0.05,应拒绝原假设,培训前后的销售平均值存在显著差异。第六章练习题答案第六章练习题答案1、1ANOVAANOVAVAR00002Between GroupsWithin

26、 GroupsTotal概率 P-值接近于 0,应拒绝原假设,认为5 种推销方法有显著差异。2均值图:Sum ofSquares405.534269.737675.27143034101.3848.99111.276.000dfMean SquareFSig.Multiple ComparisonsDependent Variable:VAR00002 LSD(I)VAR00001(J)VAR00001MeanDifference(I-J)2134512345132451423515234-3.3000.72863.0571-6.70003.30004.02866.3571-3.4000-.7

27、286-4.02862.3286-7.4286-3.0571-6.3571-2.3286-9.75716.70003.40007.42869.7571*Std.Error1.60281.60281.60281.60281.60281.60281.60281.60281.60281.60281.60281.60281.60281.60281.60281.60281.60281.60281.60281.6028Sig.95%Confidence IntervalLower BoundUpper Bound.048.653.066.000.048.018.000.042.653.018.157.00

28、0.066.000.157.000.000.042.000.000-6.573-2.545-.216-9.973.027.7553.084-6.673-4.002-7.302-.945-10.702-6.330-9.630-5.602-13.0303.427.1274.1556.484-.0274.0026.330-3.4276.5737.3029.630-.1272.545-.7555.602-4.155.216-3.084.945-6.4849.9736.67310.70213.030*.The mean difference is significant at the 0.05 leve

29、l.可知,1 和 2、1 和 5、2 和 3,2 和 4,2 和 5,3 和 5,4 和 5 有显著差异。2、2.4;3.1;3、因 F 检验的概率 P 值小于显著性水平0.05,拒绝原假设,方差不齐,不满足方差分析的前提假设。1104.128;2629.118;67;24.206各组均值存在显著差异。更适合第三组4、Between-Subjects FactorsBetween-Subjects Factors1.00地区2.003.001.00日期2.003.00Tests of Between-Subjects EffectsTests of Between-Subjects Effec

30、tsDependent Variable:销售量SourceCorrectedModela1a2a1*a2ErrorTotalCorrectedTotalType III Sumof Squares61851851.852844481481.4812296296.2962740740.74156814814.81516666666.667923000000.00078518518.519aValue Label地区一地区二地区三周一至周三周四至周五周末N999999dfMean SquareFSig.87731481.4811844481481.4818.350912.0401.2401.48

31、015.340.000.000.313.254.00021148148.14821370370.370414203703.70418925925.9262726a.R Squared=.788(Adjusted R Squared=.693)分析:(2)由上表可知,Fa1、Fa2的概率P-值为0.313和0.254,大于显著性水平0.05,所以不应拒绝原假设,可以认为不同地区和日期下的销售额总体均值不存在显著差异,不同地区和不同日期对该商品的销售没有产生显著影响。(3)产生了交互影响。因为概率P-值接近于0,拒绝原假设,认为不同地区和日期对销售额产生了显著的交互作用。5、Between-Sub

32、jects FactorsBetween-Subjects Factors性别Tests of Between-Subjects EffectsTests of Between-Subjects EffectsDependent Variable:得分SourceCorrectedModel性别性别*ErrorTotalCorrectedTotalType III Sumof Squares1028.12534732.0425.0421001.04222.042324.83336085.0001352.958aValue Label1.002.001.002.00女男使用不使用N1212121

33、2dfMean SquareFSig.31111202423342.70821.101.000.000.584.000.25834732.0422138.4535.0421001.04222.04216.242.31061.6341.357a.R Squared=.760(Adjusted R Squared=.724)分析:就性别而言,因为概率P-值=0.584,大于显著性水平0.05,所以不应拒绝原假设,认为性别对驾驶状态无显著影响;就使用情况而言,因为概率 P-值接近 0,应拒绝原假设,认为使用情况对驾驶状态存在显著影响。6、在剔除加盟时间的影响下,因 P-值小于 0.05,应拒绝原假设

34、,两种培训方式效果有显著差异。第七章练习题答案1、卡方检验因概率 P 值小于显著性水平0.05,拒绝原假设,不同年龄度对该商品满意程度不一致。2、单样本 K-S 检验因概率 P 值小于显著性水平0.05,拒绝原假设,与正态分布存在显著差异。3、单样本游程检验因概率 P 值小于显著性水平0.05,拒绝原假设,认为成品尺寸的变化是由生产线工作不稳定导致的。4、两独立样本的 K-S 检验因概率 P 值大于显著性水平0.05,不应拒绝原假设,认为不同地区本次存取款金额的分布不存在显著差异。5、两独立样本的曼-惠特尼检验因概率 P 值小于显著性水平0.05,应拒绝原假设,两品牌白糖实际重量的分布存在显著

35、差异6、略7、两配对样本的秩检验因概率 P 值小于显著性水平0.05,应拒绝原假设,喝酒前后刹车反映时间存在显著差异8、多配对样本的 friedman 检验因概率 P 值大于显著性水平0.05,不应拒绝原假设,三个品牌牛奶的日销售数据不存在显著差异。第八章练习题答案第八章练习题答案1、能。CorrelationsPearson客户满意度CorrelationSig.(2-tailed)NPearson综合竞争力CorrelationSig.(2-tailed)N(2-tailed).两者的简单相关系数为 0.864,说明存在正的强相关性。2、香烟消耗量与肺癌死亡率的散点图15.864.0001

36、515*客户满意度1综合竞争力.864.000151*.Correlation is significant at the 0.01 level相关系数为 0.737。因概率P 值小于显著性水平0.05,拒绝原假设,认为两者存在显著关系。3.(1)如果所绘制的图形不能较清晰地展示变量之间的关系,应对散点图进行调整。在SPSS查看器窗口中选中相应的散点图双击鼠标,进入SPSS 图形编辑器窗口。选中【选项】菜单下的【块元素】子菜单进行数据合并。2CorrelationsControl VariablesCorrelation家庭收入销售额Significance(2-tailed)df销售价格 C

37、orrelation销售额销售价格1.000.0-.728-.728.02671.000Significance(2-tailed)df.0267.0如表所示,在家庭收入作为控制变量的条件下,销售额和价格的偏相关系数为-0.728,呈一定的负相关关系,且统计显著。第九章练习题答案第九章练习题答案1、2、相关分析是回归分析的根底和前提,回归分析那么是相关分析的深入和继续。相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析那么需要依靠相关分析来表现变量之间数量变化的相关程度。只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。如果在没有对变量之间是否相关以及相

38、关方向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回归。与此同时,相关分析只研究变量之间相关的方向和程度,不能推断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况,因此,在具体应用过程中,只有把相关分析和回归分析结合起来,才能到达研究和分析的目的。3、检验其可信程度并找出哪些变量的影响显著、哪些不显著。主要包括回归方程的拟合优度检验、显著性检验、回归系数的显著性检验、残差分析等。4、向前、向后、逐步。5、方法:采用逐步回归策略。结论:粮食总产量的主要因素有施用化肥量(kg/公顷),农业劳动者人数(百万人),总播种面积(万公顷),风灾面积比例(%)。6、1

39、2026774.1;1431812.6;3;26;55069.7154;72.8Y=7589.1X1-117.886X2+80.6X3+0.5X4回归方程显著性检验:整体线性关系显著回归系数显著性检验:各个回归系数检验均显著7、因概率 P 值小于显著性水平0.05,所以说明在控制了性别之后,阅读成绩对数学成绩有显著的线性影响。8、采用二次曲线第十章练习题答案第十章练习题答案1、采用欧氏距离,组间平均链锁法利用凝聚状态表中的组间距离和对应的组数,回归散点图,得到碎石图。大约聚成4 类由图可知,北京自成一类,江苏、广东、上海、湖南、湖北聚成一类。其他略。均值比照,依据聚类解,利用分类汇总,计算各个

40、聚类变量的均值方差分析结果:不同组在各个聚类变量上的均值均存在显著差异。2、数量级将对距离产生较大影响,并影响最终聚类结果。3、会。如果所选变量之间存在较强的线性关系,能够相互替代,在计算距离时同类变量将重复“奉献,占有较高权重,而使最终的聚类结果偏向该类变量。4、K-Means 聚类分析步骤:确定聚类数目 K-确定 K 个初始类中心点-根据距离最近原那么进行分类-重新确定 K个类中心点-判断是否已经满足终止条件。是一个反复迭代的分类过程。在聚类过程中,样本所属的类会不断调整,直至到达最终稳定为止。5、聚成 3 类较为恰当。第十一章练习题答案第十一章练习题答案1、因子分析的主要步骤:一、前提条

41、件:要求原有变量之间存在较强的相关关系。二、因子提取。三、使因子具有命名解释性:使提取出的因子实际含义清晰。四、计算样本的因子得分。2、“根本建设投资分析因子分析1Correlation MatrixCorrelation Matrix国家预算内资金国内贷款Correlation利用外资自筹资金其他投资国家预算内资金1.000.458.229.331.211国内贷款.4581.000.746.744.686利用外资.229.7461.000.864.776自筹资金.331.744.8641.000.928其他投资.211.686.776.9281.000表一是原有变量的相关系数矩阵。由表可知,

42、一些变量的相关系数都较高,呈较强的线性关系,能够从中提取公共因子,适合进行因子分析。KMO and Bartletts TestKMO and Bartletts TestKaiser-Meyer-Olkin Measure of Sampling Adequacy.Approx.Chi-SquareBartlettsSphericityTestofdfSig.706119.61410.000由表二可知,巴特利特球度检验统计量的观测值为119.614,相应的概率P-值接近 0.如果显著性水平为 0.05,由于概率 P-值小于显著性水平,那么应拒绝原假设,认为相关系数矩阵与单位阵有显著差异,原有

43、变量适合做因子分析。同时,KMO 值为 0.706,根据 KMO度量标准可知原有变量可以进行因子分析。CommunalitiesCommunalities国家预算内资金国内贷款利用外资自筹资金其他投资InitialExtraction1.0001.0001.0001.0001.000.196.769.820.920.821Extraction Method:Principal ComponentAnalysis.由表三可知,利用外资、自筹资金、其他投资等变量的绝大局部信息大于 80%可被因子解释,这些变量的信息丧失较少。但国家预算内资金这个变量的信息丧失较为严重 近80%。总的来说,本次因子提

44、取的总体效果还不错。为了到达更好的效果,可以重新指定提取特征值的标准,指定提取2 个因子。补充说明如下:故由表四可知,第 1 个因子的特征值很高,对解释原有变量的奉献最大;第三个以后的因子特征值都较小,对解释原有变量的奉献很小,可以忽略,因此选取两个因子是适宜的。表五:重新提取因子后的公因子方差表CommunalitiesCommunalities国家预算内资金国内贷款利用外资自筹资金其他投资InitialExtraction1.0001.0001.0001.0001.000.975.795.860.937.882Extraction Method:Principal ComponentAna

45、lysis.表五是指定提取 2 个特征值下的变量共同度数据。由第二列数据可知,此时所有变量的共同度均较高,各个变量的信息丧失都较少。因此,本次因子提取的总体效果比拟理想。Total Variance ExplainedTotal Variance ExplainedComponentTotal1233.526.923.306Initial Eigenvalues%of VarianceCumulative%70.51818.4526.11270.51888.97095.082Extraction Sums of Squared LoadingsTotal3.526%of VarianceCum

46、ulative%70.51870.51845.200.0463.993.92599.075100.000Extraction Method:Principal Component Analysis.Total Variance ExplainedTotal Variance ExplainedComponentInitial EigenvaluesTotal%ofVariance123453.526.923.306.200.04670.51818.4526.1123.993.925Cumulative%70.51888.97095.08299.075100.0003.526.923Extrac

47、tion Sums of Squared LoadingsRotation Sums of Squared LoadingsTotal%ofVariance70.51818.452Cumulative%70.51888.9703.2441.204Total%ofVariance64.88924.081Cumulative%64.88988.970Extraction Method:Principal Component Analysis.表六中,第一个因子的特征值为 3.526,解释原有 5 个变量总方差的 70.5%,累计方差奉献率为 70.5%;第二个因子的特征值为 0.923,解释原有

48、7 个变量总方差的 18%,累计方差奉献率为 88.97%.2Component MatrixComponent MatrixComponent1自筹资金其他投资利用外资国内贷款国家预算内资金a.2 components extracted.959.906.906.877.4432-.132-.247-.199.160.882a a表七显示了因子载荷矩阵。由表可知,自筹资金、其他投资、利用外资和国内贷款四个变量在第一个因子上的载荷都较高,意味着它们与第一个因子的相关程度高,第一个因子很重要;第二个因子除了与国家预算内资金相关程度较高外,与其他的原有变量相关性较小,对原有变量的解释作用不明显。下

49、表采用方差极大法对因子载荷矩阵实行正交旋转以使因子具有命名解释性。指定按第一个因子载荷降序的顺序输出旋转后的因子载荷,并绘制旋转后的因子载荷图。Rotated Component MatrixRotated Component MatrixComponent1自筹资金其他投资利用外资国内贷款国家预算内资金.949.937.921.775.1282.190.064.110.440.979a a由表可知,自筹资金、其他投资和利用外资在第 1 个因子上有较高的载荷,第一个因子主要解释了这几个变量,可解释为外部投资;国内贷款和国家预算内资金在第2 个因子上有较高的载荷,第二个因子主要解释了这几个变量,

50、可解释为内部投资。与旋转前相比,因子含义较清晰。3、“消费结构因子分析(1)各变量共同度如下:食品的变量共同度为0.8432+-0.4352=0.8999,其他类似。衣着为0.827居住为0.788家庭设备用品及效劳为0.806医疗保健为0.747交通和通信为0.915教育文化娱乐效劳为0.936杂项商品和效劳为0.814变量共同度刻画了因子全体对变量信息解释的程度。此题中大多数原有变量的变量共同度均较高全部变量共同度都大于70%,大局部大于80%,说明提取的因子可以解释原有变量的大局部信息,仅有较少的信息丧失,因子分析的效果较好。个因子变量的方差奉献如下:第一个因子的方差奉献为S12=0.8

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 高考资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁