《SPSS期末大作业.docx》由会员分享,可在线阅读,更多相关《SPSS期末大作业.docx(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据分析方法及软件应用课程作业学号: 姓名: 柏喜红 班级: 1306 北京交通大学2013年10月第5题:方差分析(2)分析思路根据所给的表定义变量,进而进行数据录入。在进行单因素和多因素对销售量的影响分析的时候,应先提出相应的零假设,进而选择检验统计量,对检验统计量进行计算,并计算出概率P值,将计算出的概率P值与给定的显著性水平进行比较,做出相应的决策。目标一:给出SPSS数据集格式定义变量,进行数据录入。从题意以及所给的表中可以得出,这里有四个变量,分别为销售地点、销售方式、月份和销售量。其中,销售地点和销售方式为控制变量,月份为随机变量,销售量为观测变量,结合所给的表,进行数据的录入,
2、录入四十个观测变量值。图1 变量视图图2 数据视图目标二:分析销售地点对销售量的影响(1)操作步骤第一步:提出零假设。零假设H0是“销售地区对销售量没有产生显著影响”。第二步:选择检验统计量,并计算检验统计量的观测值和概率P值。选择菜单【分析比较均值单因素】将销售量指定到【因变量列表(E)】中,将销售地区指定到【因子(F)】中,点击确定按钮,出现图3所示的结果。图3 单因素方差分析销售量平方和df均方F显著性组间254.600463.6501.107.369组内2013.0003557.514总数2267.60039第三步:给定显著性水平a=0.05,根据表1,做出决策。(2)结果分析从图3中
3、可以看出,观测变量销售量的总变差(2267.600)中“销售地区”可解释的变差为254.600,抽样误差引起的变差为2013.000,他们的方差为63.650和57.514,相除所得的F统计量为1.107,对应的概率P值接近于0.369。(3)结论因为显著性水平a=0.05,概率P值大于a,因而应接受原假设,认为不同的销售地区度销售量不产生显著影响。 目标三:分析销售地点、销售方式和他们的交互作用对对销售量的影响(1)操作步骤第一步:提出零假设。零假设H0是“销售地区对销售量没有产生显著影响,销售方式对销售量没有产生显著影响,销售地区和销售方式对销售量没有产生显著的交互影响。”第二步:选择检验
4、统计量,并计算检验统计量的观测值和概率P值。选择菜单【分析一般线性模型单变量】;将销售量指定到【因变量(D)】中,将销售地区和销售方式指定到【固定因子(F)】中,将月份指定到【随机因子(A)】中;点击“模型”按钮,在指定因子中选择【设定】,在构建项中选择【交互】,将销售地区、销售方式以及销售地区*销售方式指定到【模型(M)】中,点击“继续”按钮;点击“确定”按钮,出现如图4所示的结果:图4 主体间效应的检验因变量: 销售量源III 型平方和df均方FSig.校正模型2156.60019113.50520.451.000截距.4001.40048579.532.000销售地区254.600463
5、.65011.468.000销售方式1193.8003397.93371.700.000销售方式 * 销售地区708.2001259.01710.634.000误差111.000205.550总计.00040校正的总计2267.60039a. R 方 = .951(调整 R 方 = .905)第三步:给出显著性水平a=0.05,做出决策。(2)结果分析从图4中所示的结果可以看出,第一列是对销售量总变差分解的说明,第二列是对销售量变差分析的结果,第三列是自由度,第四列是均方,第五列是对F检验量的观察值,第六列是检验统计量的概率P值。从图中可以看到,销售量的总变差为2267.600,他被分解为四个
6、部分,分别是销售地区不同引起的变差(254.600),销售方式不同引起的变差(1193.800),销售方式与销售地区交互作用引起的变差(708.200)以及随机因素引起的变差(111.000)。这些变差除以各自的自由度后,得到各自的均方,可计算出各F检验统计量的观测值和在一定自由度下的概率P值,概率P值分别为0.00,0.00和0.00.(3)结论因为显著性水平a=0.05,概率P值小于显著性水平,因而应拒绝原假设,认为不同的销售地区、不同的销售方式和销售地区与销售方式的交互作用均为销售量带来了影响。这与单因素分析时得到的结果并不相同,本人认为可能因为随机变量月份的存在所导致的结果。R方为0.
7、951,调整后的R方为0.905,因而拟合度还是比较高的。第9题:回归分析(4)分析思路根据题中所给的解释变量和被解释变量建立多元回归模型,利用回归方程的统计检验对建立的多元回归模型进行检验,首先对解释变量采取强行进入策略,分析他们之间的线性关系以及多重共线性;然后对解释变量采用向前筛选策略,做方差齐性和残差的自相关性检验。(1)操作步骤第一步:确定多元回归方程中的解释变量和被解释变量。以课题总数Y为被解释变量,解释变量为投入人年数X1、投入科研事业费X2、论文数X3、获奖数X4。第二步:建立多元线性回归模型。1)强制进入,分析线性关系和多重共线性选择菜单中【分析回归线性】将课题总数指定到【因
8、变量(D)】中,将销售地区和销售方式指定到【固定因子(F)】中,将投入人年数、投入科研事业费、论文数和获奖数指定到【自变量(I)】中,在【方法(M)】框中选择回归分析中解释变量的筛选策略为“进入”。点击“统计量(S)”按钮,在回归系数框中选择【估计(E)】,在回归分析框的右边选中【模型拟合度(M)】、【R方变化(S)】、【描述性】和【共线性判断(L)】,在残差框中选择【Durbin-Watson(U)】和【个案诊断(C)】,点击“继续”按钮。点击“绘制”按钮,在线性回归中,指定*ZPRED给“Y”,指定*ZRESID给“X”,在标准化残差图中选【正态概率图(R)】,点击“继续”按钮。点击“保存
9、”按钮,将预测值和均值均选中“标准化”。点击“确定”按钮,出现如下图5、图6、图7和图8。(2)结果分析及结论图5 相关性从图5中可以看出投入人年数、投入科研事业费、论文数、获奖数对课题总数的的相关性还是比较强的,其中投入人年数与课题总数的相关性最为显著。图6 模型汇总依据图6,从调整的R方(0.927)可以看出,回归方程的拟合度较高,并且Durbin-Watson(1.776)在1.5和2.5之间,因而可以用线性回归模型来拟合数据。图7 系数图8 共线性诊断从图7中可以看出,容忍度均小于0.5,并且论文数的容差为0.075,接近于0,方差膨胀因子投入人年数和论文数都大于10,因而有理由认为这
10、些变量之间存在着多重共线性;依据图8,从方差比可以看出,第5个特征根既能解释投入人年数方差的93%,又能解释论文数方差的87%,因而有理由认为这些变量之间存在着多重共线性;再从条件指数来看,第5个条件指数大于10,认为其共线性较强。2)采用“向前进入”策略,残差的自相关性检验和方差齐性。(1)操作步骤选择菜单中【分析回归线性】;将课题总数指定到【因变量(D)】中,将销售地区和销售方式指定到【固定因子(F)】中,将投入人年数、投入科研事业费、论文数和获奖数指定到【自变量(I)】中,在【方法(M)】框中选择回归分析中解释变量的筛选策略为“向前+”。点击“统计量(S)”按钮,在回归系数框中选择【估计
11、(E)】,在残差框中选择【Durbin-Watson(U)】和【个案诊断(C)】,点击“继续”按钮;点击“确定”按钮,出现如图7、图8、图9所示。(2)结果分析及结论图9 模型汇总图10 观察的累积频率图11 回归标准化残差从图9中可以看出,Durbin-Watson(1.776)在1.5和2.5之间,因而残差序列相对独立;从图10中可以看出,数据点围绕基准线存在一定的规律性,近似服从标准正态分布,即残差均值为0,因而残差序列相对独立,方差齐性良好;从图11中可以看出,回归标准化残差及预测值均在3个标准差范围内,无异常点,且数据点无明显规律,因而残差序列相对独立。 第11题:聚类分析(1)分析
12、思路因为销量和价格和其他变量存在着数量级上的差异,因而首先需要对销量和价格进行标准化。其次,根据车种类型,对汽车销售样本数据进行层次聚类分析,将11种车型分为三类,其中个体距离采用欧式距离,类间距离采用平均组间链锁距离。最后用频数分析对各类的竞争力进行评价。(1)操作步骤第一步:对变量进行标准化。选择菜单中【分析描述统计描述】,将销量和价格指定到变量中,选中“将标准化得分另存为变量”,点击“确定”按钮。第二步:层次聚类分析。选择菜单中【分析分类系统聚类】;将引擎型号、马力、轴距、宽度、长度、限重、储油量、用油效率和标准化后的销量和价格指定到“变量”框中,将车型指定到“标注个案”框中,在“聚类”
13、中选择“个案”,在“输出”中选择“统计量”和“图”; 点击“统计量”按钮,选择“合并进程表”,在【聚类成员】框汇总选择【单一方案聚类数:3】,点击“继续“按钮;点击“绘制”按钮,选中“树状图”,在【冰柱】框中选择“所有聚类”,在【方向】框中选择“垂直”,点击“继续”按钮;点击“方法”按钮,在【聚类方法】框中选择“组间联接”,在【度量标准】框中选择【区间Euclidean距离】,在【标准化】框中选择“Z”得分,点击“继续”按钮;点击“保存”按钮,在【聚类成员】框中选择【单一方案聚类数:3】,点击“继续”按钮;点击“确定”按钮,出现如图12、图13、图14所示。图12 聚类表图13 冰柱图图14
14、树状图(2)结果分析及结论从图13、图14可以看出,Focushe和 Civic相似性较高且较早地聚为了一类,Accord 和Gamry相似性较高且较早地聚为了一类,Malibu 和Grand Am相似性较高且较早的局为了一类。根据题意,将11种车型分为三类,从图中可以看出,Cavalier 、Focus、 Civic和 Corolla为一类(第1类),Malibu、Impala、Grand Am 和Mus tang为一类(第2类),Taurus、Accord和Camry为一类(第3类)。第三步:对各类的竞争力情况进行判别分析如图15所示,对各类的竞争力情况分析,则主要通过对各类的销量和价格均
15、值的乘积进行比较,即可得出各类的竞争力情况。Cavalier、Focus、Civic和Corolla为第1类,它的销量和价格之积为(121.89675*19.17625),Malibu、Impala、Grand Am 和Mus tang为第2类,它的销量和价格之积为(165.85225*12.89200),Taurus、Accord和Camry为第3类,它的销量和价格之积为(241.57033*16.91767),三类进行对比,可以看出第三类Taurus、Accord和Camry的竞争力最强,第一类Cavalier、Focus、Civic和Corolla的竞争力次之,Malibu、Impala、Grand Am 和Mus tang的竞争力最弱。图15 各类竞争力情况分析