SPSS统计软件课程作业(11页).doc

上传人:1595****071 文档编号:35409815 上传时间:2022-08-21 格式:DOC 页数:11 大小:337.50KB
返回 下载 相关 举报
SPSS统计软件课程作业(11页).doc_第1页
第1页 / 共11页
SPSS统计软件课程作业(11页).doc_第2页
第2页 / 共11页
点击查看更多>>
资源描述

《SPSS统计软件课程作业(11页).doc》由会员分享,可在线阅读,更多相关《SPSS统计软件课程作业(11页).doc(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、-SPSS统计软件课程作业-第 11 页SPSS统计软件课程作业 信计111 刘晓蕾1. 某单位对100名女生测定血清总蛋白含量,数据如下:75.0 73.5 78.8 74.3 75.8 65.0 74.3 7167.2 计算样本均值、中位数、方差、标准差、最大值、最小值、极差、偏度和峰度,并给出均值的置信水平为95%的置信区间。第1步 数据组织:定义1个变量为:“血清总蛋白含量”,其度量标准为“度量”。第2步 探索分析设置:选择菜单“分析 描述统计 探索”,打开“探索” 对话框,将“血清总蛋白含量”字段移入“因变量列表”。 打开“统计量”对话框,选中“描述性”选项;打开“探索:图”对话框,

2、选中“按因子水平分组”、“茎叶图”、“带检验的正态图”、“直方图”等选项。打开“探索:选项”,选中“按列表排除个案”选项。第3步 运行结果及分析:描述统计量标准误血清总蛋白含量均值.39389均值的 95% 置信区间下限上限5% 修整均值中值方差标准差极小值极大值范围四分位距偏度.054.241峰度.037.478表中显示“血清总蛋白含量”的描述性统计量,左表中只显示的是均值、均值的95%置信区间的上下限、中值、方差、标准差、极大/小值、偏度、峰度等 2. 绘出习题1所给数据的直方图、盒形图和QQ图,并判断该数据是否服从正态分布。上图为标准Q-Q图,Q-Q图可以用来检验数据是否服从某种分布,在

3、Q-Q图中,检验数据是否较好地服从给定分布的标准有两个:看标准Q-Q图上的数据点与直线的重合度;Q-Q趋势图上的点是否关于直线Y=0在较小的范围内上下波动。从上图中可以看出,题目中的数据与直线重合度较好,故很好地服从正态分布,这与前面的正态检验表中的结果是一致的箱图中显示血清蛋白总含量数据绘制成对应的箱体。每一个箱体上方那条线的取值代表该分组中最大值,下方那条线的取值代表最小值。箱体自身的三条线从上到下分别代表3/4分位点、中位点、1/4分位点的取值。正态性检验Kolmogorov-SmirnovaShapiro-Wilk统计量dfSig.统计量dfSig.血清总蛋白含量.073100.200

4、*.990100.671a. Lilliefors 显著水平修正*. 这是真实显著水平的下限。表中显示了血清总蛋白含量的两种检验方法的正态性检验结果,包括各分组的统计量、自由度及显著性水平,以K-S方法的分析:其自由度sig.=0.200,明显大于,故应接受原假设,认为题中数据服从正态分布3. 正常男子血小板计数均值为, 今测得20名男性油漆工作者的血小板计数值(单位:)如下: 220 188 162 230 145 160 238 188 247 113 126 245 164 231 256 183 190 158 224 175问油漆工人的血小板计数与正常成年男子有无异常? 分析:这是一

5、个典型的比较样本均值和总体均值的T检验问题 ;第1步 数据组织:首先建立SPSS数据文件,只需建立一个变量“血小板计数”,录入相应的数据即可第2步 单样本T检验分析设置选择菜单“分析比较均值单样本T检验(S)”,打开 “单样本T检验” 对话框,将变量“血小板计数”移入”检验变量”列表框,并输入检验值225;打开“单样本T检验:选项”对话框 ,设置置信区间为95%(缺省为95%);单个样本统计量N均值标准差均值的标准误血小板计数20上表给出了单样本T检验的描述性统计量,包括样本数(N)、均值、标准差、均值的标准误。 单个样本检验检验值 = 225 tdfSig.(双侧)均值差值差分的 95% 置

6、信区间下限上限血小板计数19.003本例置信水平为95%,显著性水平为0.05,从上表中可以看出,双尾检测概率P值为0.003,小于0.05,故原假设不成立,也就是说,男性油漆工作者的血小板与有显著性差异,无理由相信油漆工人的血小板计数与正常成年男子无异常。4. 在某次考试中,随机抽取男女学生的成绩各10名,数据如下: 男:99 79 59 89 79 89 99 82 80 85 女:88 54 56 23 75 65 73 50 80 65假设总体服从正态分布,比较男女得分是否有显著性差异。第1步 数据组织:在SPSS数据文件中建立两个变量,分别为“性别”、“成绩”,度量标准分别为“名义”

7、、“度量”,变量“品种”的值标签为:b男生,g女生,录入数据。第2步 独立样本T检验设置:选择菜单 “选择比较均值独立样本T检验”,打开“独立样本T检验”对话框,将“成绩” 作为要进行T检验的变量,将“性别”字段作为分组变量,定义分组变量的两个分组分别为“b”和“g”。 打开“独立样本T检验:选项”对话框,具体选项内容及设置与单样本T检验相同。 组统计量性别N均值标准差均值的标准误成绩男生10女生10上表给出了本例独立样本T检验的基本描述统计量,包括两个样本的均值、标准差和均值的标准误。 独立样本检验方差方程的 Levene 检验均值方程的 t 检验差分的 95% 置信区间FSig.tdfSi

8、g.(双侧)均值差值标准误差值下限上限成绩假设方差相等.22118.007假设方差不相等.008根据上表“方差方程的 Levene 检验”中的sig.为0.221,远大于设定的显著性水平0.05,故本例两组数据方差相等。在方差相等的情况下,独立样本T检验的结果应该看上表中的“假设方差相等”一行,第5列为相应的双尾检测概率(Sig.(双侧)为0.007,在显著性水平为0.05的情况下,T统计量的概率p值小,故应拒绝零假设,,即认为两样本的均值不是相等的,在本例中,能认为男女得分绩有显著性差异。 5. 设有5种治疗荨麻疹的药,要比较它们的疗效。假设将30个病人分成5组,每组6人,令同组病人使用一种

9、药,并记录病人从使用药物开始到痊愈所需时间,得到下面的记录:药物类别治愈所需天数15,8,7,7,10,824,6,6,3,5,636,4,4,5,4,347,4,6,6,3,559,3,5,7,7,6问所有药物的效果是否一样?第1步 分析:由于考虑的是一个控制变量(药物)对一个观测变量(治愈所需天数)的影响,而且是五种药物,所以不适宜用独立样本T检验(仅适用两组数据),应采用单因素方差分析。第2步 数据的组织:数据分成两列,一列是治愈所需天数,变量名为“治愈所需天数”,另一变量是药物种类(变量值分别为1,2,3,4,5),变量名为“药物种类”,输入数据并保存。 第3步 方差相等的齐性检验:由

10、于方差分析的前提是各个水平下(这里是不同的药物种类影响下的治愈所需天数)的总体服从方差相等的正态分布,且各组方差具有齐性。其中正态分布的要求并不是很严格,但对于方差相等的要求是比较严格的,因此必须对方差相等的前提进行检验。 误差方差等同性的 Levene 检验a因变量:治愈所需天数Fdf1df2Sig.552425.699检验零假设,即在所有组中因变量的误差方差均相等。a. 设计 : 截距 + 药物类别方差齐性检验的H0假设是:方差相等。从上表可看出相伴根据Sig.=0.699(0.05)说明应该接受H0假设(即方差相等)。故下面就用方差相等的检验方法。 ANOVA治愈所需天数平方和df均方F

11、显著性组间4.014组内25总数29上表是几种饲料方差分析的结果,组间(Between Groups)平方和(Sum of Squares)为36.467,自由度(df)为4,均方为9.117;组内(Within Groups)平方和为58.500,自由度为25,均方为2.340;F统计量为3.896。由于组间比较的相伴概率Sig.(p值)=0.0140.05,故应拒绝H0假设(四种饲料喂猪效果无显著差异),说明五种药物对治愈所需天数有显著性差异。第4步 多重比较分析:通过上面的步骤,只能判断4种饲料喂猪效果是否有显著差异。如果想进一步了解究竟是哪种药物与其他组有显著性的均值差别(即哪种药物更

12、好)等细节问题,就需要在多个样本均值间进行两两比较。由于第3步检验出来方差具有齐性,故选择一种方差相等的方法,这里选LSD方法;显著性水平默认取;多个比较治愈所需天数LSD(I) 药物类别(J) 药物类别均值差值 (I-J)标准 误差Sig.95% 置信区间下限上限类别1类别2*.88318.009.6811类别3*.88318.001类别4*.88318.014.5144类别5.88318.144523类别2类别1*.88318.009类别3.6667.88318.457类别4.88318.852类别5.88318.198.6523类别3类别1*.88318.001类别2.88318.457

13、类别4.88318.354.9856类别5*.88318.048类别4类别1*.88318.014类别2.1667.88318.852类别3.8333.88318.354类别5.88318.268.8189类别5类别1.88318.144.4856类别2.88318.198类别3*.88318.048.0144类别4.88318.268基于观测到的均值。 误差项为均值方 (错误。*. 均值差值在 .05 级别上较显著。从整个表反映出来五种药物相互之间均存在显著性差异,从效果来看是第3种最好,其次是第2种,第1种最差。 上图为几种药物均值的折线图,可以看出均值分布比较陡峭,均值差异也较大。6.

14、某公司在各地区销售一种特殊化妆品。该公司观测了15 个城市在某月内对该化妆品的销售量Y及各地区适合使用该化妆品的人数X1和人均收入X2,得到数据如下: 地区销售(箱)人数(千人)人均收入(元)116227424502120180325432233753802413120528385678623476169265378278198300881923302450911619521371055532560112524304020122323724427131442362660141031572088152123702605(1) 画出这三个变量的两两散点图,并计算出两两之间的相关系数。(2)试建立Y

15、与X1,X2之间的线性回归方程,并研究相应的统计推断问题,同时预测适合购买此化妆品的人数为220千人,人均收入为2500元的某城市对该化妆品的销量。第1步 分析:这是一个因变量和两个自变量之间的问题,故应该考虑用二元线性回归解决。第2步 数据组织:定义三个变量,分别为“z”(销售量)、“x”(人数)、“y”(人均收入)。第3步 一元线性回归分析设置:选择菜单“分析回归线性”,打开“线性回归”对话框,将变量“销售量”作为因变量 ,“人数”和“人均收入”作为自变量。打开“统计量”对话框,选上“估计”和“模型拟合度”。单击“绘制(T)”按钮,打开“线性回归:图”对话框,选用DEPENDENT作为y轴

16、,*ZPRED为x轴作图。并且选择“直方图”和“正态概率图” 作相应的保存选项设置,如预测值、残差和距离等。输入移去的变量模型输入的变量移去的变量方法1人均收入, 人数a.输入a. 已输入所有请求的变量。表中显示回归模型编号、进入模型的变量、移出模型的变量和变量的筛选方法。可以看出,进入模型的自变量为“销售量” 模型汇总b模型RR 方调整 R 方标准 估计的误差1.999a.999.999a. 预测变量: (常量), 人均收入, 人数。b. 因变量: 销售量99,说明自变量与因变量之间的相关性很强。R方(R299,说明自变量“销售量”可以解释因变量“人数”和“人均收入”的99.9%的差异性。

17、Anovab模型平方和df均方FSig.1回归2.000a残差12总计14a. 预测变量: (常量), 人均收入, 人数。b. 因变量: 销售量表中显示因变量的方差来源、方差平方和、自由度、均方、F检验统计量的观测值和显著性水平。方差来源有回归、残差。从表中可以看出,F统计量的观测值为5679.466,显著性概率为,即检验假设“H0:回归系数B = 0”成立的概率为,从而应拒绝原假设,说明因变量和自变量的线性关系是非常显著的,可建立线性模型。系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量).181人数.496.006.934.000人均收入.009.001.108.000a

18、. 因变量: 销售量表中显示回归模型的常数项、非标准化的回归系数B值及其标准误差、标准化的回归系数值、统计量t值以及显著性水平(Sig.)。从表中可看出,回归模型的常数项为3.453,自变量“人数”的回归系数为0.496,“人均收入”的回归系数为0.009.因此,可以得出回归方程:销售量=+ 人均收入。回归系数的显著性水平为0.000,明显小于0.05,故应拒绝T检验的原假设,这也说明了回归系数的显著性,说明建立线性模型是恰当的。当购买此化妆品的人数为220千人,人均收入为2500元时,该城市该化妆品的销量为:销售量=220系数a模型非标准化系数标准系数tSig.相关性B标准 误差试用版零阶偏

19、部分1(常量).181人数.496.006.934.000.995.999.768人均收入.009.001.108.000.639.940.089a. 因变量: 销售量7. 研究青春发育阶段的年龄和远视率的变化关系,测得数据如下年龄6789101112131415161718远视率请对年龄与远视率的关系进行曲线估计。第1步 分析:先用散点图的形式进行分析,看究竟是否具有一元线性关系,如果具有一元线性关系,则用一元线性回归分析,否则采用曲线估计求解。第2步 数据组织:定义为两个变量,分别是“x”(年龄)、“y”(远视率),输入数据并保存。第3步 作散点图初步判定变量的分布趋势:第4步 进行曲线估

20、计:依次选择菜单“分析回归曲线估计”,将所有模型全部选上,看哪种模型拟合效果更好(主要看决定系数R2),其所有模型的拟合优度R2如下表所示。模型汇总和参数估计值因变量:远视率方程模型汇总参数估计值R 方Fdf1Df2Sig.常数b1b2b3线性.75819.000对数.85119.000倒数.91219.000二次.95328.000三次.95637.000复合.92519.000.658幂.93419.000S.90119.000增长.92519.000指数.92519.000Logistic.92519.000.001自变量为 年龄。从决定系数(R方即R2)来看,三次曲线效果最好(因为其R

21、2值最大),并且方差分析的显著性水平(Sig.)为0。故重新进行上面的过程,只选“三次曲线(Cubic)”一种模型。模型汇总RR 方调整 R 方估计值的标准误.978.956.937自变量为 年龄。复相关系数R = 0.978,R2 = 0.956,经校正后的R平方值为0.937。故可判断远视率与年龄之间有较显著的三次曲线关系ANOVA平方和Df均方FSig.回归3.000残差7总计10自变量为 年龄。相伴概率Sig.=0.000说明模型具有显著的统计学意义。系数未标准化系数标准化系数tSig.B标准误Beta年龄.111年龄 * 2.303年龄 * 3.076.529(常数).019从表中可

22、知因变量与自变量的三次回归模型为:y=xx2x3从图形上看出其拟合效果非常好。8. 谈谈你对数理统计和统计软件课程的学习心得和想法,有何收获,有何建议等。首先,能开统计软件这门课我感到十分的开心,因为这个软件的用途非常广泛,尤其是应用于数模竞赛。相比较于SAS和Stata,SPSS比较容易使用,上手也相对较快些,自然也比较适合我们这类新手来学习。关于数理统计,我想仅仅一个“难”字是无法来形容这门课的复杂多变,相对于上学期的概率论,这学期学的数理统计不仅需要扎实的概率论基础,而且要记得住各种类型的分析。着实把我唬到了!关于收获,用句简单的话来概括:学以致用,快乐无敌!至于建议嘛,希望老师能形象的讲授数理统计知识,因为真的不是那么好理解。统计软件嘛,只能靠多练练手来提高自己的能力了,毕竟师傅领进门,修行在个人。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 单元课程

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁