SPSS实验报告151224.pdf

上传人:X** 文档编号:55885236 上传时间:2022-10-31 格式:PDF 页数:15 大小:1.55MB
返回 下载 相关 举报
SPSS实验报告151224.pdf_第1页
第1页 / 共15页
SPSS实验报告151224.pdf_第2页
第2页 / 共15页
点击查看更多>>
资源描述

《SPSS实验报告151224.pdf》由会员分享,可在线阅读,更多相关《SPSS实验报告151224.pdf(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、海纳百川,有容乃大;壁立千仞,无欲则刚。林则徐一寸光阴一寸金,寸金难买寸光阴。增广贤文重庆邮电大学课程报告 2016-2017 学年 第 2 学期 课程名称:数据分析方法与实训 姓 名:XX 学 号:*XXX 班 级:0104150X 专 业:信息工程 指导教师:*2017 年 7 月 2 日 人不知而不愠,不亦君子乎?论语丈夫志四方,有事先悬弧,焉能钧三江,终年守菰蒲。顾炎武(1)基于前述操作,继续在 myzy.sav 中完成以下任务:分别绘制语文、数学、外语成绩的箱体图,并对箱体图的输出结果进行解释。分别绘制语文、数学、外语成绩的茎叶图,并对茎叶图的输出结果进行解释。分别绘制语文、数学、外

2、语成绩的 Q-Q 图,并对 Q-Q 图的输出结果进行解释。箱体图操作方法:1)在 SPSS 中打开 yyyy.sav,处于“数据视图”状态。2)利用【分析】【描述统计】【探索】命令。3)变量“数学”从左侧列表移到右侧的“因变量列表”中;4)变量“姓名”从左侧列表移到右侧“标注个案”中;5)在“探索”对话框中,单击右侧【绘制】;6)在“探索.图”对话框中,从左上角的“箱图”选中【不分组】,“描述性”选中【茎叶图】,单击【继续】,【确定】。操作结果:图1.1关于语文的数据分析 图1.2关于语文的箱体图 输出结果分析:矩形中部的横线表明,语文的中位数为 84.50。箱体部分对应四分位间距,箱体外无数

3、据说明分值较为集中,无异常值(异常值被定义为小于Q11.5IQR或大于Q31.5IQR的值)图1.3关于数学的数据分析 图1.4关于数学的箱体图 输出结果分析:矩形中部的横线表明,语文的中位数为82.00。距离箱体很远的被标记“*”号的为极端值,“张一81”、“张一79”等为极端值。百学须先立志。朱熹先天下之忧而忧,后天下之乐而乐。范仲淹 图 1.5 关于外语的数据分析 图 1.6 关于外语的箱体图 输出结果分析:矩形中部的横线表明,语文的中位数为825.00。距离箱体很远的被标记“*”号的为极端值,“张一75”、“张一73”等为极端值。观测值位于触手之外但3倍箱体之内的个案位奇异值,标记为“

4、o”,“张一71”、“张一17”为奇异值。三个科目的茎叶图如下:图 1.7 语文 图 1.8 数学 图 1.9 外语 输出结果分析:“Frequency”:频数,“Stem”:茎,“Leaf”:叶子。“Stem width”=10,表明主干值乘以10.例如图1.7第二行中,“7.00 7.1122234”表明频数为7,主干为7,数值分别为:71、71、72、72、72、73、74。Q-Q图操作过程:选择【分析】【描述统计】【Q-Q图】,选择“语文”和“数学”,单击【确定】,制作。图1.10语文的正态Q-Q图 图1.11语文的趋降正态Q-Q图 其身正,不令而行;其身不正,虽令不从。论语百学须先立

5、志。朱熹 图1.12数学的正态Q-Q图 图1.11数学的趋降正态Q-Q图 图1.13外语的正态Q-Q图 图1.14外语的趋降正态Q-Q图 分析:正态Q-Q图,以成绩作为横坐标,以变量的Z分数作为纵坐标,以标志正态分布的Z分数值作为图中斜线。图1.10图中散点能够与斜线很好地吻合,图1.13图中散点能够与斜线较好地吻合,说明数据序列(语文、外语)符合正态分布。而图1.12中散点严重偏离斜线,则说明该数据序列(数学成绩)不符合正态分布。趋降正态Q-Q图,以成绩为横坐标,以变量的Z分数与标志正态分布的偏差作为纵坐标。因此,标志正态分布应该是中部的水平线。图1.11和图1.14垂直坐标轴范围分布为-3

6、1和-1010,所以语文和外语的符合正态分布。而数学的垂直范围为-4030,所以不符合正态分布。遇到的问题:外语的Q-Q图中,散点与斜线吻合度难以直观确切地说明是吻合还是不吻合,趋降正态图垂直坐标轴范围是-1010,难以判断。解决思路:我认为,Q-Q判断数据正态分布,是仅凭用户直观感受做出的决策,却没有准确的数值描述和判断,这也是它的弊端。2.检验MydataA中语文1与语文2的成绩对、语文2与历史的成绩对之间是否存在显著性的差异;检验MydataA中的数学与物理的成绩对、物理与化学的成绩对之间是否存在显著性的差异。(1)操作:先对六个变量进行数据分布正态性的判断,【分析】【旧对话框】【1.样

7、本K-S】,添加“语文1”“语文2”“历史”,确定。其身正,不令而行;其身不正,虽令不从。论语良辰美景奈何天,便赏心乐事谁家院。则为你如花美眷,似水流年。汤显祖图 2.1 可以看到“语文1”、“语文2”、“历史”的渐进显著性值经过修正后的数据满足正态分布,可以作为检验变量参与T检验。而“数学”、“物理”“化学”的渐进显著性值经过修正后的数据不满足正态分布。然后对两组数据进行差异显著性检验:图 2.2 因为它们的sig值均大于0.05,表示这3个成绩不存在显著性差异。其中“语文1”与“语文2”T值均小于1.96,证明逐渐均值差异小于组内正常波动,组间没有显著性差异。(2)因为数学、物理、化学不满

8、足正态分布,所以采用W检验。操作:【分析】【非参数检验】【旧对话框】【两个相关样本】,将物理-数学、化学-物理分别加入检验对中。得到下列结果:图 2.3“化学-物理”的“渐进显著性(双侧)”值为0.525,其值0.05,说明组间不存在显著性差异。3.在 MydataA 中,检验语文 1、语文 2、历史三科目的成绩之间是否存在显著性的差异?检查数学、物理、化学三个科目的成绩之间是否存在显著性的差异?(1)操作:根据图 2.1 知,语文 1、语文 2、历史满足正态,执行【分析】以家为家,以乡为乡,以国为国,以天下为天下。管子牧民云路鹏程九万里,雪窗萤火二十年。王实甫【比较均值】【配对样本 T 检验

9、】,第一行为“语文 1”和“语文 2”,第二行为“语文 1”和“历史”,第三行为“语文 2”和“历史”。结果如下:图 2.4 它们的Sig值分别为0.834、0.557和0.336,均0.05,表示这三个成绩之间不存在显著性差异。(2)操作:由于数学、物理、化学不满足正态分布,执行【分析】【分参数检验】【旧对话框】【2个相关样本】。第一行为“数学”和“物理”,第二行为“数学”和“化学”,第三行为“物理”和“化学”。执行结果如下:图 2.5“数学-物理”和“化学-数学”的“渐进显著性(双侧)”分别为 0.000和 0.001,其值小于 0.05,。说明,物理和数学之间、化学和数学之间的成绩分布存

10、在显著性差异。而“化学-物理”的 Sig 值为 0.525,大于 0.05,说明化学与物理成绩之间不存在显著性差异。遇到的问题:第二题检验两对成绩对之间的显著性差异和第三题检验三门成绩间的显著性差异,有和区别或联系。解决思路:仔细查看书上例题和依次尝试【分析】里的各项操作后,发现三变量之间的差异性检验,可以将其分为多对数据间的差异性检验。(书上例题是这么做的)4.在MydataB中,检测全体新生智商在90分以上的概率能否达到90%?提示,基于二项分布检验,判断事件发生的概率。若检验概率低于0.05,则接受原假设,认为全体新生智商在90分以上的概率能达到90%。操作:【分析】【分参数检验】【旧对

11、话框】【二项式】,“IQ”添加到右侧【检验变量列表】,【割点】设为90,【检验比例】设为0.9。谋事在人,成事在天!增广贤文宠辱不惊,看庭前花开花落;去留无意,望天上云卷云舒。洪应明图 4.1 其渐进显著性检验概率为0.000,其值0.05,说明上网时间与作业情况之间不存在相关性。同理,上网时间与物理成绩之间也没有显著相关,与数学成绩之间显著相关。2.偏相关检验的结论说明,上网时间与作业情况、物理成绩、数学成绩之间的显著相关是由游戏时间引起的。所以真正影响作业情况和各科成绩的是游戏时间。6.以物理成绩分别与数学成绩、语文成绩、作业情况、上网时间、游戏时间、认知风格进行一元线性回归分析。然后,分

12、别解释其输出结果,并说明哪些回归方程是有效的,哪些是不良的。分析:由于“认知风格”为字符类型。所以单独处理该类数据。操作:【分析】【回归】【线性】,将“物理”添加到【因变量】列表中,“数学成绩”、“语文成绩”等加入【自变量】。结果分析:图 6-1“变量已输入”显示出数学成绩是回归方程的必须自变量。吾日三省乎吾身。为人谋而不忠乎?与朋友交而不信乎?传不习乎?论语其身正,不令而行;其身不正,虽令不从。论语图 6-2 这里 R 方值为 0.868,即本回归方程的判断系数为 0.868.此值较大,表示此回归方程具有很好的质量。R 值为 0.932,此值为多重取值的复相关系数。图 6-3 F 值为 90

13、2.566,远大于 3.84,表示整个回归方程具有很强的影响力,能很好的表示数学与物理成绩之间的关系。图 6-4 两系数 T 值均大于 1.96,而且 Sig 值为 0.000,表示标准化系数有效。最终回归方程为:y=0.935*x+12.592(y 代表物理成绩,x 代表数学成绩)。可以看到语文 2、上网时间的 Sig 值过大,T 值小于 1.96。说明回归方程可信度低,属于不良方程。而游戏时间、语文 1、作业情况的两个标准化系数都是有效的。其中游戏时间的方程式为 y=-1.198*x+73.989.(y 代表物理成绩,x 代表游戏时间)操作:将字符串格式的“认识风格”进行重新编码,改为数值

14、形式。我尽一杯,与君发三愿:一愿世清平,二愿身强健,三愿临老头,数与君相见。白居易人不知而不愠,不亦君子乎?论语【分析】【回归】【线性】回归方程为:Y=89.229+0.229*X 其中,y 代表物理成绩,x 代表学生的认知风格。但“模型汇总”表格中“R 方”值为 0,表示此回归方程影响力很小。“Anova”表格中回归平方和、F 值都很小,而残差平方和的值较大,也说明了回归方程的作用力很小。“系数”表格中,S 风格对应的 T 值很小、Sig 值则远大于 0.05,说明“S 风格”取值的变化,难以导致物理成绩产生显著性的差异。综上所述,尽管本回归分析得到一个回归方程,但回归方程的质量很差,不是有

15、效的回归方程。7.以数学成绩为因变量,以作业情况、游戏时间、认知风格、爱好、性别为自变量,进行多元线性回归分析,得出有效的多元回归方程,并对系统的输出结果给予详细解释。将字符类变量“性别”“爱好”“认知风格”进行数值化编码,使之成为定序的数值型量,新变量名称为“sex”“S 爱好”“S 风格”。操作结果:【分析】【回归】【线性】,筛选方式为“逐步”。执行多元线性回归之后,共获得 5 个表格:“输入/移去的变量”“模型汇总”“基于输入变量的单因素方差分析(Anova)”“系数”“”和“已排除的变量”。古之立大事者,不惟有超世之才,亦必有坚忍不拔之志。苏轼谋事在人,成事在天!增广贤文“输入/移出的

16、变量”表中,经过三轮筛选过程,显示 SPSS 依次把“游戏时间”“作业情况”“上网时间”作为回归方程的必修自变量,其他自变量已排除在外。“模型汇总”表,每行是对一种回归模型的评价。3 个 R 方值均较大,表示 3 个回归方程都具有很好的质量。由 R 方值知,模型 3 最好,而且自变量包含了全部的 3 个变量。“Anova”表是针对回归方程所做的方差分析。3 个模型的 F 值都远大于 3.84,表示 3 个模型的回归方程都具有很强的影响力,能够很好地表达数学成绩的因素。且整体 Sig 值均为 0,表示在对回归方程进行方差分析时,当自变量的取值发生变化时,其对应因变量的取值都有显著性差异。根据线性

17、回归分析中 F 值的计算规范,三个模型的残差均方和逐渐减小,表示回归方程与观测值的拟合程度越来越好,综合来看,“模型 3”质量最好。谋事在人,成事在天!增广贤文我尽一杯,与君发三愿:一愿世清平,二愿身强健,三愿临老头,数与君相见。白居易“系数”表格中,Sig 值均小于 0.05,自变量对应的 t 值均大于 1.96,说明这四个变量都对因变量具有很好的影响力。“已排除的变量”对没有纳入到回归方程中的自变量的影响力和统计数据进行了呈现。本次回归多元性分析中,“模型 3”R 方值最大,涉及到的自变量最多,而且方程中所有自变量对应的 Sig 值均小于 0.05,说明“模型 3”最优。Y=86.297-

18、1.399*X1+1.151*X2-0.115*X3,Y 代表数学成绩,X1 代表游戏时间,X2代表作业情况,X3 代表上网时间。此回归方程的判定系数为 0.925,具有很好的回归质量。8.分别对 MydataW 和 MydataZ 进行因子分析,要求输出碎石图和载荷图,并说明所需的操作命令、输出结果,然后解释输出结果。操作:【分析】【降维】【因子分析】,将左侧的 8 个待解释变量“校务公开”“学校工作”等添加到右侧的【变量】列表框,选中【描述】中的【KMO 和 Bartlett 的球形度检验】复选框,“抽取”对话框中的【碎石图】,“旋转”对话框中的【载荷图】复选框。图 8.1MydataW

19、的碎石图(陡坡图)图 8.2MydataW载荷图(元件图)以铜为镜,可以正衣冠;以古为镜,可以知兴替;以人为镜,可以明得失。旧唐书魏征列传老当益壮,宁移白首之心;穷且益坚,不坠青云之志。唐王勃“碎石图”(陡坡图)是因子分析中对全体公因子影响力的图示化表示。由图8.1 知,共有 8 个公因子参与因子分析,其影响力依次降低,只有前 2 个公因子的影响力大于 1。“载荷图”(元件图)是因子分析中把全体观测变量在各个主成分上载荷的图示化表示,它直接呈现出了各个观测变量的距离关系。由图 8.2 知,全体观测变量被分割为两个相对集中的区域。“区域 1”中包含了 5 个观测变量,“区域 2”中包含了 3 个

20、观测变量。同样的操作对 MydataZ 进行因子分析:图 8.3 MydataZ 的碎石图 图 8.4 MydataZ 的载荷图 由图 8.3 知,共有 11 个公因子参与因子分析,其影响力依次降低,只有前 3 个公因子的影响力大于 1。由图 8.4 知,全体观测变量大致被分割为 4 个相对集中的区域。区域 1 包含 2 个观测变量,区域 2 包含 2 个观测变量,区域 3 包含 5个观测变量,区域 4 包含 2 个观测变量。9.对 MydataW 按照个案进行层次聚类分析,绘制出聚类树状图,并解释系统的输出结果。操作:【分析】【分类】【系统聚类】,将“校务公开”“学校工作”等八项添加到右侧的

21、【变量】列表框,“分群”区域中选中【个案】单选框,【方法】中设置聚类方法为“组间连接”,对元素间的度量标准为“平方欧式距离”,“图”对话框中,选中【树状图】复选框,“保存”对话框里,选中【单一方案】。勿以恶小而为之,勿以善小而不为。刘备穷则独善其身,达则兼善天下。孟子图 9.1 分析:在针对个案的聚类中,为了能够聚类结果中清晰地呈现聚类结果,增强聚类效果的可读性,通常会把个案的标志性字段添加到【标注个案】列表框中,以便在输出聚类结果时能够清晰地标记出每个个案。所有的个案被分成了 4 类,并将在原始数据表的最右边新增一列“CLU4_1”,在此列中标记出每个个案的所属类别号。10.利用 K-mea

22、ns 聚类技术,把 MydataW 中的 151 个案划分为 5 类,输出每个个案所在的类别,并对输出结果进行解释。操作:【分析】【分类】【K-Means聚类】,将八个评价变量添加到【变量】列表,将“网站编号”添加到右侧的【个案标记依据】列表框中。输入【聚类数】为5,聚类方法为“迭代与分类”。把左下角的【写入最终聚类中心】选中,储存位置为【新数据集】,名字为“my”。结果如下:图 10-1【分析】【分类】【K-Means聚类】,选择聚类方法为“仅分类”,选中【读取初始聚类中心】,设置储存位置为【打开数据库】,名字为“未标题2(my)”,在“保存”中,把【聚类成员】和【与聚类中心的距离】选中。图

23、 10-2 图 10-3 图 10-4 好学近乎知,力行近乎仁,知耻近乎勇。中庸人人好公,则天下太平;人人营私,则天下大乱。刘鹗分析:图 10-2“初始聚类中心”,即从数据集 my 中读取的类中心信息。图 10-3“最终的聚类中心”,是指原始类中心在被附加了大量新个案后,类中心的位置。图 10-4“每个聚类中的案例数”,说明了按照预先提供的类中心,聚类后在每个类别中有多少个案例。遇到的问题:不了解 K-Means 聚类方法的具体作用,有什么用。解决思路:阅读实验书例题前后的概念介绍和补充说明,得知这是一种个案聚类,即将所有个案按照指定类别数目和明确的类别中心分割成若干类。聚类中心是指该类别的中心值,快速聚类后,会给出所有个案到聚类中心的距离。关于 SPSS 实验课的心得体会:本系列实验,实用性强,动手程度高,比起理论课确实有更好的收获。像第六题线性回归分析就对数模还挺有用的,不仅能给出不同变量间的线性关系,还通过“R 方”、“SIG 值”等数据解释了关系式的可靠性。第八题通过碎石图、载荷图求出了公因子影响力的排序,排除了无关变量的干扰。初识数据分析,感觉里面蕴含着大量的高深的数学公式和思想(理论课太难了),但操作起来还算得心应手,希望以后都能有这样务实的好课。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 其他报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁