数据处理方法级幻灯片.ppt

上传人:石*** 文档编号:87447747 上传时间:2023-04-16 格式:PPT 页数:159 大小:5.25MB
返回 下载 相关 举报
数据处理方法级幻灯片.ppt_第1页
第1页 / 共159页
数据处理方法级幻灯片.ppt_第2页
第2页 / 共159页
点击查看更多>>
资源描述

《数据处理方法级幻灯片.ppt》由会员分享,可在线阅读,更多相关《数据处理方法级幻灯片.ppt(159页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、数据处理方法级第1页,共159页,编辑于2022年,星期六绪论绪论(定量研究的基础)(定量研究的基础)第2页,共159页,编辑于2022年,星期六一、变量与数据一、变量与数据w变量指的是在研究中被观察的事项,每次变量指的是在研究中被观察的事项,每次具体观察的结果称为变量的值(数据)。具体观察的结果称为变量的值(数据)。w变量的含义有二:变量的含义有二:1.1.指代一种要研究的特性、内容;指代一种要研究的特性、内容;2.2.观测变量时将会取得不同的值观测变量时将会取得不同的值 问题问题:“家庭教养方式对学生成绩及性格影响的研究家庭教养方式对学生成绩及性格影响的研究”有哪些变量?有哪些变量值?如何

2、获取这些数据有哪些变量?有哪些变量值?如何获取这些数据第3页,共159页,编辑于2022年,星期六二、变量的分类二、变量的分类类别变量类别变量数值变量数值变量名义变量名义变量顺序变量顺序变量连续变量连续变量离散变量离散变量(性别、血型、气质)表示分类的不同 表示数量差异(等级分、学历、职称)(分数、智商、身高)(家庭人口数、报名人数、教室数)根据法则、标准确定测量计数第4页,共159页,编辑于2022年,星期六大学生心理与行为调查表大学生心理与行为调查表一、基本情况一、基本情况1性别性别(1)男)男(2)女)女2家庭所在地家庭所在地(1)城市)城市(2)城镇)城镇(3)农村)农村二、态度与行为

3、二、态度与行为3对现专业的态度对现专业的态度(1)很满意()很满意(2)较满意()较满意(3)一般()一般(4)不太满意)不太满意(5)很不满)很不满意意4年均每月生活费用大概为年均每月生活费用大概为元,其中伙食费约元,其中伙食费约元。元。5是否在做家教或兼职:(是否在做家教或兼职:(1)是)是(2)否)否6是否有恋爱对象:是否有恋爱对象:(1)有)有(2)未明确)未明确(3)没有)没有7喜欢哪种教学方法喜欢哪种教学方法(1)讲授式)讲授式(2)自学式)自学式(3)研讨式)研讨式(4)其它)其它第5页,共159页,编辑于2022年,星期六大学生心理健康调查表以下问题是为了了解您的健康状况、增进

4、您的身心健康而设计的调查,请您根据自己最近或在一般情况下的态度和行为反应,对以下每一个符合您的项目,在题号前的括号内打“”,对不太确定的项目在题号前的括号内打“”,对不符合自己情况的项目,则不做任何记号。请您真实作答,心理咨询人员将严守秘密,并随时提供您所期待的帮助。()1.非常看不惯某些同学的衣着打扮、行为举止。()2.独立生活的能力较差。()3.有一些别人不太接受的生活习惯。()4.大学里消费很高,经济上的拮据常使我感到自卑。()5.大学生活没有我以前想象的那样完美。()6.特别想家和过去的朋友。()7.学校里的学习资源利用得太少。()8.感到还不太适应大学的学习方法。()9.面临考试就会

5、有莫名其妙的恐惧感。()10.学习成绩不再名列前茅,感到十分苦恼。第6页,共159页,编辑于2022年,星期六大学教师教学效果评价问卷(学生用)很不不 很 同 同 一 同 同 意 意 般 意 意1.在老师所教的课中,我学到一些有价值的东西 2.通过老师上这门课,我对该学科的兴趣提高了 3.我学会并理解了老师所讲授的课程内容 4.通过上这门课,我提高了认识和分析相关问题的能力 5.通过上这门课,我提高了解决相关问题的能力 6.通过上这门课,我学会了如何学习该学科的方法 第7页,共159页,编辑于2022年,星期六三、数据的特点三、数据的特点w测验数据:考试、心理测验测验数据:考试、心理测验w调查

6、数据:问卷式与量表式调查数据:问卷式与量表式第8页,共159页,编辑于2022年,星期六四、常用的统计分析方法四、常用的统计分析方法w描述统计(频数分析、特征量分析)描述统计(频数分析、特征量分析)w差异显著性检验(差异显著性检验(T-检验、方差分析)检验、方差分析)w样本数据的分布研究样本数据的分布研究w数据的相关性研究(相关与回归分析、因数据的相关性研究(相关与回归分析、因子分析)子分析)第9页,共159页,编辑于2022年,星期六教育统计方法回顾第10页,共159页,编辑于2022年,星期六一、描述统计一、描述统计w适用对象:数值变量适用对象:数值变量w统计任务:描述样本的统计特征统计任

7、务:描述样本的统计特征平均数、标准差、方差等平均数、标准差、方差等第11页,共159页,编辑于2022年,星期六二、频数分析二、频数分析w适用对象:数值变量、类别变量等所有变适用对象:数值变量、类别变量等所有变量量w统计任务:描述变量取值的分布特征统计任务:描述变量取值的分布特征第12页,共159页,编辑于2022年,星期六三、相关分析三、相关分析w适用对象:数值变量、等级变量适用对象:数值变量、等级变量w统计任务:分析两个变量的相关性,相关统计任务:分析两个变量的相关性,相关系数有无统计学意义需做检验系数有无统计学意义需做检验w注意事项:皮尔逊相关要求变量服从正态注意事项:皮尔逊相关要求变量

8、服从正态分布。不适合对类别变量进行相关分析。分布。不适合对类别变量进行相关分析。相关关系只能说明变量变化的一致性趋势,相关关系只能说明变量变化的一致性趋势,不能说明因果关系。不能说明因果关系。第13页,共159页,编辑于2022年,星期六四、回归分析四、回归分析w适用对象:数值变量,需确定因变量与适用对象:数值变量,需确定因变量与自变量自变量w统计任务:建立数学模型,描述自变量统计任务:建立数学模型,描述自变量对因变量的影响,从而可以通过自变量对因变量的影响,从而可以通过自变量的变化,预测因变量的变化,或者通过的变化,预测因变量的变化,或者通过控制自变量的变化来改变因变量的变化。控制自变量的变

9、化来改变因变量的变化。w注意事项:回归模型的有效性需进行统注意事项:回归模型的有效性需进行统计检验,如果有类别变量可以做其它回计检验,如果有类别变量可以做其它回归分析。归分析。第14页,共159页,编辑于2022年,星期六五、五、t检验检验w适用对象:数值变量,要求正态分布适用对象:数值变量,要求正态分布w统计任务:比较两个平均数,判断其差异统计任务:比较两个平均数,判断其差异是否显著是否显著w原假设:原假设:H0“两个平均数没有显著差异两个平均数没有显著差异”w判断法则:判断法则:t值出现的概率值出现的概率sig0 0 时,表示右偏或正偏;当时,表示右偏或正偏;当0 0 0 时,表示分布曲线

10、的高时,表示分布曲线的高峰是尖顶高峰;当峰是尖顶高峰;当0 0 时,表示分布曲时,表示分布曲线的高峰是平顶高峰。线的高峰是平顶高峰。第75页,共159页,编辑于2022年,星期六四、交互分析四、交互分析w交叉分组下的频数分析交叉分组下的频数分析w列联表分析列联表分析w任务:任务:1.分析两变量频数分布的列联表分析两变量频数分布的列联表2.分析两变量有无关联分析两变量有无关联第76页,共159页,编辑于2022年,星期六描述统计练习描述统计练习w师德调查数据师德调查数据Sddc0.sav:w数据整理;数据整理;recodet7,t8;wcomputet71,t72,t8w频数分析频数分析w交互分

11、析交互分析第77页,共159页,编辑于2022年,星期六第五章第五章T-检验检验一、一、理论概要理论概要在实际工作中,许多问题都可以归结为在实际工作中,许多问题都可以归结为比较两个平均数是否有显著差异。在统计比较两个平均数是否有显著差异。在统计学上,对于两组测量数据的平均数进行显学上,对于两组测量数据的平均数进行显著性检验,需用著性检验,需用T检验。它要求两组数据检验。它要求两组数据都服从正态分布或近似正态分布,方差相都服从正态分布或近似正态分布,方差相等与不等时,要使用不同的等与不等时,要使用不同的T值公式。值公式。第78页,共159页,编辑于2022年,星期六统计假设检验的思想统计假设检验

12、的思想所有的统计检验都基于对检验指标所作的无差假设或零所有的统计检验都基于对检验指标所作的无差假设或零假设假设H0,然后,根据观察数据计算出无差假设成立的,然后,根据观察数据计算出无差假设成立的概率概率P,从而作出统计决断。,从而作出统计决断。决断法则是:根据决断法则是:根据“小概率原理小概率原理”,如果,如果P0.05,则在,则在0.05的显著性水平上否定原假设的显著性水平上否定原假设H0;如果;如果P0.05,就接受无差假设,说明所判断的两个指标值,就接受无差假设,说明所判断的两个指标值之间的差异没有统计意义。之间的差异没有统计意义。第79页,共159页,编辑于2022年,星期六二、二、O

13、ne-SampleTTest(单总体检验单总体检验)检验单个变量的均值是否与给定的常数之检验单个变量的均值是否与给定的常数之间存在差异。样本均数与总体均数之间的间存在差异。样本均数与总体均数之间的差异显著性检验就属于单总体检验。差异显著性检验就属于单总体检验。第80页,共159页,编辑于2022年,星期六操作:(操作:(To Obtain a One-Sample T To Obtain a One-Sample T TestTest)1.1.“AnalyzeAnalyze”“Compare Compare MeansMeans”“One-Sample T TestOne-Sample T T

14、est”;2.2.选择检验变量(一个或多个);选择检验变量(一个或多个);3.3.输入一个平均数的值(已知总体的)输入一个平均数的值(已知总体的)4.4.在在选选择择框框里里,确确定定置置信信水水平平和和缺缺失失值值的的处理方法处理方法第81页,共159页,编辑于2022年,星期六三、三、Independent-Sample T Test(Independent-Sample T Test(独立样本独立样本)用用于于检检验验两两个个独独立立样样本本是是否否来来自自同同一一个个总总体体,换换言言之之,两两个个独独立立样样本本的的平平均均数数有有无无显著性差异。显著性差异。第82页,共159页,编

15、辑于2022年,星期六 独立样本独立样本T-T-检验操作检验操作1 1“AnalyzeAnalyze”“Compare Compare MeansMeans”“Independent-Samples T TestIndependent-Samples T Test”2 2选择待检验的数值变量选择待检验的数值变量3 3选择分组变量,以及相应的分组代码选择分组变量,以及相应的分组代码4.4.如如有有必必要要,可可点点击击“OptionsOptions”,控控制制缺缺失值的处理方式和置信区间的水平。失值的处理方式和置信区间的水平。第83页,共159页,编辑于2022年,星期六四、四、Pair-Sam

16、ple T Test(Pair-Sample T Test(配对样本配对样本)如果两个样本不独立,例如要研究一组学如果两个样本不独立,例如要研究一组学生在训练前后某种知识技能有无明显变化,生在训练前后某种知识技能有无明显变化,就要使用配对样本的就要使用配对样本的T检验。检验。第84页,共159页,编辑于2022年,星期六配对样本配对样本T TestT Test操作操作1 1“AnalyzeAnalyze”“Compare Compare MeansMeans”“Paired-Samples T Test.Paired-Samples T Test.”2 2选择配对的两个变量选择配对的两个变量3

17、 3如如有有必必要要,可可点点击击“OptionsOptions”,控控制制缺缺失值的处理方式和置信区间的水平。失值的处理方式和置信区间的水平。第85页,共159页,编辑于2022年,星期六示例解析示例解析数据:心理与行为调查数据:心理与行为调查单总体检验:智力测验得分与总均分单总体检验:智力测验得分与总均分13是是否有显著差异;否有显著差异;独立样本检验:智力测验得分的性别差异,独立样本检验:智力测验得分的性别差异,心理健康得分的性别差异;心理健康得分的性别差异;配对样本检验不常用,省略。配对样本检验不常用,省略。第86页,共159页,编辑于2022年,星期六第六章第六章 方差分析方差分析问

18、题:不同的实验条件或处理方法对实验问题:不同的实验条件或处理方法对实验结果或工作效率的影响。结果或工作效率的影响。从统计学的角度说,就是面临着同时比较从统计学的角度说,就是面临着同时比较多个平均数的差异是否显著的问题。多个平均数的差异是否显著的问题。例如:不同的教材、教学方法对教学效果例如:不同的教材、教学方法对教学效果的影响。方差分析就是处理这类问题的有的影响。方差分析就是处理这类问题的有效方法。效方法。第87页,共159页,编辑于2022年,星期六方差分析的基本概念方差分析的基本概念观测变量:因变量;观测变量:因变量;控制变量:影响因变量变化的客观条件控制变量:影响因变量变化的客观条件(因

19、素)和人为条件(处理);(因素)和人为条件(处理);水平:因素的不同等级;水平:因素的不同等级;例如,比较两种教材、三种教学方法的教例如,比较两种教材、三种教学方法的教学效果的差异。为两个因素、六种处理的学效果的差异。为两个因素、六种处理的方差分析。方差分析。第88页,共159页,编辑于2022年,星期六单因素方差分析单因素方差分析教学法1教学法2教学法3第89页,共159页,编辑于2022年,星期六双因素方差分析双因素方差分析 教学法教材教学法1教学法2教学法3教材1教材2 第90页,共159页,编辑于2022年,星期六方差分析的基本思想方差分析的基本思想w导致观测变量数据变化的原因有二:导

20、致观测变量数据变化的原因有二:w其一是控制变量不同水平所产生的影响;其一是控制变量不同水平所产生的影响;w其二是随机因素所产生的影响;其二是随机因素所产生的影响;w如果控制变量的不同水平对观测变量产如果控制变量的不同水平对观测变量产生了显著影响,必然导致观测变量的数据生了显著影响,必然导致观测变量的数据发生较大的变异,反之亦然。发生较大的变异,反之亦然。第91页,共159页,编辑于2022年,星期六方差分析的原理方差分析的原理将接受不同处理的对象分成不同的组,各将接受不同处理的对象分成不同的组,各组平均数之间差异的基本来源有两个:一组平均数之间差异的基本来源有两个:一是随机误差是随机误差,称为

21、组内差异;二是条件误,称为组内差异;二是条件误差,称为组间差异。通过比较组内差异和差,称为组间差异。通过比较组内差异和组间差异的大小,判断各组均数差异的来组间差异的大小,判断各组均数差异的来源,从而作出不同的处理是否对因变量产源,从而作出不同的处理是否对因变量产生了效应的结论。生了效应的结论。第92页,共159页,编辑于2022年,星期六一、单因素方差分析一、单因素方差分析1.操操作作:“Analyze”“CompareMeans”“One-WayANOVA”;2.将将因因变变量量加加入入“Dependent List”列列表表框框,将将自自变变量量加加入入“Factor”列表框。列表框。3.

22、“PostHoc”选选项项,是是对对平平均均数数的的差差异异作作多多重重比比较较。在在“EqualVariancesAssume”条条件件下下,一一般般选选择择“LSD”(最最小小显显著著差差异异法法)来比较平均数之间的差异。来比较平均数之间的差异。4.在在“Options”复复 选选 框框 中中,一一 般般 都都 选选“Descriptive”和和“Homogeneity-of-variance”两项。两项。第93页,共159页,编辑于2022年,星期六例题例题w师德调查数据师德调查数据sddc.savw关于我校师德问题关于我校师德问题的评价,不同政治的评价,不同政治面貌的老师之间有面貌的老

23、师之间有无显著差异?无显著差异?第94页,共159页,编辑于2022年,星期六二、多因素方差分析二、多因素方差分析多因素方差分析是对因变量是否受多个因多因素方差分析是对因变量是否受多个因素的影响,使不同组之间的均数差异显著素的影响,使不同组之间的均数差异显著的检验。在这个过程中可以分析每一个因的检验。在这个过程中可以分析每一个因素的作用,也可以分析因素之间的交互作素的作用,也可以分析因素之间的交互作用。用。第95页,共159页,编辑于2022年,星期六三、协方差分析w自学第96页,共159页,编辑于2022年,星期六示例解析示例解析w示例示例1,数据,数据“饲料与猪饲料与猪”。w示示例例2,“

24、心心理理与与行行为为调调查查”,智智力力测测验验对对是否恋爱;心理健康对父母感情;是否恋爱;心理健康对父母感情;第97页,共159页,编辑于2022年,星期六第七章第七章2检验检验在社会科学研究中,最为常见的是来自于社会调查的数在社会科学研究中,最为常见的是来自于社会调查的数据据频数,属于类别变量。这类数据具有离散性和频数,属于类别变量。这类数据具有离散性和有限性的特点,不适合计算平均数、标准差,不能进有限性的特点,不适合计算平均数、标准差,不能进行参数检验,可以作两个分类变量之间的交互分析和行参数检验,可以作两个分类变量之间的交互分析和非参数检验。非参数检验。处理这种数据的有效手段就是处理这

25、种数据的有效手段就是2检验。检验。2检验的基本检验的基本思想就是检验实际频数思想就是检验实际频数fo与理论频数与理论频数fe之间的差异之间的差异是否显著。是否显著。第98页,共159页,编辑于2022年,星期六应用举例应用举例w对师德问题的评价是否与职称相关对师德问题的评价是否与职称相关w某一数据是否为正态分布某一数据是否为正态分布w对某一个问题的回答是否符合均匀分布对某一个问题的回答是否符合均匀分布(区分正常与异常行为)(区分正常与异常行为)第99页,共159页,编辑于2022年,星期六一、适合性检验一、适合性检验适合性检验主要用于检验某一个分类变量适合性检验主要用于检验某一个分类变量的观察

26、值(频数)与理论期望值之间的吻的观察值(频数)与理论期望值之间的吻合程度。合程度。譬如,研究儿童对不同的颜色有无特别的譬如,研究儿童对不同的颜色有无特别的偏好。偏好。第100页,共159页,编辑于2022年,星期六操作方法操作方法“Analyze”“Nonparametric Tests”“Chi-Square”选择检验变量,(可选多个变量)。选择检验变量,(可选多个变量)。点点击击复复选选框框Options,可可选选择择描描述述统统计计的的内容和缺失值的处理方法。内容和缺失值的处理方法。第101页,共159页,编辑于2022年,星期六二、独立性检验二、独立性检验独独立立性性检检验验主主要要用

27、用于于对对两两个个分分类类变变量量进进行行交交互互分分析析,以以判判断断两两个个变变量量是是彼彼此此相相关关,还是彼此独立。还是彼此独立。譬如问卷调查中,对某两个问题的回答是譬如问卷调查中,对某两个问题的回答是否有内在关系。否有内在关系。第102页,共159页,编辑于2022年,星期六操作方法操作方法“Analyze”“DescriptiveStatistics”“Crosstabs.”选择行变量和列变量,可选多个变量。选择行变量和列变量,可选多个变量。还可选择控制变量。还可选择控制变量。点击点击Statistics,可得到交互分析的统计检验值。,可得到交互分析的统计检验值。点击点击Cells

28、可得到单元格的观测值和期望值。可得到单元格的观测值和期望值。第103页,共159页,编辑于2022年,星期六示例解析示例解析1.大学生特别倾向于哪一种教学方法?大学生特别倾向于哪一种教学方法?2.被调查对象有无性别差异?被调查对象有无性别差异?3.是否恋爱与对现专业的态度有无关联?是否恋爱与对现专业的态度有无关联?4.做家教或兼职是否与性别有关?做家教或兼职是否与性别有关?第104页,共159页,编辑于2022年,星期六卡方检验示例w学生课外活动调查结果 活动内容体育文娱阅读合计男21112355女672042合计27185297第105页,共159页,编辑于2022年,星期六第八章第八章相关

29、与回归分析相关与回归分析两个变量有无关系,能否建立数学模型?两个变量有无关系,能否建立数学模型?第106页,共159页,编辑于2022年,星期六一、相关分析连续变量之间是否存在相关关系,如果有连续变量之间是否存在相关关系,如果有的话,是什么样的关系:的话,是什么样的关系:正相关与负相关;正相关与负相关;线性相关与曲线相关;高相关、中相关还线性相关与曲线相关;高相关、中相关还是弱相关。相关分析就是要回答这些个问是弱相关。相关分析就是要回答这些个问题。题。第107页,共159页,编辑于2022年,星期六相关系数相关系数是描述两个变量之间相关关系的统计指标,相关系数是描述两个变量之间相关关系的统计指

30、标,一般用一般用r来表示,并且来表示,并且|r|1;|r|0,表示零相关;表示零相关;|r|1,表示高相关;表示高相关;r0,表表示正相关。相关系数是否有统计意义还需做假设检示正相关。相关系数是否有统计意义还需做假设检验。验。第108页,共159页,编辑于2022年,星期六相关分析三个过程 w相关分析功能被集中在Statistics菜单的Correlate子菜单中,一般包括三个过程:wBivariate过程 wPartial过程wDistances过程第109页,共159页,编辑于2022年,星期六操作选项w【Variables框】用于选入需要进行相关分析的变量,至少需要选入两个。w【Corr

31、elation Coefficients复选框组】w用于选择需要计算的相关分析指标,有:wPearson复选框 选择进行积距相关分析,即最常用的参数相关分析 wKendalls tau-b复选框 计算Kendalls等级相关系数 wSpearman复选框 计算Spearman相关系数,即最常用的非参数相关分析(秩相关)w【Test of Significance单选框组】一般选双侧检验。w【Flag significant correlations】w用于确定是否在结果中用星号标记有统计学意义的相关系数,一般选中。此时P0.05的系数值旁会标记一个星号,P0.01的则标记两个星号。w【Opti

32、ons钮】弹出Options对话框,选择需要计算的描述统计量和统计分析 第110页,共159页,编辑于2022年,星期六Partial过程过程 w【Controlling for框】w用于选择需要在偏相关分析时进行控制的协变量,如果不选入,则进行的就是普通的相关分析。w偏相关分析的结果和普通相关分析几乎完全相同,非常容易看懂 第111页,共159页,编辑于2022年,星期六操作方法操作方法“Analyze”“Correlate”“Bivariate”打开打开“BivariateCorrelation”对话框。对话框。再选择欲处理的变量、相关系数的类型再选择欲处理的变量、相关系数的类型(默认为皮

33、尔森相关)、相关系数的显著(默认为皮尔森相关)、相关系数的显著型检验。还可进一步打开型检验。还可进一步打开“Option”对话对话框,选择统计量和缺失值的处理方法。框,选择统计量和缺失值的处理方法。第112页,共159页,编辑于2022年,星期六例w某地一年级12名女大学生体重与肺活量的数据见corr.sav,试分析两者有无直线相关关系w先用GraphsScatterSimple作散点图lung为Y轴,weight为X轴再用Bivariate过程计算Pearson和Spearman相关系数第113页,共159页,编辑于2022年,星期六例w已测得20名糖尿病人的血糖(y),胰岛素(x1)和生长

34、激素(x2)的含量,数据见pcorr.sav,试分析糖尿病人血糖浓度和生长激素浓度间有无相关关系wPartial过程Variable:y,x2 Controlling for:x1Option框里选中zero order correlation第114页,共159页,编辑于2022年,星期六示例解析示例解析“心理与行为问题心理与行为问题”:智力与身高智力与身高智力与心理健康智力与心理健康第115页,共159页,编辑于2022年,星期六二、二、回归分析回归分析回归分析用于解决实际工作中出现的一个因回归分析用于解决实际工作中出现的一个因变量受一个或多个自变量影响的问题。我们希望变量受一个或多个自变

35、量影响的问题。我们希望建立一个数学模型,以便通过自变量的变化推测建立一个数学模型,以便通过自变量的变化推测和控制因变量的变化。和控制因变量的变化。第116页,共159页,编辑于2022年,星期六(一)理论概要(一)理论概要描描述述自自变变量量与与因因变变量量之之间间关关系系的的数数学学模模型型就就是是回回归归方程。方程。在求出线性回归方程后,还需对其进行统计检验。在求出线性回归方程后,还需对其进行统计检验。只有经过检验确认回归方程有效,方能付之使用。只有经过检验确认回归方程有效,方能付之使用。第117页,共159页,编辑于2022年,星期六(二)回归分析原理(二)回归分析原理w设设y为为因因变

36、变量量,x1,x2,xp是是p个个自自变变量。量。w假假设设作作了了n次次观观测测,即即样样本本容容量量为为n,则则可可得到如下数据:得到如下数据:w(yi,xi1,xi2,xip)wi=1,2,n第118页,共159页,编辑于2022年,星期六yi=b0+b1xi1+b2xi2+bipxpw其其中中,b0,b1,b2,bp,是是p+1个个待待定定参参数数,i表表示示第第i次次观测中,随机因素对观测中,随机因素对yi的影响。的影响。w通通常常采采用用最最小小二二乘乘法法来来确确定定多多元元回回归归模模型型中中的的参参数数B,最最终终得得到:到:wy=b0+b1x1+b2x2+bpxpw即即为为

37、所所求求p元元回回归归方方程程。由由于于事事先先并并不不能能断断定定随随机机变变量量y与与x1,x2,xp之之间间是是否否确确有有线线性性关关系系,所所以以在在求求出出线线性性回回归归方方程程后后,还还需需对对其其进进行行统统计计检检验验。只只有有经经过过检检验验确确认认回回归归方方程有效,方能付之使用。程有效,方能付之使用。第119页,共159页,编辑于2022年,星期六(三)基本操作(三)基本操作“Analyze”“Regression”“Linear”打开打开“LinearRegression”对话框。对话框。选选择择欲欲处处理理的的因因变变量量和和自自变变量量,如如果果是是多多元回归要

38、选择多个自变量。元回归要选择多个自变量。还可进一步作出其它选择。还可进一步作出其它选择。第120页,共159页,编辑于2022年,星期六界面详解 w【Dependent框】w用于选入回归分析的应变量。w【Block按钮组】w由Previous和Next两个按钮组成,用于将下面Independent框中选入的自变量分组。由于多元回归分析中自变量的选入方式有前进、后退、逐步等方法,如果对不同的自变量选入的方法不同,则用该按钮组将自变量分组选入即可。下面的例子会讲解其用法。w【Independent框】w用于选入回归分析的自变量。第121页,共159页,编辑于2022年,星期六w【Method下拉列

39、表】w用于选择对自变量的选入方法,有Enter(强行进入法)、Stepwise(逐步法)、Remove(强制剔除法)、Backward(向后法)、Forward(向前法)五种。该选项对当前Independent框中的所有变量均有效。w【Selection Variable框】w选入一个筛选变量,并利用右侧的Rules钮建立一个选择条件,这样,只有满足该条件的记录才会进入回归分析。w【Case Labels框】w选择一个变量,他的取值将作为每条记录的标签。最典型的情况是使用记录ID号的变量。第122页,共159页,编辑于2022年,星期六w【StatisticsStatistics钮钮】用于选择

40、所需要的描述统计量。用于选择所需要的描述统计量。w【PlotPlot钮钮】用于选择需要绘制的回归分析诊断或预测图。用于选择需要绘制的回归分析诊断或预测图。w【SaveSave钮钮】w许多时候我们需要将回归分析的结果存储起来,然后许多时候我们需要将回归分析的结果存储起来,然后用得到的残差、预测值等做进一步的分析,用得到的残差、预测值等做进一步的分析,SaveSave钮就钮就是用来存储中间结果的。是用来存储中间结果的。w【OptionsOptions钮钮】设置回归分析的一些选项设置回归分析的一些选项第123页,共159页,编辑于2022年,星期六示例解析示例解析2000年年悉悉尼尼奥奥运运会会上上

41、第第一一次次列列入入女女子子举举重重的的项项目目。各各级别冠军的成绩如下:级别冠军的成绩如下:试利用这些数据组建模型,描述运动员举重的总成绩试利用这些数据组建模型,描述运动员举重的总成绩对运动员体重的依赖关系。根据模型分析哪些级别上对运动员体重的依赖关系。根据模型分析哪些级别上运动员举重成绩还有较大的提高潜力。运动员举重成绩还有较大的提高潜力。第124页,共159页,编辑于2022年,星期六运动员成绩运动员成绩运动员运动员 级别级别 国籍国籍 体重体重 抓举抓举挺举挺举 总成绩总成绩德拉诺娃德拉诺娃 48 48 保加利亚保加利亚 47.48 82.547.48 82.5 103 185 103

42、 185杨霞杨霞 53 53 中国中国 52.46 10052.46 100 125 225 125 225门丁维尔门丁维尔 58 58 墨西哥墨西哥 56.92 95.056.92 95.0 128 222.5 128 222.5陈晓敏陈晓敏 63 63 中国中国 62.82 112.5 130 242.562.82 112.5 130 242.5李伟宁李伟宁 69 69 中国中国 66.74 11066.74 110 132 242 132 242乌卢蒂亚乌卢蒂亚 75 75 哥伦比亚哥伦比亚 73.28 11073.28 110 135 245 135 245丁美媛丁美媛80中国中国10

43、3.56135165300第125页,共159页,编辑于2022年,星期六第九章第九章因子分析因子分析在研究实际问题时往往希望尽可能多地收集相关变在研究实际问题时往往希望尽可能多地收集相关变量,以期能对问题有比较全面、完整地把握和认识。量,以期能对问题有比较全面、完整地把握和认识。多变量处理存在计算量大和相关性问题,解决方法是多变量处理存在计算量大和相关性问题,解决方法是削减变量,但将会导致信息丢失的问题。削减变量,但将会导致信息丢失的问题。因子分析最早是由心理学家因子分析最早是由心理学家ChalesSpearman在在1904年提出,它的基本思想是将实测的多个指标,用年提出,它的基本思想是将

44、实测的多个指标,用少数几个潜在因子的线性组合来表示,并能大量少数几个潜在因子的线性组合来表示,并能大量保留原有信息。保留原有信息。第126页,共159页,编辑于2022年,星期六一、理论概要一、理论概要在在多多变变量量分分析析中中,观观测测变变量量之之间间存存在在着着一一定定的的关关联联性性,其其原原因因在在于于某某些些潜潜在在的的支支配配因因子子在在共共同同影影响响着着这这些些观观测测变变量量的的变变化化。例例如如,考考试试成成绩绩是是可可观观测测变变量量,而而影影响响考考试试成成绩绩的的可可能能是是若若干干个个公公共共的的能能力力因因素素。此此外外,各各科科考考试试成成绩绩还还可可能能受受

45、一一些独特因素的影响。些独特因素的影响。第127页,共159页,编辑于2022年,星期六1.因子分析的目的因子分析的目的w因子分析的主要目的是为了发现隐藏在一因子分析的主要目的是为了发现隐藏在一整套观测变量背后的主要因子或公共因素整套观测变量背后的主要因子或公共因素(主成分)。在尽量保持原有信息的基础(主成分)。在尽量保持原有信息的基础上,减少变量个数,简化结构,以求对整上,减少变量个数,简化结构,以求对整个变量集有更好的理解。当然,在求得这个变量集有更好的理解。当然,在求得这些因子之后,必须要对这些因子进行合理些因子之后,必须要对这些因子进行合理的解释,即的解释,即“命名命名”。第128页,

46、共159页,编辑于2022年,星期六2.因子分析的应用因子分析的主要应用有两个方面,一是寻因子分析的主要应用有两个方面,一是寻求基本结构,简化观测系统;二是对变量求基本结构,简化观测系统;二是对变量进行分类。目前,它广泛应用于心理学、进行分类。目前,它广泛应用于心理学、社会学、经济学、人口学、地质学、生理社会学、经济学、人口学、地质学、生理学、环境学以及化学和物理学等多个研究学、环境学以及化学和物理学等多个研究领域。领域。第129页,共159页,编辑于2022年,星期六3.3.因子的特点因子的特点w因子分析以较少的信息丢失为前提,将众因子分析以较少的信息丢失为前提,将众多的原始变量综合为较少几

47、个因子。多的原始变量综合为较少几个因子。w因子个数远少于原始变量的个数;因子个数远少于原始变量的个数;w因子能够反映原始变量的绝大部分信息;因子能够反映原始变量的绝大部分信息;w因子之间的线性关系不显著;因子之间的线性关系不显著;w因子具有命名解释性;因子具有命名解释性;第130页,共159页,编辑于2022年,星期六二、因子分析的过程二、因子分析的过程 因子分析的核心是用较少的互相独因子分析的核心是用较少的互相独立的因子反映原有变量的绝大部分信息。立的因子反映原有变量的绝大部分信息。可以用数学模型来表现这一思想。可以用数学模型来表现这一思想。因子分析的主要过程因子分析的主要过程:1.1.构造

48、因子模型;构造因子模型;2.2.因子载荷矩阵的旋转;因子载荷矩阵的旋转;3.3.因子解释。因子解释。第131页,共159页,编辑于2022年,星期六1.1.因子分析模型的构造因子分析模型的构造 设设有有p个个观观测测变变量量为为x1,x2,x xp p ,将将每每一一个个变变量量的的内内容容都都分分为为两两部部分分,一一部部分分由由公公共共因因子子所所表表示示,另另一一部部分分由由特特殊殊因因子子所所表示。表示。所所谓谓公公共共因因子子是是指指对对每每一一个个变变量量都都产产生生影影响响,并并为为每每一一个个变变量量所所共共有有的的少少数数几几个个因因子子。所所谓谓特特殊殊因因子子是是指指该该

49、因因子子仅仅对对某某一一个个变量产生影响,仅为某一个变量所特有。变量产生影响,仅为某一个变量所特有。第132页,共159页,编辑于2022年,星期六2.2.因子分析模型因子分析模型w基于这样的假设,相应的因子模型为:基于这样的假设,相应的因子模型为:w x x1 1=a=a1111f f1 1+a+a1212f f2 2+a+a1k1k+1 1w x x2 2=a=a2121f f1 1+a+a2222f f2 2+a+a2k2k+2 2 w x xp p=a=ap1p1f f1 1+a+ap2p2f f2 2+a+apkpk+p pw式中,式中,f f1 1,f f2 2,f fk k为公共

50、因子;为公共因子;w 1 1,2 2,p p为特殊因子;为特殊因子;w a a i j i j 为因子载荷;为因子载荷;w A=(aA=(a i j i j)p pkk,为因子载荷矩阵。,为因子载荷矩阵。第133页,共159页,编辑于2022年,星期六3.3.因子载荷因子载荷w因因子子载载荷荷a a i i j j是是第第i i个个变变量量在在第第j j个个主主因因子子上上的的载载荷荷,或或者者说说,第第i i个个变变量量与与第第j j个个主主因因子子的的相相关关系系数数。载载荷荷较较大大,则则说说明明第第i i个个变变量量与与第第j j个个主主因因子子的的关关系系越越密密切切;载载荷荷较较小

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁