《应用统计学统计描述讲稿.ppt》由会员分享,可在线阅读,更多相关《应用统计学统计描述讲稿.ppt(88页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、应用统计学统计描述第一页,讲稿共八十八页哦 在在数数据据收收集集、整整理理完完毕毕后后,进进行行深深入入统统计计分分析析之之前前,首首要要的的工工作作就就是是去去了了解解这这个个数数据据的的整整体体情情况况,随随后后考考虑虑作作深深入入的的推推断断。用用少少量量数数字字(描描述述指指标标)概概括括大大量量原原始始数数字字,对对数数据据进进行行描描述述的的统统计计方方法法即即为为描描述述性性统统计分析。计分析。统计描述统计描述 连续变量的统计描述连续变量的统计描述 分类变量的统计描述分类变量的统计描述第二页,讲稿共八十八页哦集中趋势的描述指标集中趋势的描述指标 算术均数算术均数:适合单峰和基本对
2、称的分布:适合单峰和基本对称的分布 中位数中位数:适用于任意分布类型:适用于任意分布类型 截尾均数截尾均数:数据中有极端值,用截尾均数更好:数据中有极端值,用截尾均数更好 几何均数几何均数:适用于原始数据分布不对称,但经过对数转换:适用于原始数据分布不对称,但经过对数转换 后呈对称分布的资料后呈对称分布的资料 众数众数(Mode):样本数据中出现频次最大的那个数字:样本数据中出现频次最大的那个数字 调和均数调和均数(H):较少使用,观察值:较少使用,观察值x倒数之均数的倒数,倒数之均数的倒数,常用于完成的工作量相等而所用时间不常用于完成的工作量相等而所用时间不 同,求平均速度的情况同,求平均速
3、度的情况第三页,讲稿共八十八页哦 全距全距 大体了解数据的分布范围,用于预备性检查大体了解数据的分布范围,用于预备性检查 方差和标准差方差和标准差 适用于正态分布适用于正态分布 百分位数百分位数 如中位数(如中位数(P50)、四分位数()、四分位数(P25、P50、P75)四分位间距四分位间距 即即P75-P25,适用于任意分布类型,不受极端值影响,适用于任意分布类型,不受极端值影响 变异系数变异系数(CV)S/,适用于测量尺度相差太大或数据量纲不同时,适用于测量尺度相差太大或数据量纲不同时,比较两组数据离散程度的大小比较两组数据离散程度的大小离散趋势的描述指标离散趋势的描述指标第四页,讲稿共
4、八十八页哦 SPSS的的许许多多模模块块均均可可完完成成统统计计描描述述的的任任务务,除除各各种种用用于于统统计计推推断断的的过过程程会会附附带带进进行行相相关关的的统统计计描描述述外外,SPSS还还专专门门提提供供了了几几个个用用于于连连续续变变量量统统计计描描述述的的过过程程,均均集集中中于于AnalyzeDescriptive Statistics子菜单中。子菜单中。Frequencies 过程过程 Descriptives 过程过程 Explore 过程过程 Ratio 过程过程第五页,讲稿共八十八页哦 Frequencies:产产生生原原始始数数据据的的频频数数表表,并并能能计计算算
5、各各种种百百分分数数,并并可可绘绘制制频频数数图图,如如连连续续型型变变量量的的直直方方图图,或或分分类类变变量量的的饼饼图图或或条条图。下面以图。下面以demo.sav为例,对人群的年龄数据(为例,对人群的年龄数据(age)进行描述。)进行描述。Frequencies 过程过程第六页,讲稿共八十八页哦 若无变量标签,则列表框中只显示变量名若无变量标签,则列表框中只显示变量名 对话框中,从左边变量列表中选择要分析的变量,对话框中,从左边变量列表中选择要分析的变量,放入右边的放入右边的Variables(变量)列表中(变量)列表中至至少少一一个个变变量量选选入入后后,OK按按钮钮才才可使用可使用
6、Frequencies 过程过程变量标签变量标签变量名变量名第七页,讲稿共八十八页哦 鼠标右键单击变量,可以获得更多变量信息鼠标右键单击变量,可以获得更多变量信息 选择下拉按钮,显示所有定义的值标签选择下拉按钮,显示所有定义的值标签Frequencies 过程过程第八页,讲稿共八十八页哦:表示该变量为数值型变量表示该变量为数值型变量:表示该变量为字符型变量,且右下角的表示该变量为字符型变量,且右下角的表示短字符,表示短字符,即变量长度即变量长度=8位位Frequencies 过程过程第九页,讲稿共八十八页哦 Statistics:设定要分析的统计量:设定要分析的统计量分位数值分位数值集中趋势集
7、中趋势离散趋势离散趋势分布指标分布指标若若数数据据为为组组中中值值,将其选中将其选中本本例例选选择择四四分分位位数数和和5、95分分位数位数Frequencies 过程过程第十页,讲稿共八十八页哦本例选中绘制直方图本例选中绘制直方图图图表表类类型型:箱箱式式图图、饼饼图图、直方图等直方图等Frequencies 过程过程 Charts:设定要绘制的统计图:设定要绘制的统计图第十一页,讲稿共八十八页哦 Format:在:在SPSS对话框中,用于设定结果文件中的对话框中,用于设定结果文件中的 数据格式,通常默认即可。数据格式,通常默认即可。数据排序方式数据排序方式 多变量分析时的显示方式多变量分析
8、时的显示方式 设定组别超过设定组别超过n组时不显示表格组时不显示表格Frequencies 过程过程第十二页,讲稿共八十八页哦 通过大纲视图可以快速定位各项结果通过大纲视图可以快速定位各项结果 例如:点击大纲视图上的例如:点击大纲视图上的Histogram,则可快速定位至,则可快速定位至 age的频数直方图的频数直方图Frequencies 过程过程第十三页,讲稿共八十八页哦分析结果分析结果(1)统计量统计量 人人群群年年龄龄无无缺缺失失值值,四四分分位位数数为为33岁岁、41岁岁、51岁岁,即即人人群群中中有有1/4小小于于33岁岁,1/2小小于于41岁岁,1/4大大于于51岁岁。另另外外,
9、90的的人人在在2464岁之间。岁之间。Frequencies 过程过程第十四页,讲稿共八十八页哦Frequencies 过程过程分析结果分析结果(2)频数表频数表Frequency:频数:频数Percent:百分比:百分比当前频数当前频数/总数(包括缺失值)总数(包括缺失值)Valid Percent:有效百分比:有效百分比当前频数当前频数/有效总数(不包括缺失值)有效总数(不包括缺失值)Cumulative Percent:累积百分比:累积百分比累积频数累积频数/有效总数(不包括缺失值)有效总数(不包括缺失值)第十五页,讲稿共八十八页哦Frequencies 过程过程分析结果分析结果(3)
10、频数直方图)频数直方图第十六页,讲稿共八十八页哦 Descriptive:一一般般性性统统计计描描述述,相相对对于于Frequencies,它它不不能能绘绘制制统统计计图图,所所能能计计算算的的统统计计量量也也较较少少,适适用用于于对对服服从从正正态态分分布布的的连连续续型型变变量量进进行行描描绘绘。同同样样以以demo.sav为为例例,对对人人群群的的年年龄龄数数据据(age)进行描述。)进行描述。Descriptives 过程过程第十七页,讲稿共八十八页哦 单击中间的箭头,可以实现变量从一张表移入另一张表,单击中间的箭头,可以实现变量从一张表移入另一张表,现将变量现将变量age移入右边移入
11、右边variable列表中列表中Descriptives 过程过程第十八页,讲稿共八十八页哦 Options:设定要分析的统计量及数据的显示顺序:设定要分析的统计量及数据的显示顺序本例选择:本例选择:均均数数、标标准准差差、最最大大值值、最最小小值、峰度系数、偏度系数等值、峰度系数、偏度系数等Descriptives 过程过程第十九页,讲稿共八十八页哦 人人群群年年龄龄的的最最小小值值为为18岁岁,最最大大值值为为77岁岁,均均数数42.06岁岁,标标准准差差12.29岁岁,偏偏度度系系数数0.299,峰峰度度系系数数-0.602,基基本本近近似似正正态。态。Descriptives 过程过程
12、分析结果分析结果描述性统计量描述性统计量第二十页,讲稿共八十八页哦 Explore:对对连连续续型型资资料料分分布布不不清清楚楚时时的的探探索索性性分分析析,可可以以分分类类别别进进行行描描述述(Frequencies和和Descriptives不不行行),计计算算多多种种描描述述统统计计量量,给给出出各各种种统统计计图图,进进行行简简单单参参数数估估计计。以以demo.sav为为例例,对对男男女女性性(gender)的年龄()的年龄(age)分别进行描述。)分别进行描述。Explore 过程过程第二十一页,讲稿共八十八页哦要进行分析的应变量:要进行分析的应变量:age分类变量:分类变量:ge
13、nderExplore 过程过程第二十二页,讲稿共八十八页哦点估计中的稳健估计:点估计中的稳健估计:M估计估计极端值极端值百分位数百分位数一般描述一般描述 默认情况下,选择的是默认情况下,选择的是Descriptives,本例选择默认,本例选择默认Explore 过程过程第二十三页,讲稿共八十八页哦箱式图箱式图用于正态性检验的用于正态性检验的QQ图图 茎叶图茎叶图直方图直方图Levenes方差齐性检验选项方差齐性检验选项Explore 过程过程第二十四页,讲稿共八十八页哦 缺失值的设置,一般默认即可缺失值的设置,一般默认即可Explore 过程过程第二十五页,讲稿共八十八页哦 本例无缺失值,有
14、效人数女性本例无缺失值,有效人数女性3179人,男性人,男性3221人人Explore 过程过程分析结果分析结果(1)缺失值报告缺失值报告第二十六页,讲稿共八十八页哦 现仅对女性的分析结果依次解释,现仅对女性的分析结果依次解释,查看详情查看详情Explore 过程过程分析结果分析结果(2)统计量统计量第二十七页,讲稿共八十八页哦集中趋势指标、离散趋势指标集中趋势指标、离散趋势指标分布特征指标、参数估计分布特征指标、参数估计Explore 过程过程分析结果分析结果第二十八页,讲稿共八十八页哦 集集中中趋趋势势指指标标:3179名名女女性性的的平平均均年年龄龄为为41.74岁岁(Mean),去去掉
15、掉两两侧侧各各5的的极极端端值值后后,截截尾尾均均数数为为41.45岁岁(5 Trimmed Mean),中中位位数数41.00岁岁(Median),本本例例上上述述三三指指标标值值基基本本相相同同,可可推推测测数数据应当是对称分布的。据应当是对称分布的。Explore 过程过程 离离散散趋趋势势指指标标:年年龄龄的的方方差差为为142.988岁岁2(Variance),其其平平方方根根即即标标准准差差为为11.958岁岁(Std.Deviation)。全全部部女女性性中中最最小小的的18岁岁(Minimum),最最大大的的76岁岁(Maximum)。两两者者之之差差即即全全距距58岁岁(Ra
16、nge),中中 间间 一一 半半 女女 性性 的的 年年 龄龄 差差 即即 四四 分分 位位 数数 间间 距距17岁岁(Interquartile Range)。)。第二十九页,讲稿共八十八页哦 分分布布特特征征指指标标:表表明明数数据据偏偏离离正正态态分分布布程程度度的的偏偏度度系系数数(Skewness)为为0.327,峰峰度度系系数数(Kurtosis)为为-0.534。偏偏度度系系数数大大于于0为为正正偏偏态态,峰峰度度系系数数小小于于0表表明明峰峰比比正正态态低低,本本例例偏偏度度和和峰度系数均接近峰度系数均接近0,因此认为近似正态分布。,因此认为近似正态分布。参参数数估估计计:均均
17、数数(Mean)的的标标准准误误(Std.Error)为为0.212岁岁,相相应应的的总总体体均均数数95可可信信区区间间(95Confidence Interval for Mean)为为41.3242.15岁岁,表表明明有有95%的的可可能能性性认认为为该该区区间间包包含含了总体均数。了总体均数。Explore 过程过程第三十页,讲稿共八十八页哦Explore 过程过程分析结果分析结果(3)茎叶图茎叶图第三十一页,讲稿共八十八页哦Explore 过程过程分析结果分析结果(4)箱式图箱式图最小值:最小值:18岁岁最大值:最大值:76岁岁四分位间距:四分位间距:17岁岁第三十二页,讲稿共八十八
18、页哦 Ratio:功功能能较较特特殊殊,用用于于对对两两个个连连续续性性变变量量计计算算相相对对比比指指标标,它它可可以以计计算算一一系系列列非非常常专专业业的的相相对对比比描描述述指指标标,相相对对而而言言使用面较窄,在此不详述。使用面较窄,在此不详述。Ratio 过程过程第三十三页,讲稿共八十八页哦 SPSS的的许许多多分分析析过过程程均均可可完完成成统统计计描描述述的的任任务务,还还专专门门提提供供了了用用于于分分类类变变量量统统计计描描述述的的过过程程,均均集集中中于于AnalyzeDescriptive Statistics子菜单中。子菜单中。Frequencies 过程过程 Cro
19、sstabs 过程过程第三十四页,讲稿共八十八页哦 Frequencies:主主要要针针对对分分类类输输出出频频数数表表,从从而而得得到到频频数数、百百分分数数、累累计计百百分分比比,给给出出原原始始频频数数表表,众众数数,条条图图,饼饼图图等等。以以demo.sav为为例例,分分别别对对人人群群的的教教育育水水平平(ed)、职职业业满满意意度度(jobsat)进行描述。)进行描述。Frequencies 过程过程第三十五页,讲稿共八十八页哦 6400人的教育水平和职业满意度的数据都是完整的,人的教育水平和职业满意度的数据都是完整的,无缺失值。无缺失值。Frequencies 过程过程分析结果
20、分析结果(1)缺失值报告缺失值报告第三十六页,讲稿共八十八页哦Frequencies 过程过程分析结果分析结果(2)频数表频数表第三十七页,讲稿共八十八页哦 Crosstabs:用用于于输输出出交交叉叉列列联联表表,以以demo.sav为为例例,描描述述人人群群的的婚婚姻姻情情况况marital(0、1)、退退休休状状况况retire(0、1)的交叉频数分布)的交叉频数分布Crosstabs 过程过程第三十八页,讲稿共八十八页哦用于分类变量统计推断时的参数设定,此例暂不使用用于分类变量统计推断时的参数设定,此例暂不使用Crosstabs 过程过程行变量:行变量:ed列列 变变 量量:juboc
21、at第三十九页,讲稿共八十八页哦Cells:在:在SPSS对话框中,对于单元格要显示的参数进行设定对话框中,对于单元格要显示的参数进行设定合计合计百分位数百分位数残差残差非整权重设置非整权重设置Crosstabs 过程过程第四十页,讲稿共八十八页哦 6400人的婚姻状况和退休状况的数据都是完整的,人的婚姻状况和退休状况的数据都是完整的,无缺失值。无缺失值。Crosstabs 过程过程分析结果分析结果(1)缺失值报告缺失值报告第四十一页,讲稿共八十八页哦 婚姻状况(行)和退休状况(列)的交叉表婚姻状况(行)和退休状况(列)的交叉表 Crosstabs 过程过程分析结果分析结果(2)交叉表交叉表行
22、百分比行百分比列百分比列百分比第四十二页,讲稿共八十八页哦交叉分组下的频数分析Crosstabs 过程应用过程应用目的:掌握多变量的联合分布特征,分析变量间的关系。功能:产生描述多变量联合分布的列联表比较两个(或以上)样本率或比例差异(卡方检验)变量间的关联度分析第四十三页,讲稿共八十八页哦1、变量关系概述变量间的关系:有关与无关。有关:如果一个变量的取值发生变化,另外一个变量的取值也相应发生变化无关:如果一个变量的变化不引起另一个变量的变化。第四十四页,讲稿共八十八页哦性别与四级英语考试通过率的相关统计性别与四级英语考试通过率的相关统计表述:结果显示,当性别取值不同时,通过率变量的取表述:结
23、果显示,当性别取值不同时,通过率变量的取值并未发生变化,因此性别与考试通过率无关。值并未发生变化,因此性别与考试通过率无关。自变量的不同取值在因变量上无差异,两变量无关。自变量的不同取值在因变量上无差异,两变量无关。自变量的不同取值在因变量上有差异,两变量有关。自变量的不同取值在因变量上有差异,两变量有关。因变量自变量第四十五页,讲稿共八十八页哦表述:统计结果显示,当性别取值不同时,收入变量的取表述:统计结果显示,当性别取值不同时,收入变量的取值发生了变化,因此性别与月收入有关。值发生了变化,因此性别与月收入有关。自变量因变量第四十六页,讲稿共八十八页哦2、双变量关系的统计类型、双变量关系的统
24、计类型第四十七页,讲稿共八十八页哦观测频数行变量列边缘分布行边缘分布列变量期望频数列联表的格式列联表的格式第四十八页,讲稿共八十八页哦列联分析行列变量间的关系两变量是否相互独立。两变量是否有共变趋势。一变量的变化多大程度上能由另一变量的变化来解释。第四十九页,讲稿共八十八页哦卡方测量的原理:卡方测量的原理:卡方测量用来考察两变量是否独立(无关)。其原理是根据这一概率定理:若两变量无关,则两其原理是根据这一概率定理:若两变量无关,则两变量中联合事件发生的概率应等于各自独立发生的变量中联合事件发生的概率应等于各自独立发生的概率乘积。概率乘积。在列联表中,这一定理就具体转化为:在列联表中,这一定理就
25、具体转化为:若两变量无关,则若两变量无关,则两变量中条件概率应等于各自边缘概率的乘积。反之,则两两变量中条件概率应等于各自边缘概率的乘积。反之,则两变量有关,或两变量不独立。变量有关,或两变量不独立。第五十页,讲稿共八十八页哦由此可见,期望值与观察值的差距越大,说明两变量越不独立,也就越相关。因此,Pearson卡方的表达式如下:当为四格表时,卡方的取值在0之间。卡方值越大,行列变量的关联性越强。第五十一页,讲稿共八十八页哦列联表的产生:AnalyzeDescriptive StatisticsCrosstabs第五十二页,讲稿共八十八页哦界面说明【Rows】:用于选择行*列表中的行变量。【C
26、olumns】:用于选择行*列表中的列变量。【Layer】:层变量。【Display clustered bar charts】:显示复式条图。【Suppress table】:不输出行*列表。【Exact】:针对2*2以上的行*列表设定计算确切概率的方法。注:安装SPSS时除非特别选定,否则Exact模块一般不安装。第五十三页,讲稿共八十八页哦列联表所研究的问题p城镇和农村的储户收入水平状况相同吗?行变量:户口行变量:户口列变量:月收入列变量:月收入p不同年龄段的储户对物价水平的看法一致吗?行变量:年龄段行变量:年龄段列变量:物价水平列变量:物价水平p城乡储户认为存钱合算的比例是否相同?行变
27、量:户口行变量:户口列变量:什么合算列变量:什么合算第五十四页,讲稿共八十八页哦回答城乡储户收入水平是否相同的问题,需要引入卡方检验。第五十五页,讲稿共八十八页哦1、卡方检验步骤提出假设H0:行、列变量独立(对立假设为?)计算检验统计量(卡方统计量服从(r-1)*(c-1)个自由度的卡方分布)确定检验水平与界值结果判断:查界值表、看P值大小第五十六页,讲稿共八十八页哦卡方检验操作:Statistics选项第五十七页,讲稿共八十八页哦【Cells】:用于定义列联表单元格中需要计算的指标:Counts:是否输出实际观察数(Observed)和理论数(Expected);Percentages:是否
28、输出行百分数(Row)、列百分数(Column)以及合计百分数(Total);Residuals:选择残差的显示方式;【Format】:用于选择行变量是升序还是降序排列。第五十八页,讲稿共八十八页哦结果:城乡储户的收入水平没有明显差异。第五十九页,讲稿共八十八页哦Pearson卡方值的影响因素实际频数与期望频数之差期望频数的大小列联表的单元格子数样本量大小第六十页,讲稿共八十八页哦2、卡方检验的校正A.自由度为1时,期望频数均大于5:连续性校正(Continuity Correction)B.20%的单元格期望频数小于5:似然比卡方检验(Likelihood Ratio)C.T5 and n4
29、0或 T=0.7,一致性程度较高;0.40.7,一致性程度一般;0.4,一致性较弱第七十五页,讲稿共八十八页哦第七十六页,讲稿共八十八页哦第七十七页,讲稿共八十八页哦例:两种方法同时检测患者乙肝抗体的阳性率两种方法的阳性率有无差别?两种方法的检测情况是否一致?第七十八页,讲稿共八十八页哦五、多选项分析p目的:解决问卷设计中的多选项问题的分析p多选项分析步骤:1.先将多选项问题分解,分解方法(是否丢失信息、是否易于分析):二分法:把每个选项均转为二分类变量有序分类法:把该问题按顺序转为多个问题2.再进行频数分析第七十九页,讲稿共八十八页哦例子:高考志愿调查p请按顺序选择你想报考的三所大学北大清华
30、人大北师大北京理工大学北外第一 第二 第三 。第八十页,讲稿共八十八页哦二分法分解你报考北大吗?1、是 2、否你报考清华吗?1、是 2、否你报考北师大吗?1、是 2、否你报考北外吗?1、是 2、否你报考人大吗?1、是 2、否你报考北理工吗?1、是 2、否第八十一页,讲稿共八十八页哦有序分类法分解志愿一:16志愿二:16志愿三:16有序分类法较优。另一个例子:您有过下列症状吗(可多选)?另一个例子:您有过下列症状吗(可多选)?A.失眠、失眠、B.多梦、多梦、C.情绪低落、情绪低落、D.记忆力减退记忆力减退如何分解?如何分解?第八十二页,讲稿共八十八页哦SPSS的多选项分析p基本操作:Analyz
31、eMultiple ResponseDefine sets 定义多选项第八十三页,讲稿共八十八页哦多选项频数分析基本操作:AnalyzeMultiple ResponseFrequencies 多选项频数分析例:对居民储蓄调查数据,指定目的一、目的二、目的三为多选项变量集后,选择频数分析后,SPSS自动汇总各种目的的频数表如对不同年龄段的居民储蓄目的分析,可选择多选项的交叉表分析,分析不同年龄人群的储蓄目的第八十四页,讲稿共八十八页哦Category labelCodeCountPct of ResponsesPct of Cases买高档消费品1657.723.0结婚用2516.018.1正
32、常生活零用317921.263.5做生意4526.218.4购买农业生产资料5161.95.7买证券及单位集资6344.012.1买房或建房78810.431.2支付孩子教育费8769.027.0养老金9556.519.5防以外事故1010712.737.9得利息1112014.242.6第八十五页,讲稿共八十八页哦六、比率分析目的:对两变量间的比率关系进行简单或分组描述分析。特点:除基本描述统计量外,还有Weighted Mean:加权比率均值,是两变量均值的比AAD:平均绝对离差;COD:离散系数;PRD:相关价格微分,是比率均值与加权比率均值的比;COV:基于均值或中位数的变异系数第八十六页,讲稿共八十八页哦基本操作:Descriptive Statistics Ratio过程第八十七页,讲稿共八十八页哦第八十八页,讲稿共八十八页哦