《《描述统计分析》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《描述统计分析》PPT课件.ppt(49页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第3章 描述统计分析 利用正确的统计方法对数据进行适当的整理利用正确的统计方法对数据进行适当的整理和显示,描述探索出数据内在数据规律性,掌握和显示,描述探索出数据内在数据规律性,掌握统计思想,培养学生学习统计学的兴趣,为继续统计思想,培养学生学习统计学的兴趣,为继续学习推论统计方法及应用各种统计方法解决实际学习推论统计方法及应用各种统计方法解决实际问题打下必要而坚实的基础。问题打下必要而坚实的基础。3.1 基本统计分析概述基本统计分析概述一、基本统计分析包括的内容一、基本统计分析包括的内容频度分析频度分析Frequencies统计描述统计描述Descriptives探索分析探索分析Explor
2、e多维频数分布交叉列联表多维频数分布交叉列联表Crosstable摘要报告表摘要报告表Summarize行形式的输出报告行形式的输出报告Report Summaries in Row列形式的输出报告列形式的输出报告Report Summaries in Column二、统计分析的特殊图形二、统计分析的特殊图形箱图箱图Boxplot 茎叶图茎叶图Stem-and Leaf Plot集中趋势组(集中趋势组(集中趋势组(集中趋势组(central Tendencycentral Tendencycentral Tendencycentral Tendency):):):):平均值平均值平均值平均值
3、Mean Mean Mean Mean中位数中位数中位数中位数 Median Median Median Median众数众数众数众数 Mode Mode Mode Mode求和求和求和求和 Sum Sum Sum Sum离中趋势组(离中趋势组(离中趋势组(离中趋势组(dispersion dispersion dispersion dispersion):标准差标准差标准差标准差 方差方差方差方差 Variance Variance Variance Variance跨度跨度跨度跨度 Range Range Range Range最小值最小值最小值最小值 Minimum Minimum Mi
4、nimum Minimum最大值最大值最大值最大值 Maximum Maximum Maximum Maximum平均值的标准误平均值的标准误平均值的标准误平均值的标准误 S.E.Mean S.E.Mean S.E.Mean S.E.Mean 单变量的统计描述单变量的统计描述单变量的统计描述单变量的统计描述一、频数分布一、频数分布一、频数分布一、频数分布:某变量各种取值出现的次数或频数。某变量各种取值出现的次数或频数。某变量各种取值出现的次数或频数。某变量各种取值出现的次数或频数。二、集中趋势的度量二、集中趋势的度量二、集中趋势的度量二、集中趋势的度量平均值:平均值:平均值:平均值:MeanM
5、eanMeanMean中位数:中位数:中位数:中位数:MedianMedianMedianMedian表示位于数据数列中心位置的那一项的大小。表示位于数据数列中心位置的那一项的大小。表示位于数据数列中心位置的那一项的大小。表示位于数据数列中心位置的那一项的大小。奇个数:第(奇个数:第(奇个数:第(奇个数:第(n+1n+1n+1n+1)/2/2/2/2个数的值个数的值个数的值个数的值偶个数:第偶个数:第偶个数:第偶个数:第n/2n/2n/2n/2与第与第与第与第(n/2)+1(n/2)+1(n/2)+1(n/2)+1两个数的均值两个数的均值两个数的均值两个数的均值众数:众数:众数:众数:Mode
6、ModeModeMode数据中重复出现次数最多的数值。数据中重复出现次数最多的数值。数据中重复出现次数最多的数值。数据中重复出现次数最多的数值。三、离中趋势的度量三、离中趋势的度量描述数据个性方面的特征,即数据的分散程描述数据个性方面的特征,即数据的分散程度或差异程度。度或差异程度。全距全距(range)(range):最大值与最小值之差。:最大值与最小值之差。方差(方差(VarianceVariance):标准差(标准差(Standard deviationStandard deviation):方差的平方根。方差的平方根。偏偏偏偏(斜斜斜斜)度度度度(SkewnessSkewnessSke
7、wnessSkewness):描述分布偏离正态分布的程度,描述分布偏离正态分布的程度,描述分布偏离正态分布的程度,描述分布偏离正态分布的程度,即偏离对称的程度。即偏离对称的程度。即偏离对称的程度。即偏离对称的程度。Skewness Skewness Skewness Skewness Skewness0:Skewness0:Skewness0:Skewness0:正偏离正偏离正偏离正偏离 Skewness0:Skewness0:Skewness0:Skewness0 Kurtosis0 Kurtosis0 Kurtosis0 分布集中趋势强分布集中趋势强分布集中趋势强分布集中趋势强 Kurto
8、sis0 Kurtosis0 Kurtosis0 Kurtosis=(75%75%75%75%百分位数百分位数百分位数百分位数-25%-25%-25%-25%百分位数)百分位数)百分位数)百分位数)*1.5+75%*1.5+75%*1.5+75%*1.5+75%百分位数百分位数百分位数百分位数下奇异值下奇异值下奇异值下奇异值=25%=25%=25%=(75%75%75%75%百分位数百分位数百分位数百分位数-25%-25%-25%-25%百分位数)百分位数)百分位数)百分位数)*3+75%*3+75%*3+75%*3+75%百百百百分位数分位数分位数分位数下极端值下极端值下极端值下极端值=25
9、%=25%=25%=98)1.00 Extremes (=98)1.00 Extremes (=98)1.00 Extremes (=98)Each leaf:1 case(s)Each leaf:1 case(s)Each leaf:1 case(s)Each leaf:1 case(s)第一列第一列第一列第一列 频数频数频数频数FrequencyFrequencyFrequencyFrequency:表示样本的频数。:表示样本的频数。:表示样本的频数。:表示样本的频数。第二列第二列第二列第二列 茎茎茎茎StemStemStemStem:表达整数表达整数表达整数表达整数第三列第三列第三列第三
10、列 叶叶叶叶Leaf:Leaf:Leaf:Leaf:每片叶表示小数的量级。每片叶表示小数的量级。每片叶表示小数的量级。每片叶表示小数的量级。Stem width Stem width Stem width Stem width 表示茎宽,即倍率,例如茎宽表示茎宽,即倍率,例如茎宽表示茎宽,即倍率,例如茎宽表示茎宽,即倍率,例如茎宽=10.00 =10.00 =10.00 =10.00 当茎当茎当茎当茎stem=9stem=9stem=9stem=9时,表示时,表示时,表示时,表示90909090Each leaf Each leaf Each leaf Each leaf 表示每片叶表示样本数
11、,例如当表示每片叶表示样本数,例如当表示每片叶表示样本数,例如当表示每片叶表示样本数,例如当Each Each Each Each leaf=2 case(s)leaf=2 case(s)leaf=2 case(s)leaf=2 case(s)时,每片叶子代表的样本数为时,每片叶子代表的样本数为时,每片叶子代表的样本数为时,每片叶子代表的样本数为2 2 2 2个个个个样本。样本。样本。样本。例如在上述例子中,第六行中的数据表示共有七例如在上述例子中,第六行中的数据表示共有七例如在上述例子中,第六行中的数据表示共有七例如在上述例子中,第六行中的数据表示共有七个样本,其中个样本,其中个样本,其中个
12、样本,其中70707070的样本有三个。最后一行中的数的样本有三个。最后一行中的数的样本有三个。最后一行中的数的样本有三个。最后一行中的数据表示共有一个样本,该样本为极端值,大于等据表示共有一个样本,该样本为极端值,大于等据表示共有一个样本,该样本为极端值,大于等据表示共有一个样本,该样本为极端值,大于等于于于于98989898。pNormality plot with testNormality plot with testNormality plot with testNormality plot with test:正态分布检验并给出正正态分布检验并给出正正态分布检验并给出正正态分布检验
13、并给出正态分布态分布态分布态分布Q-QQ-QQ-QQ-Q图图图图 Spread vs.Level with Spread vs.Level with LeveneLevene testtest 方差齐性检验及分布水平散点图方差齐性检验及分布水平散点图方差齐性检验及分布水平散点图方差齐性检验及分布水平散点图 NoneNoneNoneNone:不输出方差齐性检验及分布水平散点图不输出方差齐性检验及分布水平散点图不输出方差齐性检验及分布水平散点图不输出方差齐性检验及分布水平散点图 Power estimationPower estimationPower estimationPower estima
14、tion:数据转换所得方差齐性的力数据转换所得方差齐性的力数据转换所得方差齐性的力数据转换所得方差齐性的力度估计,可帮助决定是否需要做数据转换。度估计,可帮助决定是否需要做数据转换。度估计,可帮助决定是否需要做数据转换。度估计,可帮助决定是否需要做数据转换。Transformed powerTransformed powerTransformed powerTransformed power:对转换后数据做方差齐性检:对转换后数据做方差齐性检:对转换后数据做方差齐性检:对转换后数据做方差齐性检验及分布水平散点图。验及分布水平散点图。验及分布水平散点图。验及分布水平散点图。Untransform
15、edUntransformedUntransformedUntransformed:不做数据转换。不做数据转换。不做数据转换。不做数据转换。“Option”“Option”缺失值处理选项缺失值处理选项 Exclude cases Exclude cases Exclude cases Exclude cases ListwiseListwiseListwiseListwise:对于选入目标变量对于选入目标变量对于选入目标变量对于选入目标变量列表中的有缺失值的变量,无论其参与不参与当前列表中的有缺失值的变量,无论其参与不参与当前列表中的有缺失值的变量,无论其参与不参与当前列表中的有缺失值的变量,
16、无论其参与不参与当前运算,相应个案将被排除。运算,相应个案将被排除。运算,相应个案将被排除。运算,相应个案将被排除。Exclude cases Exclude cases Exclude cases Exclude cases PairwisePairwisePairwisePairwise:对于选入目标变量对于选入目标变量对于选入目标变量对于选入目标变量列表中的有缺失值的变量,如果其参与运算,相应列表中的有缺失值的变量,如果其参与运算,相应列表中的有缺失值的变量,如果其参与运算,相应列表中的有缺失值的变量,如果其参与运算,相应个案将被排除。个案将被排除。个案将被排除。个案将被排除。Repor
17、t Value:Report Value:Report Value:Report Value:把分组变量中含缺失值的个案把分组变量中含缺失值的个案把分组变量中含缺失值的个案把分组变量中含缺失值的个案单独分为一组。单独分为一组。单独分为一组。单独分为一组。3.6 Ratio 3.6 Ratio 比例统计量比例统计量操作步骤操作步骤操作步骤操作步骤:选择选择AnalyzeDescriptive Statistics AnalyzeDescriptive Statistics RatioRatio Numerator:选入作为相对比分子的变量:选入作为相对比分子的变量 Denominator:选择作
18、为相对比分母的变量:选择作为相对比分母的变量 Group Variable:选入分组变量:选入分组变量 n Sort by group variable:将数据按照分组变量排序:将数据按照分组变量排序n Display results:在结果窗口输出分析结果(系在结果窗口输出分析结果(系 统默认)统默认)n Save results to external file:将分析结果存为将分析结果存为外部数据文件外部数据文件 Ascending order:升序排列 Descending order:降序排列 “Statistics”“Statistics”按钮按钮Central TendencyC
19、entral Tendency:集中趋势集中趋势 DispersionDispersion:离散趋势离散趋势p AADAADAADAAD:平均绝对离差平均绝对离差平均绝对离差平均绝对离差,|全部比例全部比例全部比例全部比例-比例中位数比例中位数比例中位数比例中位数|/n|/n|/n|/np CODCODCODCOD:离散系数。离散系数。离散系数。离散系数。=AAD/=AAD/=AAD/=AAD/比例的中位数比例的中位数比例的中位数比例的中位数p PRD:PRD:PRD:PRD:价格相关微分。价格相关微分。价格相关微分。价格相关微分。=均值均值均值均值/加权均值加权均值加权均值加权均值pMedi
20、an centered COVMedian centered COVMedian centered COVMedian centered COV:基于中位数的变异系数基于中位数的变异系数基于中位数的变异系数基于中位数的变异系数,SQRTSQRTSQRTSQRT(全部比例全部比例全部比例全部比例-比例中位数比例中位数比例中位数比例中位数)/中位数中位数中位数中位数p Mean centered COVMean centered COVMean centered COVMean centered COV:基于均值的变异系数。基于均值的变异系数。基于均值的变异系数。基于均值的变异系数。=标标标标准差
21、准差准差准差/均值均值均值均值Concentration indexConcentration index:计算集中系数计算集中系数p Ratio betweenRatio betweenRatio betweenRatio between:自定义区间上下界自定义区间上下界自定义区间上下界自定义区间上下界p Ratio%of medianRatio%of medianRatio%of medianRatio%of median:Ratio between:Ratio between:Ratio between:Ratio between:3.7 Mean 3.7 Mean 平均数分析平均数分析
22、Means过程用于统计分组变量的的基本统计量。过程用于统计分组变量的的基本统计量。这些基本统计量包括:均值(这些基本统计量包括:均值(Mean)、标准差)、标准差(Standard Deviation)、观察量数目、观察量数目(Number of Cases)、方差、方差(Variance)。Means过程还可以过程还可以列出方差表和线性检验结果。列出方差表和线性检验结果。操作步骤操作步骤操作步骤操作步骤:选择选择AnalyzeCompare means MeansAnalyzeCompare means Means1)设置分析变量)设置分析变量从左边的变量列表中选中要分析变量后,放入到从左边
23、的变量列表中选中要分析变量后,放入到因因因因子变量列表子变量列表子变量列表子变量列表“Dependent ListDependent List:”:”框里,可以从左边变框里,可以从左边变量列表里选择一个或多个变量进行统计。量列表里选择一个或多个变量进行统计。从左边的变量列表中选中分组变量,放入从左边的变量列表中选中分组变量,放入“Independent List”“Independent List”分组变量框分组变量框里,可以从左边变量里,可以从左边变量列表里选择一个或多个分组变量。列表里选择一个或多个分组变量。Layer 1 of 1Layer 1 of 1:多个分组变量既可放在一层,又可放
24、在多个分组变量既可放在一层,又可放在不同层。利用图中的不同层。利用图中的“PreviousPrevious”和和“NextNext”按钮按钮可以在不同层之间切换。可以在不同层之间切换。2)选择输出统计量)选择输出统计量 单单 击击“Options”按钮。在按钮。在“Options”对话框对话框中,中,“Statistics”框中列出了框中列出了SPSS可求的统计量。可求的统计量。在在在在“Cell StatisticsCell Statistics”框中列出了已选中的统计量。框中列出了已选中的统计量。框中列出了已选中的统计量。框中列出了已选中的统计量。从从从从“Statistics”“Stat
25、istics”框中选择要生成的统计量。框中选择要生成的统计量。框中选择要生成的统计量。框中选择要生成的统计量。“Statistics for First LayerStatistics for First Layer”框中列出了第一层分框中列出了第一层分框中列出了第一层分框中列出了第一层分组的另外两个统计量。组的另外两个统计量。组的另外两个统计量。组的另外两个统计量。pp “AnovaAnova table and table and etaeta”选中将给出方差分析表选中将给出方差分析表选中将给出方差分析表选中将给出方差分析表和和和和etaeta统计量。统计量。统计量。统计量。etaeta统
26、计量为分组变量与生成统计统计量为分组变量与生成统计统计量为分组变量与生成统计统计量为分组变量与生成统计量的变量关系紧密程度的度量。量的变量关系紧密程度的度量。量的变量关系紧密程度的度量。量的变量关系紧密程度的度量。p“Test for Test for IinearityIinearity”选中给出分析变量和分组变选中给出分析变量和分组变选中给出分析变量和分组变选中给出分析变量和分组变量的线性关系参数,其前提条件为:分组变量和量的线性关系参数,其前提条件为:分组变量和量的线性关系参数,其前提条件为:分组变量和量的线性关系参数,其前提条件为:分组变量和分析变量线性相关。分析变量线性相关。分析变量
27、线性相关。分析变量线性相关。交叉列联表交叉列联表交叉列联表交叉列联表利用频数或相对频数研究变量与变量之间的关系。利用频数或相对频数研究变量与变量之间的关系。利用频数或相对频数研究变量与变量之间的关系。利用频数或相对频数研究变量与变量之间的关系。一、交叉列联表结构一、交叉列联表结构一、交叉列联表结构一、交叉列联表结构定义:行变量和列变量定义:行变量和列变量定义:行变量和列变量定义:行变量和列变量例如:考试成绩数据:例如:考试成绩数据:例如:考试成绩数据:例如:考试成绩数据:定义年龄为行变量,分定义年龄为行变量,分定义年龄为行变量,分定义年龄为行变量,分3 3 3 3个水平,个水平,个水平,个水平
28、,定义成绩为列变量,分定义成绩为列变量,分定义成绩为列变量,分定义成绩为列变量,分5 5 5 5个水平,个水平,个水平,个水平,从而产生一个从而产生一个从而产生一个从而产生一个3 53 53 53 5的交叉列联表。的交叉列联表。的交叉列联表。的交叉列联表。每个单元格中的数据可以为频度、频率、期望值或残每个单元格中的数据可以为频度、频率、期望值或残每个单元格中的数据可以为频度、频率、期望值或残每个单元格中的数据可以为频度、频率、期望值或残差等。差等。差等。差等。最后一行和最后一列有本行、本列的频度求和以及频最后一行和最后一列有本行、本列的频度求和以及频最后一行和最后一列有本行、本列的频度求和以及
29、频最后一行和最后一列有本行、本列的频度求和以及频率求和。率求和。率求和。率求和。二、交叉列联表中变量的定义:二、交叉列联表中变量的定义:二、交叉列联表中变量的定义:二、交叉列联表中变量的定义:f f f fijijijij:第:第:第:第i i i i行第行第行第行第j j j j列的值,频数。列的值,频数。列的值,频数。列的值,频数。f f f f12121212=3=3=3=3,f f f f23232323=3=3=3=3,f f f f31313131=1=1=1=1f f f fi.i.i.i.:第:第:第:第i i i i行累计行边缘频数。行累计行边缘频数。行累计行边缘频数。行累计
30、行边缘频数。f f f fi i i i.=.=.=.=f f f f1.1.1.1.=5=5=5=5,f f f f3.3.3.3.=6=6=6=6f f f f.j.j.j.j:第:第:第:第j j j j列累计列边缘频数。列累计列边缘频数。列累计列边缘频数。列累计列边缘频数。f f f f.j.j.j.j=f f f f.3.3.3.3=4=4=4=4,f f f f.2.2.2.2=8=8=8=8TotalTotalTotalTotal:总频数:总频数:总频数:总频数=Expected CountExpected CountExpected CountExpected Count期望值
31、期望值期望值期望值=f=f=f=fi i i i.*f.*f.*f.*f.j j j j/total/total/total/total%within%within%within%within 行变量行变量行变量行变量 行频率行频率行频率行频率=f=f=f=fijijijij/f/f/f/fi.i.i.i.%within%within%within%within 列变量列变量列变量列变量 列频率列频率列频率列频率=f=f=f=fijijijij/f./f./f./f.j j j j%of Total%of Total%of Total%of Total 总频率总频率总频率总频率=f=f=f=f
32、ijijijij/total/total/total/totalResidual Residual Residual Residual 残差残差残差残差=f=f=f=fijijijij-Expected Count-Expected Count-Expected Count-Expected CountStd Residual Std Residual Std Residual Std Residual 标准残差标准残差标准残差标准残差=Residual/(Expected Count)Residual/(Expected Count)Residual/(Expected Count)Resi
33、dual/(Expected Count)1/21/21/21/2Adjust ResidualAdjust ResidualAdjust ResidualAdjust Residual调整残差调整残差调整残差调整残差=Residual/Std Err Residual/Std Err Residual/Std Err Residual/Std Err三、操作步骤三、操作步骤三、操作步骤三、操作步骤执行执行执行执行StatisticsSummarizeCrosstabsStatisticsSummarizeCrosstabsStatisticsSummarizeCrosstabsStatist
34、icsSummarizeCrosstabs 选择行变量到选择行变量到选择行变量到选择行变量到“row”“row”“row”“row”中。中。中。中。选择列变量到选择列变量到选择列变量到选择列变量到“column”“column”“column”“column”中。中。中。中。分组变量:分组变量:分组变量:分组变量:Layer 1 of n Layer 1 of n Layer 1 of n Layer 1 of n 交叉列联表将依据该变量的取值进行分页显示。交叉列联表将依据该变量的取值进行分页显示。交叉列联表将依据该变量的取值进行分页显示。交叉列联表将依据该变量的取值进行分页显示。选择选项选择
35、选项选择选项选择选项“Display clustered bar chart”“Display clustered bar chart”“Display clustered bar chart”“Display clustered bar chart”将生成变将生成变将生成变将生成变量的频度分类条形图。量的频度分类条形图。量的频度分类条形图。量的频度分类条形图。选择选项选择选项选择选项选择选项“supress table”“supress table”“supress table”“supress table”将不产生交叉列联表。将不产生交叉列联表。将不产生交叉列联表。将不产生交叉列联表。精确
36、检验精确检验精确检验精确检验“Exact”“Exact”“Exact”“Exact”用于在小样本和不均衡样本的检用于在小样本和不均衡样本的检用于在小样本和不均衡样本的检用于在小样本和不均衡样本的检验。验。验。验。“Asymptotic onlyAsymptotic onlyAsymptotic onlyAsymptotic only”选项是缺省的。不适用于小选项是缺省的。不适用于小选项是缺省的。不适用于小选项是缺省的。不适用于小样本和非渐进分布方式的检验。样本和非渐进分布方式的检验。样本和非渐进分布方式的检验。样本和非渐进分布方式的检验。“Monte CarloMonte CarloMonte
37、 CarloMonte Carlo”选项适用于指定个案数量的检验。选项适用于指定个案数量的检验。选项适用于指定个案数量的检验。选项适用于指定个案数量的检验。该选项还允许非渐进分布方式的检验。该选项还允许非渐进分布方式的检验。该选项还允许非渐进分布方式的检验。该选项还允许非渐进分布方式的检验。“ExactExactExactExact”选项为精确计算。当结果小于等于时可选项为精确计算。当结果小于等于时可选项为精确计算。当结果小于等于时可选项为精确计算。当结果小于等于时可以认为行、列变量之间存在一定的相关性。以认为行、列变量之间存在一定的相关性。以认为行、列变量之间存在一定的相关性。以认为行、列变
38、量之间存在一定的相关性。“StatisticsStatisticsStatisticsStatistics”用于选择描述统计量,共计用于选择描述统计量,共计用于选择描述统计量,共计用于选择描述统计量,共计13131313个统个统个统个统计量。计量。计量。计量。“CellsCellsCellsCells”将决定交叉列联表单元格中计算的将决定交叉列联表单元格中计算的将决定交叉列联表单元格中计算的将决定交叉列联表单元格中计算的内容:内容:内容:内容:默认为频数默认为频数默认为频数默认为频数“CountCountCountCount”中的中的中的中的“ObservedObservedObservedO
39、bserved”,”,”,”,即观即观即观即观测频数。测频数。测频数。测频数。“ExpectedExpectedExpectedExpected”为观测期望值。为观测期望值。为观测期望值。为观测期望值。“Row”“Row”“Row”“Row”、“Column”“Column”“Column”“Column”和和和和“TotalTotalTotalTotal”分别为:行分别为:行分别为:行分别为:行频数、列频数和总频数频数、列频数和总频数频数、列频数和总频数频数、列频数和总频数。“UnstandardizedUnstandardizedUnstandardizedUnstandardized”、
40、“Standardized”Standardized”Standardized”Standardized”和和和和“Adj.standardized”“Adj.standardized”“Adj.standardized”“Adj.standardized”分别为:非标准化残分别为:非标准化残分别为:非标准化残分别为:非标准化残差、标准化残差和调整标准化残差。差、标准化残差和调整标准化残差。差、标准化残差和调整标准化残差。差、标准化残差和调整标准化残差。按钮按钮按钮按钮“Format”“Format”“Format”“Format”将可以设置:行排列的升序或将可以设置:行排列的升序或将可以设置:行排列的升序或将可以设置:行排列的升序或降序。降序。降序。降序。AscendingAscendingAscendingAscending为升序为升序为升序为升序DecendingDecendingDecendingDecending为降序为降序为降序为降序