社会经济统计软件应用-SPSS应用gszh.pptx-淘文阁

资源描述

《社会经济统计软件应用-SPSS应用gszh.pptx》由会员分享，可在线阅读，更多相关《社会经济统计软件应用-SPSS应用gszh.pptx（37页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、社会经济统计软件应用社会经济统计软件应用SPSSSPSS应用应用第第3 3章章基本统计分析功能基本统计分析功能u基本统计分析是进行其他更深入的统计分析的前提，基本统计分析是进行其他更深入的统计分析的前提，通过基本统计分析，用户可以对分析数据的总体特通过基本统计分析，用户可以对分析数据的总体特征有比较准确的把握，从而选择更为深入的分析方征有比较准确的把握，从而选择更为深入的分析方法对分析对象进行研究。法对分析对象进行研究。u基本统计分析指的是基本统计分析指的是AnalyzeAnalyze菜单下的报告分析菜单下的报告分析(Report)(Report)和描述性统计分析和描述性统计分析(Descr

2、iptive(Descriptive Statistics)Statistics)两项功能。两项功能。uSPSSSPSS的许多模块均可完成统计描述的任务，除各种的许多模块均可完成统计描述的任务，除各种用于统计推断的过程会附带进行相关的统计描述外，用于统计推断的过程会附带进行相关的统计描述外，SPSSSPSS还专门提供了几个用于连续变量统计描述的过还专门提供了几个用于连续变量统计描述的过程，它们均集中在程，它们均集中在DescriptiveDescriptive StatisticsStatistics子菜单子菜单中中，主要包括：主要包括：nFrequencies Frequencies 频数分

3、析频数分析nDescriptives Descriptives 描述性分析描述性分析nExplore Explore 探索性分析探索性分析nCrosstabs Crosstabs 列联表分析列联表分析u1.1.基本统计量的定义及计算基本统计量的定义及计算u2.2.描述性分析（描述性分析（DescriptivesDescriptives）u3.3.频数分析（频数分析（FrequenciesFrequencies）u4.4.探索性分析（探索性分析（ExploreExplore）1.1.基本统计量的定义及计算基本统计量的定义及计算数据的特征数据的特征分布形态分布形态离散程度离散程度集中趋势集中趋势1

4、.1 1.1 描述集中趋势的统计量描述集中趋势的统计量u集中趋势是数据分布的一个特征，反映各变量值向集中趋势是数据分布的一个特征，反映各变量值向其中心值聚集的程度。其中心值聚集的程度。u主要指标主要指标n均值（均值（MeanMean）n中位数（中位数（MedianMedian）n众数（众数（ModeMode）n截尾均数截尾均数n几何均数几何均数n调和均数调和均数均值（均值（MeanMean）u均均值值（MeanMean）又又称称为为“算算术术平平均均值值”，指指一一组组数数的的平均值，其数学定义为：平均值，其数学定义为：u特点：特点：n最常用的测度值最常用的测度值n均值利用了全体数据均值利用了

5、全体数据n易受数据中极端值的影响（如去掉最高、最低分）易受数据中极端值的影响（如去掉最高、最低分）n用于数值型数据，而不能用于定类数据和定序数据用于数值型数据，而不能用于定类数据和定序数据中位数（中位数（MedianMedian）u中中位位数数（MedianMedian）是是一一组组数数据据按按大大小小排排序序后后，处处于于中间位置上的数值。中间位置上的数值。n个数为奇数取中间数个数为奇数取中间数n为偶数，取中间两数的平均值为偶数，取中间两数的平均值u特点：特点：n不受极端值的影响不受极端值的影响n主主要要用用于于定定序序数数据据，也也可可用用于于数数值值型型数数据据，但但不不能能用用于于分分

6、类数据。类数据。众数（众数（ModeMode）u众众数数（ModeMode）是是样样本本中中出出现现次次数数（频频数数）最最多多的的数数值。值。u特点：特点：n不受极端值的影响不受极端值的影响n可能没有众数或有几个众数（不唯一性）可能没有众数或有几个众数（不唯一性）n主要用于分类数据，也可用于顺序数据或数值型数据主要用于分类数据，也可用于顺序数据或数值型数据其它其它u截尾均数截尾均数n由于均数较易受极端值的影响，因此可以考虑将数据进行由于均数较易受极端值的影响，因此可以考虑将数据进行排序后，按照一定比例去掉最两端的数据，只使用中部的排序后，按照一定比例去掉最两端的数据，只使用中部的数据来求均数

7、。数据来求均数。n常用的截尾均数有常用的截尾均数有5 5截尾均数，即两端各去掉截尾均数，即两端各去掉5 5的数据。的数据。在在SPSS SPSS 中中ExploreExplore过程可以自动计算过程可以自动计算5 5截尾均数。截尾均数。u几何均数几何均数n几何均数适用于原始数据分布不对称，但经过对数转换后几何均数适用于原始数据分布不对称，但经过对数转换后呈对称分布的资料。样本几何均数常用呈对称分布的资料。样本几何均数常用G G表示，其计算公表示，其计算公式为：式为：u调和均数调和均数n调和均数用符号调和均数用符号H H表示，是观察值倒数之均数的倒数，其表示，是观察值倒数之均数的倒数，其计算公式

8、为：计算公式为：1.2 1.2 描述离散程度的统计量描述离散程度的统计量u数据的离散程度就是各数据远离其中心值的程度，数据的离散程度就是各数据远离其中心值的程度，反映数据的波动情况，因此也称为离中趋势。反映数据的波动情况，因此也称为离中趋势。u主要指标主要指标n方差（方差（VarianceVariance）n标准差（标准差（StdStddeviationdeviation）n极差（全距）（极差（全距）（RangeRange）n离散系数（离散系数（Coefficient of VariationCoefficient of Variation）n百分位数、四分位数与四分位数间距百分位数、四分位数

9、与四分位数间距方差（方差（VarianceVariance）u方方差差（VarianceVariance）是是各各变变量量值值与与其其均均值值离离差差（deviation about the meandeviation about the mean）平方的平均数。）平方的平均数。n总体方差（总体方差（Population VariancePopulation Variance）用）用 2 2表示：表示：n样本方差（样本方差（Sample VarianceSample Variance）用）用S S2 2表示：表示：u特点：特点：n最常用的离散程度的统计量，方差越大，表明样

10、本偏移样最常用的离散程度的统计量，方差越大，表明样本偏移样本平均值的程度就越大本平均值的程度就越大标准差（标准差（StdStddeviationdeviation）u标准差（标准差（StdStddeviationdeviation）是方差开方后的统计量）是方差开方后的统计量n总体标准差用总体标准差用表示：表示：n样本标准差用样本标准差用S S表示：表示：u特点：特点：n标准差与原始数据具有相同的量纲标准差与原始数据具有相同的量纲n标准差和方差一样，也是度量离散程度的重要统计量标准差和方差一样，也是度量离散程度的重要统计量n比方差更常用比方差更常用均值标准误差（均值标准误差（Standard

11、Error of MeanStandard Error of Mean）u均均值值标标准准误误差差(Standard(Standard Error Error of of Mean)Mean)是是样样本本均均值的标准差。值的标准差。u特点：特点：n反映均值的离散程度反映均值的离散程度极差（全距）（极差（全距）（RangeRange）u极极差差（全全距距）（RangeRange）是是一一组组数数据据的的最最大大值值与与最最小小值之差。是最简单的测度离散程度的指标。值之差。是最简单的测度离散程度的指标。u特点：特点：n极差易受极端值（最大值和最小值）的影响极差易受极端值（最大值和最小值）的影响n由

12、由于于极极差差只只利利用用了了数数据据两两端端的的信信息息，没没有有反反映映中中间间数数据据的的离散状况，因而不能准确描述数据的离散程度离散状况，因而不能准确描述数据的离散程度离散系数（离散系数（Coefficient of VariationCoefficient of Variation）u离离散散系系数数（Coefficient Coefficient of of VariationVariation）又又称称标标准准差系数，是差系数，是标准差与相应均值之比。标准差与相应均值之比。u特点：特点：n用于测量相对离散程度用于测量相对离散程度n离离散散系系数数消消除除了了数数据据水水平平高高低

13、低和和计计量量单单位位的的影影响响，用用于于对对不同组别离散程度进行比较不同组别离散程度进行比较百分位数、四分位数与四分位数间距百分位数、四分位数与四分位数间距u百分位数（百分位数（Percentile ValuePercentile Value）是一种位置指标，用是一种位置指标，用P Px x表示。表示。将样本数据按升序排列后，排在前面将样本数据按升序排列后，排在前面x x的数据的右端点值称的数据的右端点值称为样本的为样本的x x分位数。分位数。P P5050中位数中位数u四分位数（四分位数（QuartilesQuartiles）实际上是三个数值的总称，分别是）实际上是三个数值的总称，分别

14、是P P2525、P P5050和和P P7575分位数。这三个分位数正好是能够将全部总体单位按标分位数。这三个分位数正好是能够将全部总体单位按标志值的大小等分为四部分的三个数值，符号分别记为志值的大小等分为四部分的三个数值，符号分别记为Q Ql l、Q Q2 2和和Q Q3 3。在许多统计书籍中，也将第一个四分位数。在许多统计书籍中，也将第一个四分位数P P2525称为称为“下四分下四分位数位数”;”;第三个四分位数第三个四分位数P P7575称为称为“上四分位数上四分位数”,”,分别用符号。分别用符号。Q QL L和和Q QU U表示。表示。u四分位数间距是指上、下四分位数的差值。四分位数

15、间距是指上、下四分位数的差值。1.3 1.3 描述总体分布形态的统计量描述总体分布形态的统计量u偏度（偏度（SkewnessSkewness）是描述取值分布形态对称性的统）是描述取值分布形态对称性的统计量计量。样本的偏度系数记为样本的偏度系数记为：n偏度系数等于偏度系数等于0 0的时候属于正态分布。的时候属于正态分布。n偏度系数大于偏度系数大于0 0为正偏或右偏。长尾巴拖在右边（表明较为正偏或右偏。长尾巴拖在右边（表明较小的值占多数）。小的值占多数）。n偏度系数小于偏度系数小于0 0为负偏或左偏。长尾巴拖在左边（表明较为负偏或左偏。长尾巴拖在左边（表明较大的值占多数）。大的值占多数）。u峰度（

16、峰度（KutosisKutosis）是描述变量取值分布形态扁平程度）是描述变量取值分布形态扁平程度的统计量。的统计量。样本的峰度系数记为样本的峰度系数记为：n峰度等于0的时候表示数据分布的扁平程度适中，即正态分布。n峰度小于0的时候表示数据呈扁平分布。n峰度大于0表明数据呈尖峰分布。2.2.描述性分析（描述性分析（DescriptivesDescriptives）u描述性分析（描述性分析（DescriptivesDescriptives）可对变量计算均值、）可对变量计算均值、标准差、全距和均值标准误差等统计量，并可将原标准差、全距和均值标准误差等统计量，并可将原始数据转换成始数据转换成Z Z分

17、值。分值。u【例】以【例】以“学生体检数据学生体检数据.sav”.sav”数据文件为例，对数据文件为例，对某校某校3 3个班级中个班级中1616名学生的体检数据进行描述性分析，名学生的体检数据进行描述性分析，以班级为单位列表计算年龄、体重、身高的统计量，以班级为单位列表计算年龄、体重、身高的统计量，要求包括极差、最小值、最大值、均值、标准差和要求包括极差、最小值、最大值、均值、标准差和方差等统计量。方差等统计量。u首先，在打开数据文件后，在主菜单栏的首先，在打开数据文件后，在主菜单栏的DataData菜单菜单中选择中选择Split FilesSplit Files命令，按命令，按“班级班级”变

18、量对数据进变量对数据进行分组。行分组。u在菜单栏中选择在菜单栏中选择Analyze|Descriptives Analyze|Descriptives Statistics|DescriptivesStatistics|Descriptives命令命令u如选中此框，将对如选中此框，将对VariablesVariables框中选择的变框中选择的变量进行标准化，产生相应量进行标准化，产生相应的的Z Z分值，并作为新变量分值，并作为新变量保存到数据窗口，其变量保存到数据窗口，其变量名为名为“z+z+原变量名原变量名”。u标准化计算公式如下：标准化计算公式如下：n其中，其中，X Xi i为变量为变量x

19、 x的第的第i i个观个观测值，测值，X X为变量为变量x x的平均数，的平均数，S S为标准差。为标准差。实验题实验题13.3.频数分析（频数分析（FrequenciesFrequencies）u频数分析（频数分析（FrequenciesFrequencies）可对数据按组进行归类整）可对数据按组进行归类整理，形成变量不同水平的频数分布表和图形，对数理，形成变量不同水平的频数分布表和图形，对数据的分布趋势进行初步分析。据的分布趋势进行初步分析。u【例例】本例是一次实际调查的部分问卷数据，调查本例是一次实际调查的部分问卷数据，调查对象为上海部分大专院校的大学生，文件名为对象为上海部分大专院校的

20、大学生，文件名为student.savstudent.sav。后面的。后面的5 5个变量是从前面的相应变量个变量是从前面的相应变量中，经过中，经过RecodeRecode Into Different VariablesInto Different Variables变换而变换而来。要求对性别和血型变量进行频数分析。来。要求对性别和血型变量进行频数分析。u在打开数据文件后，在菜单栏中选择在打开数据文件后，在菜单栏中选择Analyze|Analyze|Descriptives Statistics|FrequenciesDescriptives Statistics|Frequencies命令命

21、令StatisticsStatistics对话框对话框ChartsCharts对话框对话框FormatFormat对话框对话框 4.4.探索性分析（探索性分析（ExploreExplore）u探索性分析（探索性分析（ExploreExplore）可以对变量进行更为深入详尽的统计）可以对变量进行更为深入详尽的统计分析，该过程可以检查数据是否有错误、考查样本分布特征。分析，该过程可以检查数据是否有错误、考查样本分布特征。探索性分析过程将提供在分组和不分组的情况下常用的统计探索性分析过程将提供在分组和不分组的情况下常用的统计量与图形。探索性分析的因变量通常是定距型变量，分组变量与图形。探索性分析的因

22、变量通常是定距型变量，分组变量是分类型变量。量是分类型变量。u【例例】本例是一次实际调查的部分问卷数据，调查对象为上本例是一次实际调查的部分问卷数据，调查对象为上海部分大专院校的大学生，文件名为海部分大专院校的大学生，文件名为student.savstudent.sav。后面的。后面的5 5 个变量是从前面的相应变量中，经过个变量是从前面的相应变量中，经过RecodeRecode Into Different Into Different VariablesVariables变换而来。要求对男性和女性身高数据进行探索性变换而来。要求对男性和女性身高数据进行探索性分析。分析。u在打开数据文件后，

23、在菜单栏中选择在打开数据文件后，在菜单栏中选择Analyze|Analyze|Descriptives Statistics|ExploreDescriptives Statistics|Explore命令命令选择一个或多个变量进入选择一个或多个变量进入Dependent框框作为因变量（要进行分析的变量）作为因变量（要进行分析的变量）该框中的变量作为标该框中的变量作为标识符，在输出诸如异识符，在输出诸如异常值时，用该变量进常值时，用该变量进行标识，只允许有一行标识，只允许有一个标识符。个标识符。此作为分组变量，可以此作为分组变量，可以是字符变量，对因变量是字符变量，对因变量的分析将按该变量的观

24、的分析将按该变量的观测值进行分组分析。可测值进行分组分析。可有多个分组变量，这时有多个分组变量，这时会按多个变量的交叉组会按多个变量的交叉组合进行分组。合进行分组。StatisticsStatistics对话框对话框输出基本统计量，均值的置信区间，可键入输出基本统计量，均值的置信区间，可键入199%的任意值，根据该值算出置信区间的任意值，根据该值算出置信区间的上下限。的上下限。给出中心趋势的最大拟然比的给出中心趋势的最大拟然比的4种稳健估计种稳健估计量，当数据分布均匀，且两尾较长，或当数量，当数据分布均匀，且两尾较长，或当数据中存在极端值时，可给出比均值或中位数据中存在极端值时，可给出比均值或

25、中位数更合理的估计。更合理的估计。输出最大和最小的输出最大和最小的5个数，且在输出窗口个数，且在输出窗口中加以标明。中加以标明。输出输出5%、10%、25%、50%、75%、90%和和95%的百分位数。的百分位数。PlotsPlots对话框对话框Boxplots（箱图）选项组用于设置所显示（箱图）选项组用于设置所显示的箱图的参数的选择项的箱图的参数的选择项 Descriptive选项组用于设置描述图形选项，选项组用于设置描述图形选项，系统默认生成茎叶图；系统默认生成茎叶图；Histogram复选框复选框表示生成直方图。表示生成直方图。Normality plots with tests复选框表

26、复选框表示输出正态概率和离散正态概率图，示输出正态概率和离散正态概率图，同时输出同时输出KS统计量中的统计量中的Liliefors显显著水平检验，如果观测数目不超过著水平检验，如果观测数目不超过20，将用，将用WS统计量代替统计量代替KS统计量。统计量。OptionsOptions对话框对话框因变量或分组变量中带有缺失值的观因变量或分组变量中带有缺失值的观测量都将在分析过程中被剔除。测量都将在分析过程中被剔除。在分析过程中根据分组变量产生的在分析过程中根据分组变量产生的组中带缺失值的观测量都将被剔除。组中带缺失值的观测量都将被剔除。分组变量的缺失值被单独分为一组，分组变量的缺失值被单独分为一

27、组，输出频数时将标出缺失组。输出频数时将标出缺失组。输出结果分析输出结果分析 uCase Processing SummaryCase Processing Summary（观测量摘要表）（观测量摘要表）uDescriptivesDescriptives（描述性统计量）（描述性统计量）uM-EstimatorsM-Estimators（M M均值估计量）均值估计量）uPercentilesPercentiles（分位点表）（分位点表）uExtreme ValuesExtreme Values（极值表）（极值表）uHistogramsHistograms（直方图）（直方图）Descriptive

28、sDescriptives 性别性别 StatisticStd.Error身高身高男男Mean均值均值174.71.671 95%Confidence Interval for Mean置信区间置信区间Lower Bound置信下限置信下限173.37 Upper Bound置信上限置信上限176.05 5%Trimmed Mean截尾均值截尾均值174.70 Median中位数中位数175.00 Variance方差方差31.062 Std.Deviation标准差标准差5.573 Minimum最小值最小值159 Maximum最大值最大值188 Range极差极差29 Interquartile Range四分位数间距四分位数间距8 Skewness偏度偏度-.034.289 Kurtosis峰度峰度.138.570

展开阅读全文