《第三章-数据清理与基本统计分析..优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第三章-数据清理与基本统计分析..优秀PPT.ppt(59页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三章第三章第三章第三章 基本统计分析基本统计分析基本统计分析基本统计分析数据的审核与整理数据的审核与整理 数据清理与基本统计分析是进行其他分析的基础和前提。通过基本统计分析,用户可以对分析数据的总体特征有比较精确的把握,从而选择更为深化的分析方法对分析对象进行探讨。数据检查与清理数据检查与清理 一是检查每个变量值的合理性(即发觉奇异数据与错误数据);二是检查各变量值之间逻辑上的合理性。SPSS操作步骤:“Analyze”Descriptive Statistics”Frequencies”基本统计分析基本统计分析 基本统计分析通常有两种形式:一是基本统计分析通常有两种形式:一是通过一些特征量
2、数来反映数据的分布状况;通过一些特征量数来反映数据的分布状况;二是以统计图表的形式直观呈现数据的分二是以统计图表的形式直观呈现数据的分布特征。布特征。本章主要介绍平均数、中位数、众数、本章主要介绍平均数、中位数、众数、方差、百分数、频数等基本概念,以及在方差、百分数、频数等基本概念,以及在SPSS中如何进行计算操作。中如何进行计算操作。11/5/2022数据的描述性测度数据的描述性测度中心测度(中心测度(Central tendency)平均数;中位数;众数平均数;中位数;众数变更测度(变更测度(Dispersion)全距;方差与标准差;全距;方差与标准差;四分位数和四分位距;极值四分位数和四
3、分位距;极值形态测度(形态测度(Distribution)偏度;峰度偏度;峰度(一)中心测度(一)中心测度 中心测度中心测度是指刻画数据集中趋势的数是指刻画数据集中趋势的数字,用来描述数据的中心位于何处。字,用来描述数据的中心位于何处。最常用的中心测度为平均数、中位数最常用的中心测度为平均数、中位数和众数,其中平均数和中位数只适用于和众数,其中平均数和中位数只适用于定量数据,而众数既适用于定量数据,定量数据,而众数既适用于定量数据,也适用于定性(分类)数据。也适用于定性(分类)数据。(1)算术平均数()算术平均数(M)总体算术平均数总体算术平均数 样本算术平均数样本算术平均数算术平均数的特性算
4、术平均数的特性全部视察值关于平均数的偏差和为零,即全部视察值关于平均数的偏差和为零,即对极值特别敏感。对极值特别敏感。全部视察值关于平均数的偏差平方和最小。全部视察值关于平均数的偏差平方和最小。算术平均数的计算算术平均数的计算利用原始数据进行计算利用原始数据进行计算利用频数分布表计算利用频数分布表计算 用用样样本本数数据据推推断断总总体体集集中中量量时时,算算术术平平均均数数最最接接近近于于总总体体集集中中量量的的真真值值,它它是是总体平均数的最好估计值。总体平均数的最好估计值。在在计计算算方方差差、标标准准差差、相相关关系系数数以以及及进进行统计推断时,都要用到它。行统计推断时,都要用到它。
5、算术平均数的优缺点算术平均数的优缺点优点优点 反应灵敏反应灵敏 严密确定严密确定 简明易懂简明易懂 适合代数运算适合代数运算 受抽样变动的受抽样变动的 影响较小影响较小缺点缺点 易受极端数值易受极端数值 的影响的影响 一组数据中某一组数据中某 个数值的大小模个数值的大小模 糊不清或不够确糊不清或不够确 切时无法计算切时无法计算(2)加权平均数)加权平均数加权平均数是不同比重数据(或平均加权平均数是不同比重数据(或平均数)的平均数。用数)的平均数。用 表示。表示。其计算公式有两种形式其计算公式有两种形式 (3)中位数)中位数定义定义:中位数是把按从小到大(从大到中位数是把按从小到大(从大到小)排
6、列的一组数据一分为二的数值。小)排列的一组数据一分为二的数值。中位数的计算:中位数的计算:1.用原始数据计算(分奇数个数据和用原始数据计算(分奇数个数据和偶数个数据)偶数个数据)2.利用次数分布表计算利用次数分布表计算 利用次数分布表计算中位数利用次数分布表计算中位数(1)计算公式)计算公式(由小向大计算由小向大计算)表示中位数所在组的下限;表示中位数所在组的下限;N表示总频数;表示总频数;中位数所在组的频数;中位数所在组的频数;表示小于中位数所在组下限的频数综合。表示小于中位数所在组下限的频数综合。中位数的优缺点与应用中位数的优缺点与应用优点:不易受极端值影响优点:不易受极端值影响缺点:不适
7、合代数计算缺点:不适合代数计算应用条件:应用条件:一组数据中有特大或特小两极端数值时;一组数据中有特大或特小两极端数值时;一组数据中两端数据或个别数据不准确、不清一组数据中两端数据或个别数据不准确、不清晰时;晰时;当须要快速估计一组数据的代表值时;当须要快速估计一组数据的代表值时;数据资料属于等级性质时。数据资料属于等级性质时。(4)众数)众数众数的概念众数的概念 理论众数理论众数是指与频数分布曲线最高点是指与频数分布曲线最高点相对应的横坐标上的一点。相对应的横坐标上的一点。粗略众数粗略众数是指一组数据中频数出现最是指一组数据中频数出现最多的那个数。多的那个数。众数的计算方法众数的计算方法 (
8、1)用视察法干脆找寻众数)用视察法干脆找寻众数 在频数分布表中在频数分布表中,频数最多一组频数最多一组的组中值就是粗略众数。当两个相邻的的组中值就是粗略众数。当两个相邻的组的频数都是最多时,那么两分组的分组的频数都是最多时,那么两分组的分组点就是众数。组点就是众数。(2)皮尔逊的阅历法)皮尔逊的阅历法 当频数分布呈正态或接近正态时,当频数分布呈正态或接近正态时,皮尔逊发觉众数近似地等于皮尔逊发觉众数近似地等于3倍的中位数倍的中位数减去减去2倍的算术平均数。倍的算术平均数。众数的计算方法众数的计算方法众数的适用状况众数的适用状况当须要快速而又粗略地找出一组数据的当须要快速而又粗略地找出一组数据的
9、代表值时。代表值时。当须要利用算术平均值、中位数、众数当须要利用算术平均值、中位数、众数三者关系来粗略推断频数分布的形态时。三者关系来粗略推断频数分布的形态时。利用众数帮助分析说明一组次数分布是利用众数帮助分析说明一组次数分布是否的确具有两个次数最多的集中点时。否的确具有两个次数最多的集中点时。平均数、中位数、众数三者之间的关系常用中心测度概括常用中心测度概括测度测度特点特点使用注意事项使用注意事项众数众数适合于描述适合于描述 分类分类变量或变量或称名称名变量的趋中程度变量的趋中程度 不准确、信息量有限、不准确、信息量有限、易产生误导易产生误导 中数中数如果需要知道数据分布如果需要知道数据分布
10、的中点或者数据分布明的中点或者数据分布明显偏态时,优先使用。显偏态时,优先使用。对存在的极端高或极端对存在的极端高或极端低的数值不敏感低的数值不敏感平均数平均数是最经常使用、最容易是最经常使用、最容易计算、容易理解的趋中计算、容易理解的趋中测度测度对极值很敏感。如果数对极值很敏感。如果数据中存在较多的极值,据中存在较多的极值,或者分布明显偏态,可或者分布明显偏态,可能产生误导能产生误导加权平加权平均数均数需要了解若干容量不同需要了解若干容量不同的子群体的总平均分的子群体的总平均分权重的使用最为重要,权重的使用最为重要,尤其是子群体容量明显尤其是子群体容量明显不同时不同时(二)变更测度(二)变更
11、测度 变更测度是描述一组数据的变更程度或分变更测度是描述一组数据的变更程度或分散程度的数值。常用变更测度包括:散程度的数值。常用变更测度包括:(1)全距(全距)全距(全距=最高分最高分-最低分)最低分)(2)方差与标准偏差)方差与标准偏差 (3)四分位差)四分位差 (4)极值)极值(2)平均差、方差与标准差)平均差、方差与标准差 平均差(MD):就是每一个数据与该组数据的中位数(或算术平均数)离差的确定值的算术平均数。平均差的优缺点平均差的优缺点 与极差相比,平均差是利用全部数据信息计算的,意义明确,计算简洁,较好地度量了次数分布的离散程度。但计算要用到确定值,使它的应用大大受到限制。方差方差
12、方差是指离差平方和的算术平均数。用方差是指离差平方和的算术平均数。用 表示。表示。方差虽然避开了确定值的麻烦,方差虽然避开了确定值的麻烦,但却又使变量的单位变成原单位的平方。但却又使变量的单位变成原单位的平方。标准差标准差标准差是指离差平方和平均后的方根,即标准差是指离差平方和平均后的方根,即方差的平方根。用方差的平方根。用 表示。表示。方差与标准差的优缺点方差与标准差的优缺点优点:反映灵敏,严密确定,计算简洁,优点:反映灵敏,严密确定,计算简洁,用样本数据推断总体差异量时,方差与用样本数据推断总体差异量时,方差与标准差是最好的估计量。标准差是最好的估计量。缺点:易受极端数值的影响,有个别数缺
13、点:易受极端数值的影响,有个别数据模糊不清时便无法计算。据模糊不清时便无法计算。(3)四分位差)四分位差百分位数百分位数:就是次数分布中相对于某个就是次数分布中相对于某个特定百分特定百分点点的原始分数。百分位数的计算公式如下:的原始分数。百分位数的计算公式如下:P Pm m第第m m百分位数;百分位数;L LP Pm m所在组的组下限;所在组的组下限;fPfPm m所在组的次数;所在组的次数;F Fb b小于小于L L的累计次数。的累计次数。百分位差百分位差百分位差百分位差:是指两个百分位数之差。常用是指两个百分位数之差。常用的有:的有:四分位差四分位差 若将从小到大排列的一组数据分成频数相等
14、的四段,第一与其次段的分界点称为第一个四分位数。第三段与第四段的分界点称为第三个四分位数。则四分位差就是第三个四分位数(第75百分位数)与第一个四分位数(第25百分位数)的差。公式为:极差、百分位差、四分位差极差、百分位差、四分位差 极差:最简洁、最易理解的差异量数,但也是最粗糙、最不行靠的值。级差明显地受取样变动的影响,一般状况下主要用于对数据做预备性检查,了解数据的或许散布范围,以便确定如何进行统计分组。百分位差与四分位差:与极差相比,避开了极端数据的影响,但由于没有把全部数据考虑在内,其稳定性会差一些。另外,它们也不适合代数方法运算,反应不够灵敏,应用不多。(4)极值)极值 极值是指位于
15、数据总体分布之外的极值是指位于数据总体分布之外的一些极端的数值。极值的产生可能主要一些极端的数值。极值的产生可能主要有下列缘由:有下列缘由:(1)极值是真的测量结果;)极值是真的测量结果;(2)可能是由于数据记录或录入误)可能是由于数据记录或录入误差造成的;差造成的;(3)极值数据可能来自其他总体。)极值数据可能来自其他总体。确定极值的方法确定极值的方法 统计学上通常用四分位数和四分位距作为确定统计学上通常用四分位数和四分位距作为确定极值的工具,过程如下:极值的工具,过程如下:(1)首先依据四分位数和四分位距确定数据分布)首先依据四分位数和四分位距确定数据分布的上、下限:的上、下限:下限下限=
16、Q1-.1.5IQR;上限上限=Q3+1.5IQR (2)小于下限和大于上限的视察值就是潜在的极)小于下限和大于上限的视察值就是潜在的极值。值。(3)确定了潜在的视察值后,可以用直方图、茎)确定了潜在的视察值后,可以用直方图、茎叶图等进一步检查这些视察值是否真的是极值。叶图等进一步检查这些视察值是否真的是极值。(三)分布形态测度(三)分布形态测度偏度偏度:是描述数据分布对称性的测度。是描述数据分布对称性的测度。偏度是与正态分布相比较的量,偏度为偏度是与正态分布相比较的量,偏度为0表示其数据表示其数据分布与正态分布偏度相同,数据呈对称分布,此时平均数分布与正态分布偏度相同,数据呈对称分布,此时平
17、均数与中数相等;偏度大于与中数相等;偏度大于0表示正偏差数值较大,数据呈正表示正偏差数值较大,数据呈正偏态(或右偏态),此时平均数大于中数;偏度小于偏态(或右偏态),此时平均数大于中数;偏度小于0表表示负偏差数值较大,数据呈负偏态(或左偏态),此时平示负偏差数值较大,数据呈负偏态(或左偏态),此时平均数小于中数。而偏度的确定值数值越大表示分布形态的均数小于中数。而偏度的确定值数值越大表示分布形态的偏差程度越大。偏差程度越大。峰度峰度 峰度峰度是描述数据围绕平均数分布的是描述数据围绕平均数分布的紧密程度,或者分散程度。紧密程度,或者分散程度。峰度峰度 与平均数、标准偏差一样,峰度对极端值的存在特
18、别敏与平均数、标准偏差一样,峰度对极端值的存在特别敏感。统计学上,将数据分布分为三种类型,即常峰态、低峰感。统计学上,将数据分布分为三种类型,即常峰态、低峰态和尖峰态。态和尖峰态。峰度为峰度为0表示其数据分布与正态分布的趋缓程度相同,表示其数据分布与正态分布的趋缓程度相同,数据呈常峰态。数据呈常峰态。峰度小于峰度小于0表示比正态分布更加平坦,数据呈低峰态,表示比正态分布更加平坦,数据呈低峰态,即中间部分的数据较少,相当一部分数据分布在两端极端高即中间部分的数据较少,相当一部分数据分布在两端极端高或极端低的位置,而且这种分布的偏度指数一般不太高。或极端低的位置,而且这种分布的偏度指数一般不太高。
19、峰度大于峰度大于0表示比正态分布更加陡峭,数据呈尖峰态,表示比正态分布更加陡峭,数据呈尖峰态,即相当一部分数据分布在少数的位置,这个位置可以是靠中即相当一部分数据分布在少数的位置,这个位置可以是靠中间的位置,也可以是靠某一端的位置,其他位置的数据分布间的位置,也可以是靠某一端的位置,其他位置的数据分布明显较少。明显较少。分布平均数中位数众数离散程度离散程度SPSS的基本统计分析的基本统计分析在SPSS的Analyze菜单中包括了一系列统计分析过程。其中Reports和Descriptive Statistics吩咐项中包括的功能是对单变量的描述统计分析。Descriptive Statisti
20、cs包括的统计功能有:Frequencies:频数分析Descriptives:描述统计量分析Explore:探究分析Crosstabs:多维频数分布交叉表(列联表)Reports包括的统计功能有:OLAP Cubes:OLAP报告摘要表Case Summaries:观测量列表Report Summaries in Row(Columns):行(列)形式输出报告11/5/2022频数分析频数分析Frequencies1、了解变量的取值分布状况对整体把握数据的特征、了解变量的取值分布状况对整体把握数据的特征是特别有利的。是特别有利的。2、求分类(定类、定序)变量的频数和作、求分类(定类、定序)变
21、量的频数和作Bar图图3、求定距变量、求定距变量(连续变量连续变量)的分布状况和作直方图的分布状况和作直方图Histogram4、对连续变量进行分组、对连续变量进行分组(recode)后再求频数,如老后再求频数,如老中青中青(35,60)的比例,文化程度的比例,文化程度(中学、高校及以中学、高校及以上上)的人数及比例等的人数及比例等5、Analyze+Descriptive Statistics+Frequencies11/5/2022描述统计分析过程Descriptives1、功能:了解数据的基本统计特征和对指定的变量值进、功能:了解数据的基本统计特征和对指定的变量值进行标准化处理行标准化处
22、理(标准化后的新变量的均值为标准化后的新变量的均值为0,标准差为,标准差为1,目的是为了消退各变量间变量值在数量级上的差异,从,目的是为了消退各变量间变量值在数量级上的差异,从而增加数据间的可比性而增加数据间的可比性)。2、描述统计分析过程通过平均值、描述统计分析过程通过平均值(Mean)、算术和算术和(Sum)、标准差、标准差(Std Dev)、最大值、最大值(Maximum)、最小值、最小值(Minimum)、方差、方差(Variance)、范围、范围(Range)、平均数标、平均数标准误准误(S.E.Mean)等统计量对变量进行描述。等统计量对变量进行描述。3、一般是求定距变量的描述统计
23、量,从中分析差异性、一般是求定距变量的描述统计量,从中分析差异性(max,min)4、Analyze+Descriptive Statistics+Descriptives11/5/2022探究分析探究分析 Explore1.考察数据的奇异性和分布特征考察数据的奇异性和分布特征奇异性:数据的过大或过小(找出、分析缘由、是奇异性:数据的过大或过小(找出、分析缘由、是否剔除)否剔除)分布特征:数据是否来自正态分布总体分布特征:数据是否来自正态分布总体考察方法:统计量和统计图形(箱图、茎叶图(频考察方法:统计量和统计图形(箱图、茎叶图(频数、茎和叶)、方差齐次性检验(数、茎和叶)、方差齐次性检验(S
24、pread vs level图)图)2.一般是考察定距变量一般是考察定距变量3.Analyze+Descriptive Statistics+Explore因(分析)变量(因(分析)变量(Dependent List):定距变量):定距变量分组变量(分组变量(Factor List):分类变量):分类变量标识变量标识变量(Label Cases by):为便利查找输出观测为便利查找输出观测量如量如id11/5/2022多维频数分布表多维频数分布表(交叉表交叉表,列联表列联表)二维或多维交叉频数表(列联表),分析事物(变二维或多维交叉频数表(列联表),分析事物(变量)之间的相互影响和关系量)之间
25、的相互影响和关系Analyze+Descriptive Statistics+Crosstabsn行变量(行变量(Row):):需分类变量需分类变量n列变量(列变量(Column):):需分类变量需分类变量n分层变量(分层变量(Layer):):条件(若有,需分类变量)条件(若有,需分类变量)nStatistics选项:选项:nChi-square复选项及其四种检验结果复选项及其四种检验结果nCorrelations复选项:相关系数复选项:相关系数11/5/2022SPSS的单变量描述统计吩咐的单变量描述统计吩咐 A Frequencies:频数统计频数统计StatisticsSummariz
26、eFrequencies变量值频数百分比有效百分比累计百分比中位数中位数百分比和有效百分比百分比和有效百分比B Descriptives:定距变量描述统计定距变量描述统计StatisticsSummarizeDescriptives变量名平均数标准差最小值最大值统计报表分析(统计报表分析(Reports)nOLAP Cubes:在线分析处理:在线分析处理nCase Summaries:观测值摘要分析观测值摘要分析nReport Summaries in Row:行形式输行形式输出报告出报告nReport Summaries in Columns:列形列形式输出报告式输出报告11/5/2022O
27、LAP报告摘要表OLAP CubesOLAP(Online Analytical Processing)在线分析处理过程以分组变量为基础,计算各组的总计、均值和其他统计量。而输出的报告摘要则是指每个组中所包含的各种变量的统计信息。Analyze+Reports+OLAP CubesSummary Variables:要进行统计汇总的数值型变量Grouping Variables:分组变量(分类变量),留意:此分组变量在实际的运算过程中并不发挥分组的功能,而是确定进入统计的观测量的范围。如选择数学成果作为摘要分析变量,而性别作为分组变量,要计算数学平均成果,则结果中显示的并不是男生的数学平均成果
28、和女生的数学平均成果,而是全部男女生观测量的数学成果的总平均值。即全部性别有值(非Missing Value)的Case,才参与分析计算Statistics选项:Sum和、Number of Cases观测量数目、Mean均值、Median中位数、Maximum最大等等11/5/2022Case Summaries:观测量列表:观测量列表 个案简明统计报表用于按指定分组统计量不同,水平的交叉组合对变量进行记录列表,并计算相应的统计量。它主要为定量资料的描述服务,是一个比较常用的过程。查看或打印所须要的变量值Analyze+Reports+Case SummariesVariables:要显示的
29、变量名Grouping Variables:分组变量(分类变量)结果显示:多行或单行11/5/2022行形式输出报告行形式输出报告Summary 按行,如:sum、mean、max、min、count、std dev、variance、percentage(above,below,inside)等菜单:Analyze+Reports+Report Summaries in RowsnData Column:报告变量nBreak Column:分组变量及其Summary(多个交叉)nReport:可对全部数据进行描述统计(Grand Total)nDisplay Cases:是否显示每一个观测量11/5/2022列形式输出报告列形式输出报告Summary 按列,如:sum、mean、max、min、count、std dev、variance、percentage(above,below,inside)等菜单:Analyze+Reports+Report Summaries in ColumnsnData Column:报告变量一一对应的SummaryInsert Total:汇总列,可汇总两列或多列的信息nBreak Column:分组变量(多个交叉)及SubtotalnReport:可对全部数据进行描述统计(Grand Total)11/5/2022