第三章-数据清理与基本统计分析...ppt

上传人:得****1 文档编号:76368349 上传时间:2023-03-09 格式:PPT 页数:59 大小:235KB
返回 下载 相关 举报
第三章-数据清理与基本统计分析...ppt_第1页
第1页 / 共59页
第三章-数据清理与基本统计分析...ppt_第2页
第2页 / 共59页
点击查看更多>>
资源描述

《第三章-数据清理与基本统计分析...ppt》由会员分享,可在线阅读,更多相关《第三章-数据清理与基本统计分析...ppt(59页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第三章第三章第三章第三章 基本统计分析基本统计分析基本统计分析基本统计分析数据的审核与整理数据的审核与整理 数据清理与基本统计分析是进行其数据清理与基本统计分析是进行其他分析的基础和前提。通过基本统计分他分析的基础和前提。通过基本统计分析,用户可以对分析数据的总体特征有析,用户可以对分析数据的总体特征有比较准确的把握,从而选择更为深入的比较准确的把握,从而选择更为深入的分析方法对分析对象进行研究。分析方法对分析对象进行研究。数据检查与清理数据检查与清理 一是检查每个变量值的合理性(即发一是检查每个变量值的合理性(即发现现奇异数据奇异数据与与错误数据错误数据);二是检查各变);二是检查各变量值之

2、间逻辑上的合理性。量值之间逻辑上的合理性。SPSS操作步骤:操作步骤:“Analyze”Descriptive Statistics”Frequencies”基本统计分析基本统计分析 基本统计分析通常有两种形式:一是基本统计分析通常有两种形式:一是通过一些特征量数来反映数据的分布情况;通过一些特征量数来反映数据的分布情况;二是以统计图表的形式直观呈现数据的分二是以统计图表的形式直观呈现数据的分布特征。布特征。本章主要介绍本章主要介绍平均数平均数、中位数中位数、众数众数、方差方差、百分数百分数、频数频数等基本概念,以及在等基本概念,以及在SPSS中如何进行计算操作。中如何进行计算操作。3/8/2

3、023数据的描述性测度数据的描述性测度中心测度(中心测度(Central tendency)平均数;中位数;众数平均数;中位数;众数变化测度(变化测度(Dispersion)全距;方差与标准差;全距;方差与标准差;四分位数和四分位距;极值四分位数和四分位距;极值形态测度(形态测度(Distribution)偏度;峰度偏度;峰度(一)中心测度(一)中心测度 中心测度中心测度是指刻画数据集中趋势的数是指刻画数据集中趋势的数字,用来描述数据的中心位于何处。字,用来描述数据的中心位于何处。最常用的中心测度为平均数、中位数最常用的中心测度为平均数、中位数和众数,其中平均数和中位数只适用于和众数,其中平均

4、数和中位数只适用于定量数据,而众数既适用于定量数据,定量数据,而众数既适用于定量数据,也适用于定性(分类)数据。也适用于定性(分类)数据。(1)算术平均数()算术平均数(M)总体算术平均数总体算术平均数 样本算术平均数样本算术平均数算术平均数的特性算术平均数的特性所有观察值关于平均数的偏差和为零,即所有观察值关于平均数的偏差和为零,即对极值非常敏感。对极值非常敏感。所有观察值关于平均数的偏差平方和最小。所有观察值关于平均数的偏差平方和最小。算术平均数的计算算术平均数的计算利用原始数据进行计算利用原始数据进行计算利用频数分布表计算利用频数分布表计算 用用样样本本数数据据推推断断总总体体集集中中量

5、量时时,算算术术平平均均数数最最接接近近于于总总体体集集中中量量的的真真值值,它它是是总体平均数的最好估计值。总体平均数的最好估计值。在在计计算算方方差差、标标准准差差、相相关关系系数数以以及及进进行统计推断时,都要用到它。行统计推断时,都要用到它。算术平均数的优缺点算术平均数的优缺点优点优点 反应灵敏反应灵敏 严密确定严密确定 简明易懂简明易懂 适合代数运算适合代数运算 受抽样变动的受抽样变动的 影响较小影响较小缺点缺点 易受极端数值易受极端数值 的影响的影响 一组数据中某一组数据中某 个数值的大小模个数值的大小模 糊不清或不够确糊不清或不够确 切时无法计算切时无法计算(2)加权平均数)加权

6、平均数加权平均数是不同比重数据(或平均加权平均数是不同比重数据(或平均数)的平均数。用数)的平均数。用 表示。表示。其计算公式有两种形式其计算公式有两种形式 (3)中位数)中位数定义定义:中位数是把按从小到大(从大到中位数是把按从小到大(从大到小)排列的一组数据一分为二的数值。小)排列的一组数据一分为二的数值。中位数的计算:中位数的计算:1.用原始数据计算(分奇数个数据和用原始数据计算(分奇数个数据和偶数个数据)偶数个数据)2.利用次数分布表计算利用次数分布表计算 利用次数分布表计算中位数利用次数分布表计算中位数(1)计算公式)计算公式(由小向大计算由小向大计算)表示中位数所在组的下限;表示中

7、位数所在组的下限;N表示总频数;表示总频数;中位数所在组的频数;中位数所在组的频数;表示小于中位数所在组下限的频数综合。表示小于中位数所在组下限的频数综合。中位数的优缺点与应用中位数的优缺点与应用优点优点:不易受极端值影响不易受极端值影响缺点缺点:不适合代数计算不适合代数计算应用条件应用条件:一一组组数据中有特大或特小两极端数值时;数据中有特大或特小两极端数值时;一组数据中两端数据或个别数据不确切、不一组数据中两端数据或个别数据不确切、不清楚时;清楚时;当需要快速估计一组数据的代表值时;当需要快速估计一组数据的代表值时;数据资料属于等级性质时。数据资料属于等级性质时。(4)众数)众数众数的概念

8、众数的概念 理论众数理论众数是指与频数分布曲线最高点是指与频数分布曲线最高点相对应的横坐标上的一点。相对应的横坐标上的一点。粗略众数粗略众数是指一组数据中频数出现最是指一组数据中频数出现最多的那个数。多的那个数。众数的计算方法众数的计算方法 (1)用观察法直接寻找众数用观察法直接寻找众数 在频数分布表中在频数分布表中,频数最多一组的频数最多一组的组中值就是粗略众数。当两个相邻的组组中值就是粗略众数。当两个相邻的组的频数都是最多时,那么两分组的分组的频数都是最多时,那么两分组的分组点就是众数。点就是众数。(2)皮尔逊的经验法)皮尔逊的经验法 当频数分布呈正态或接近正态时,当频数分布呈正态或接近正

9、态时,皮尔逊发现众数近似地等于皮尔逊发现众数近似地等于3 3倍的中位数倍的中位数减去减去2 2倍的算术平均数。倍的算术平均数。众数的计算方法众数的计算方法众数的适用情况众数的适用情况当当需要快速而又粗略地找出一组数据的需要快速而又粗略地找出一组数据的代表值时。代表值时。当需要利用算术平均值、中位数、众数当需要利用算术平均值、中位数、众数三者关系来粗略判断频数分布的形态时。三者关系来粗略判断频数分布的形态时。利用众数帮助分析解释一组次数分布是利用众数帮助分析解释一组次数分布是否确实具有两个次数最多的集中点时。否确实具有两个次数最多的集中点时。平均数、中位数、众数三者之间的关系常用中心测度概括常用

10、中心测度概括测度测度特点特点使用注意事项使用注意事项众数众数适合于描述适合于描述 分类分类变量或变量或称名称名变量的趋中程度变量的趋中程度 不准确、信息量有限、不准确、信息量有限、易产生误导易产生误导 中数中数如果需要知道数据分布如果需要知道数据分布的中点或者数据分布明的中点或者数据分布明显偏态时,优先使用。显偏态时,优先使用。对存在的极端高或极端对存在的极端高或极端低的数值不敏感低的数值不敏感平均数平均数是最经常使用、最容易是最经常使用、最容易计算、容易理解的趋中计算、容易理解的趋中测度测度对极值很敏感。如果数对极值很敏感。如果数据中存在较多的极值,据中存在较多的极值,或者分布明显偏态,可或

11、者分布明显偏态,可能产生误导能产生误导加权平加权平均数均数需要了解若干容量不同需要了解若干容量不同的子群体的总平均分的子群体的总平均分权重的使用最为重要,权重的使用最为重要,尤其是子群体容量明显尤其是子群体容量明显不同时不同时(二)变化测度(二)变化测度 变化测度变化测度是描述一组数据的变化程度是描述一组数据的变化程度或分散程度的数值。常用变化测度包括:或分散程度的数值。常用变化测度包括:(1)全距(全距)全距(全距=最高分最高分-最低分)最低分)(2)方差与标准偏差)方差与标准偏差 (3)四分位差)四分位差 (4)极值)极值(2)平均差、方差与标准差)平均差、方差与标准差 平均差(平均差(M

12、DMD):就是每一个数据与该组就是每一个数据与该组数据的中位数(或算术平均数)离差的数据的中位数(或算术平均数)离差的绝对值的算术平均数。绝对值的算术平均数。平均差的优缺点平均差的优缺点 与极差相比,平均差是利用全部数与极差相比,平均差是利用全部数据信息计算的,意义明确,计算容易,据信息计算的,意义明确,计算容易,较好地度量了次数分布的离散程度。但较好地度量了次数分布的离散程度。但计算要用到绝对值,使它的应用大大受计算要用到绝对值,使它的应用大大受到限制。到限制。方差方差方差是指离差平方和的算术平均数。用方差是指离差平方和的算术平均数。用 表示。表示。方差虽然避免了绝对值的麻烦,但方差虽然避免

13、了绝对值的麻烦,但却又使变量的单位变成原单位的平方。却又使变量的单位变成原单位的平方。标准差标准差标准差是指离差平方和平均后的方根,即标准差是指离差平方和平均后的方根,即方差的平方根。用方差的平方根。用 表示。表示。方差与标准差的优缺点方差与标准差的优缺点优点优点:反映灵敏,严密确定,计算简单,反映灵敏,严密确定,计算简单,用样本数据推断总体差异量时,方差与用样本数据推断总体差异量时,方差与标准差是最好的估计量标准差是最好的估计量。缺点缺点:易受极端数值的影响,有个别数易受极端数值的影响,有个别数据模糊不清时便无法计算。据模糊不清时便无法计算。(3)四分位差)四分位差百分位数百分位数:就是次数

14、分布中相对于某个就是次数分布中相对于某个特定百分特定百分点点的原始分数。百分位数的计算公式如下:的原始分数。百分位数的计算公式如下:P Pm m第第m m百分位数;百分位数;L LP Pm m所在组的组下限;所在组的组下限;fPfPm m所在组的次数;所在组的次数;F Fb b小于小于L L的累计次数。的累计次数。百分位差百分位差百分位差百分位差:是指两个百分位数之差。常用是指两个百分位数之差。常用的有:的有:四分位差四分位差 若将从小到大排列的一组数据分成频数相等若将从小到大排列的一组数据分成频数相等的四段,第一与第二段的分界点称为第一个四分的四段,第一与第二段的分界点称为第一个四分位数。第

15、三段与第四段的分界点称为第三个四分位数。第三段与第四段的分界点称为第三个四分位数。则四分位差就是第三个四分位数(第位数。则四分位差就是第三个四分位数(第7575百百分位数)与第一个四分位数(第分位数)与第一个四分位数(第2525百分位数)的百分位数)的差。公式为:差。公式为:极差、百分位差、四分位差极差、百分位差、四分位差 极差极差:最简单、最易理:最简单、最易理解的差异量数,但也是解的差异量数,但也是最粗糙、最不可靠的值。最粗糙、最不可靠的值。级差明显地受取样级差明显地受取样变动的影响,一般情况变动的影响,一般情况下主要用于对数据做预下主要用于对数据做预备性检查,了解数据的备性检查,了解数据

16、的大概散布范围,以便确大概散布范围,以便确定如何进行统计分组。定如何进行统计分组。百分位差与四分位差百分位差与四分位差:与极差相比,避免了极与极差相比,避免了极端数据的影响,但由于端数据的影响,但由于没有把全部数据考虑在没有把全部数据考虑在内,其稳定性会差一些。内,其稳定性会差一些。另外,它们也不适合另外,它们也不适合代数方法运算,反应不代数方法运算,反应不够灵敏,应用不多够灵敏,应用不多。(4)极值)极值 极值极值是指位于数据总体分布之外的是指位于数据总体分布之外的一些极端的数值。极值的产生可能主要一些极端的数值。极值的产生可能主要有下列原因:有下列原因:(1)极值是真的测量结果;)极值是真

17、的测量结果;(2)可能是由于数据记录或录入误)可能是由于数据记录或录入误差造成的;差造成的;(3)极值数据可能来自其他总体。)极值数据可能来自其他总体。确定极值的方法确定极值的方法 统计学上通常用四分位数和四分位距作为确定统计学上通常用四分位数和四分位距作为确定极值的工具,过程如下:极值的工具,过程如下:(1)首先根据四分位数和四分位距确定数据分布)首先根据四分位数和四分位距确定数据分布的上、下限:的上、下限:下限下限=Q1-.1.5IQR;上限上限=Q3+1.5IQR (2)小于下限和大于上限的观察值就是潜在的极小于下限和大于上限的观察值就是潜在的极值。值。(3)确定了潜在的观察值后,可以用

18、直方图、茎)确定了潜在的观察值后,可以用直方图、茎叶图等进一步检查这些观察值是否真的是极值。叶图等进一步检查这些观察值是否真的是极值。(三)分布形态测度(三)分布形态测度偏度偏度:是描述数据分布对称性的测度。是描述数据分布对称性的测度。偏度是与正态分布相比较的量,偏度是与正态分布相比较的量,偏度为偏度为0表示表示其数据分布与正态分布偏度相同,数据呈对称分其数据分布与正态分布偏度相同,数据呈对称分布,此时平均数与中数相等;布,此时平均数与中数相等;偏度大于偏度大于0表示正偏表示正偏差数值较大,数据呈正偏态(或右偏态),此时差数值较大,数据呈正偏态(或右偏态),此时平均数大于中数;平均数大于中数;

19、偏度小于偏度小于0表示负偏差数值较大,表示负偏差数值较大,数据呈负偏态(或左偏态),此时平均数小于中数据呈负偏态(或左偏态),此时平均数小于中数。而偏度的绝对值数值越大表示分布形态的偏数。而偏度的绝对值数值越大表示分布形态的偏差程度越大。差程度越大。峰度峰度 峰度峰度是描述数据围绕平均数分布的是描述数据围绕平均数分布的紧密程度,或者分散程度。紧密程度,或者分散程度。峰度峰度 与平均数、标准偏差一样,峰度对极端值的存在非常敏与平均数、标准偏差一样,峰度对极端值的存在非常敏感。统计学上,将数据分布分为三种类型,即常峰态、低峰感。统计学上,将数据分布分为三种类型,即常峰态、低峰态和尖峰态。态和尖峰态

20、。峰度为峰度为0表示其数据分布与正态分布的趋缓程度相同,表示其数据分布与正态分布的趋缓程度相同,数据呈常峰态。数据呈常峰态。峰度小于峰度小于0表示比正态分布更加平坦,数据呈低峰态,表示比正态分布更加平坦,数据呈低峰态,即中间部分的数据较少,相当一部分数据分布在两端极端高即中间部分的数据较少,相当一部分数据分布在两端极端高或极端低的位置,而且这种分布的偏度指数一般不太高。或极端低的位置,而且这种分布的偏度指数一般不太高。峰度大于峰度大于0表示比正态分布更加陡峭,数据呈尖峰态,表示比正态分布更加陡峭,数据呈尖峰态,即相当一部分数据分布在少数的位置,这个位置可以是靠中即相当一部分数据分布在少数的位置

21、,这个位置可以是靠中间的位置,也可以是靠某一端的位置,其他位置的数据分布间的位置,也可以是靠某一端的位置,其他位置的数据分布明显较少。明显较少。分布平均数中位数众数离散程度离散程度SPSS的基本统计分析的基本统计分析在SPSS的Analyze菜单中包括了一系列统计分析过程。其中Reports和Descriptive Statistics命令项中包括的功能是对单变量的描述统计分析。Descriptive Statistics包括的统计功能有:包括的统计功能有:nFrequencies:频数分析nDescriptives:描述统计量分析nExplore:探索分析nCrosstabs:多维频数分布交

22、叉表(列联表)Reports包括的统计功能有:包括的统计功能有:nOLAP Cubes:OLAP报告摘要表nCase Summaries:观测量列表nReport Summaries in Row(Columns):行(列)形式输出报告3/8/2023频数分析频数分析Frequencies1、了解变量的取值分布情况对整体把握数据的特征、了解变量的取值分布情况对整体把握数据的特征是非常有利的。是非常有利的。2、求分类(定类、定序)变量的频数和作、求分类(定类、定序)变量的频数和作Bar图图3、求定距变量、求定距变量(连续变量连续变量)的分布情况和作直方图的分布情况和作直方图Histogram4、

23、对连续变量进行分组、对连续变量进行分组(recode)后再求频数,如老后再求频数,如老中青中青(35,60)的比例,文化程度的比例,文化程度(中学、大学及以中学、大学及以上上)的人数及比例等的人数及比例等5、Analyze+Descriptive Statistics+Frequencies3/8/2023描述统计分析过程Descriptives1、功能:了解数据的基本统计特征和对指定的变量值进、功能:了解数据的基本统计特征和对指定的变量值进行标准化处理行标准化处理(标准化后的新变量的均值为标准化后的新变量的均值为0,标准差为,标准差为1,目的是为了消除各变量间变量值在数量级上的差异,从,目的

24、是为了消除各变量间变量值在数量级上的差异,从而增强数据间的可比性而增强数据间的可比性)。2、描述统计分析过程通过平均值、描述统计分析过程通过平均值(Mean)、算术和算术和(Sum)、标准标准差差(Std Dev)、最大值最大值(Maximum)、最小值最小值(Minimum)、方差方差(Variance)、范围范围(Range)、平均数标平均数标准误准误(S.E.Mean)等统计量对变量进行描述。等统计量对变量进行描述。3、一般是求定距变量的描述统计量,从中分析差异性、一般是求定距变量的描述统计量,从中分析差异性(max,min)4、Analyze+Descriptive Statistic

25、s+Descriptives3/8/2023探索分析探索分析 Explore1.考察数据的奇异性和分布特征考察数据的奇异性和分布特征n奇异性:数据的过大或过小(找出、分析原因、是否奇异性:数据的过大或过小(找出、分析原因、是否剔除)剔除)n分布特征:数据是否来自正态分布总体分布特征:数据是否来自正态分布总体n考察方法:统计量和统计图形(箱图、茎叶图(频数、考察方法:统计量和统计图形(箱图、茎叶图(频数、茎和叶)、方差齐次性检验(茎和叶)、方差齐次性检验(Spread vs level图)图)2.一般一般是是考察考察定距变量定距变量3.Analyze+Descriptive Statistics

26、+Exploren因(分析)变量(因(分析)变量(Dependent List):):定距变量定距变量n分组变量(分组变量(Factor List):):分类变量分类变量n标识变量标识变量(Label Cases by):为方便查找输出观测量如为方便查找输出观测量如id3/8/2023多维频数分布表多维频数分布表(交叉表交叉表,列联表列联表)二维或多维交叉频数表(列联表),分析事物(变二维或多维交叉频数表(列联表),分析事物(变量)之间的相互影响和关系量)之间的相互影响和关系Analyze+Descriptive Statistics+Crosstabsn行变量(行变量(Row):):需分类变

27、量需分类变量n列变量(列变量(Column):):需分类变量需分类变量n分层变量(分层变量(Layer):):条件(若有,需分类变量)条件(若有,需分类变量)nStatistics选项:选项:nChi-square复选项及其四种检验结果复选项及其四种检验结果nCorrelations复选项:相关系数复选项:相关系数3/8/2023SPSS的单变量描述统计命令的单变量描述统计命令 A Frequencies:频数统计频数统计StatisticsSummarizeFrequencies变量值频数百分比有效百分比累计百分比中位数中位数百分比和有效百分比百分比和有效百分比B Descriptives:

28、定距变量描述统计定距变量描述统计StatisticsSummarizeDescriptives变量名平均数标准差最小值最大值统计报表分析(统计报表分析(Reports)nOLAP Cubes:在线分析处理:在线分析处理nCase Summaries:观测值摘要分析观测值摘要分析nReport Summaries in Row:行形式输行形式输出报告出报告nReport Summaries in Columns:列形列形式输出报告式输出报告3/8/2023OLAP报告摘要表OLAP CubesOLAP(Online Analytical Processing)在线分析处理过程以分组变量为基础,计

29、算各组的总计、均值和其他统计量。而输出的报告摘要则是指每个组中所包含的各种变量的统计信息。Analyze+Reports+OLAP CubesnSummary Variables:要进行统计汇总的数值型变量nGrouping Variables:分组变量(分类变量),注意:此分组变量在实际的运算过程中并不发挥分组的功能,而是确定进入统计的观测量的范围。如选择数学成绩作为摘要分析变量,而性别作为分组变量,要计算数学平均成绩,则结果中显示的并不是男生的数学平均成绩和女生的数学平均成绩,而是所有男女生观测量的数学成绩的总平均值。即所有性别有值(非Missing Value)的Case,才参与分析计算

30、nStatistics选项:Sum和、Number of Cases观测量数目、Mean均值、Median中位数、Maximum最大等等3/8/2023Case Summaries:观测量列表观测量列表 个案简明统计报表用于按指定分组统计量不同,个案简明统计报表用于按指定分组统计量不同,水平的交叉组合对变量进行记录列表,并计算相应水平的交叉组合对变量进行记录列表,并计算相应的统计量。它主要为定量资料的描述服务,是一个的统计量。它主要为定量资料的描述服务,是一个比较常用的过程。比较常用的过程。查看或打印所需要的变量值查看或打印所需要的变量值Analyze+Reports+Case Summari

31、esnVariables:要显示的变量名要显示的变量名nGrouping Variables:分组变量(分类变量)分组变量(分类变量)n结果显示:多行或单行结果显示:多行或单行3/8/2023行形式输出报告行形式输出报告Summary 按行,如:sum、mean、max、min、count、std dev、variance、percentage(above,below,inside)等菜单:Analyze+Reports+Report Summaries in RowsnData Column:报告变量nBreak Column:分组变量及其Summary(多个交叉)nReport:可对全部数

32、据进行描述统计(Grand Total)nDisplay Cases:是否显示每一个观测量3/8/2023列形式输出报告列形式输出报告Summary 按列,如:sum、mean、max、min、count、std dev、variance、percentage(above,below,inside)等菜单:Analyze+Reports+Report Summaries in ColumnsnData Column:报告变量一一对应的SummaryInsert Total:汇总列,可汇总两列或多列的信息nBreak Column:分组变量(多个交叉)及SubtotalnReport:可对全部数据进行描述统计(Grand Total)3/8/2023

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 工作报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁