《(专科)ch3数据特征的描述分析教学ppt课件.pptx》由会员分享,可在线阅读,更多相关《(专科)ch3数据特征的描述分析教学ppt课件.pptx(57页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、(专科)ch3数据特征的描述分析教学ppt课件第3章 数据特征的描述分析PPT模板下载:行业PPT模板:节日PPT模板:素材下载:PPT背景图片:图表下载:优秀PPT下载:教程: Word教程: 教程:资料下载:课件下载:范文下载:试卷下载:教案下载:论坛: 本章目录CONTENTS 总量水平与相对水平的描述01集中趋势的描述02分布形态的描述 04 离中趋势的描述0305相对位置的描述与异常值检测总量指标总量指标表明现象在一定时间、地点、条件下的总规模或绝对水表明现象在一定时间、地点、条件下的总规模或绝对水平的指标平的指标 绝对数的形式表示;绝对数的形式表示; 大小与总体范围大小直接相关;大
2、小与总体范围大小直接相关; 认识现象的起点,计算相对指标、平均指标的认识现象的起点,计算相对指标、平均指标的基础。基础。3.13.1总量水平和相对水平的描述总量水平和相对水平的描述(1)(1)按反映总体的特征(内容)按反映总体的特征(内容)总体总量和标志总量总体总量和标志总量总体总量总体总量即总体单位总数即总体单位总数表示总体本身的规模大小表示总体本身的规模大小 标志总量标志总量即总体各单位某一数量标志值总和。即总体各单位某一数量标志值总和。表示所研究现象的总水平。表示所研究现象的总水平。 2.2.总量指标的分类总量指标的分类(2)按反映的时间状况按反映的时间状况时期指标和时点指标时期指标和时
3、点指标时期指标时期指标流量流量反映总体在一段时期内活动过程的总量,反映总体在一段时期内活动过程的总量,指标数值可以累计相加,指标数值可以累计相加,数值大小和时间的长短有直接关系;数值大小和时间的长短有直接关系;时点指标时点指标存量存量是反映总体在某一时刻(瞬间)状况的总量是反映总体在某一时刻(瞬间)状况的总量数值不能累计相加,数值不能累计相加,数值的大小和时间间隔的长短没有直接关系数值的大小和时间间隔的长短没有直接关系。相对指标相对指标1 1、概念、概念 相对指标又称相对数,是两个有联系的指标对比的相对指标又称相对数,是两个有联系的指标对比的比率。比率。2 2、作用、作用 最常用的对比分析方法
4、;最常用的对比分析方法; 使一些不能直接对比的现象有了共同对比的基础;使一些不能直接对比的现象有了共同对比的基础; 是经济管理和考核评价企业经济活动状态的重要指标。是经济管理和考核评价企业经济活动状态的重要指标。 2.相对指标的分类相对指标的分类 根据研究的目的不同、对比的基础不同,分为:根据研究的目的不同、对比的基础不同,分为: 计划完成相对数计划完成相对数检查计划完成程度检查计划完成程度 结构相对数结构相对数反映现象的结构和分布反映现象的结构和分布 比例相对数比例相对数反映现象内部比例关系反映现象内部比例关系 比较相对数比较相对数评价不同单位的实力、优劣评价不同单位的实力、优劣 强度相对数
5、强度相对数反映现象强度、密度和普遍程度反映现象强度、密度和普遍程度 动态相对数动态相对数反映现象发展变化的状态反映现象发展变化的状态%100 总体的全部数值总体的全部数值总体中的部分数值总体中的部分数值结构相对数结构相对数(1 1)结构相对数(又称比重):)结构相对数(又称比重): 统计分组的基础上,利用总体的统计分组的基础上,利用总体的部分部分数值与总体的数值与总体的全部全部数值的对比,来反映社会经济现象的内部结构以及数值的对比,来反映社会经济现象的内部结构以及分布状况分布状况(2 2)比例相对数:)比例相对数: 是在总体分组的基础上,各组成部分之是在总体分组的基础上,各组成部分之间的数量对
6、比的比值,反映总体内部的比例间的数量对比的比值,反映总体内部的比例关系(结构性的比例)。关系(结构性的比例)。总体中另一部分数值总体中另一部分数值总体中某一部分数值总体中某一部分数值比例相对数比例相对数(3 3)比较相对数:)比较相对数: 相同时间不同空间同类现象数值的对比,用相同时间不同空间同类现象数值的对比,用以比较不同国家、不同地区、不同单位之间的经以比较不同国家、不同地区、不同单位之间的经济势力强弱和工作优劣。济势力强弱和工作优劣。空间同类现象指标数值空间同类现象指标数值空间某类现象指标数值空间某类现象指标数值比较相对数比较相对数BA(4)计划完成相对指标)计划完成相对指标 实际完成数
7、与计划任务数的比率。实际完成数与计划任务数的比率。%100计划任务数计划任务数实际完成数实际完成数计划完成百分比计划完成百分比(5 5)强度相对数:)强度相对数: 是性质不同但又有联系的两个现象的总量是性质不同但又有联系的两个现象的总量指标对比的比值,用来反映现象的强度,密度指标对比的比值,用来反映现象的强度,密度和普遍程度。例如人口密度、每万人拥有医院和普遍程度。例如人口密度、每万人拥有医院病床数、人均绿地面积等均为强度相对数。病床数、人均绿地面积等均为强度相对数。 同的现象的指标数值同的现象的指标数值另一个有联系而性质不另一个有联系而性质不某一现象的指标数值某一现象的指标数值强度相对数强度
8、相对数(6)动态相对数)动态相对数: 是不同时间、同一空间的同一现象的数值对比,是不同时间、同一空间的同一现象的数值对比,可以反映现象发展变化的相对程度(即发展速度)。可以反映现象发展变化的相对程度(即发展速度)。基期指标数值基期指标数值报告期指标数值报告期指标数值动态相对数动态相对数100 基期:用以比较的标准时期;基期:用以比较的标准时期;报告期:被比较的时期。报告期:被比较的时期。3.2统计数据集中趋势的描述统计数据集中趋势的描述平均指标平均指标 统计数据的集中趋势是指一组数据向某一中心值靠拢的倾向。 对集中趋势的描述归纳起来有两大类:一类是数值平均数,它是根据全部数值计算得到的代表值;
9、另一类是位置平均数,是根据数据所处位置直接观察或根据与所处位置有关的部分数据计算确定的代表值。 数值平均数数值平均数1.算术平均数基本公式总体单位总量总体单位总量总体标志总量总体标志总量算术平均数算术平均数 x 例:例: 平均工资平均工资= =工资总额工资总额/ /职工人数职工人数 平均成本平均成本= =总成本总成本/ /产量产量(1)简单算术平均数)简单算术平均数未分组时未分组时 nxnxxxxn21(2)加权算术平均数)加权算术平均数fxfffffxfxfxxkkk212211ffxffxffxffxxkk2211(3) 算术平均数的特点和数学性质算术平均数的特点和数学性质特点: 算术平均
10、数受变量值和变量值出现次数的共同影响; 算术平均数靠近出现次数最多的变量值; 算术平均数受极端变量值的影响;数学性质:数学性质: 1.各变量值与算术平均数的离差和为零各变量值与算术平均数的离差和为零 0)(xx 0)(fxx 22)()(cxxxfcxfxx 22)()(2.变量值与算术平均数的离差平方和最小变量值与算术平均数的离差平方和最小 说明以算术平均数以外的任何数为中心,说明以算术平均数以外的任何数为中心,其离差都大于以平均数为中心的离差。其离差都大于以平均数为中心的离差。2.几何平均数集中趋势的测度值之一 N 个变量值乘积的 N 次方根主要用于计算平均速度、平均比率 当标志总量等于各
11、个标志值的乘积,而不当标志总量等于各个标志值的乘积,而不是之和时,计算平均数就采用几何平均数。是之和时,计算平均数就采用几何平均数。例某企业生产某种产品要经过三道工序,各工序的合格品率分别为95%、96%和98%。该产品三道工序的平均合格品率为多少?12nnxx xx 三道工序的平均合格品率为三道工序的平均合格品率为96.32%.思考平均废品率为多少?思考平均废品率为多少? 【例例】一位投资者持有一种股票,近四年的年收益一位投资者持有一种股票,近四年的年收益率分别为率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者。计算该投资者在这四年内的平均收益率。在这四年内的平均收益率。位置平均
12、数1.众数(Mode) 众数是指总体中出现次数最多或频率最大的变量值(数据)。众数是一种位置平均数,且不受极端值的影响。 只有在总体单位充分多,且又有明显的集中趋势时才可只有在总体单位充分多,且又有明显的集中趋势时才可能确定众数。在较小的总体范围内,确定众数没有意义。能确定众数。在较小的总体范围内,确定众数没有意义。可能没有众数或有几个众数可能没有众数或有几个众数主要用于定类数据,也可用于定序数据和数值型数据主要用于定类数据,也可用于定序数据和数值型数据组距式数列的众数用于组距式数列众数的值与相邻两组频数的分布有关 相邻两组的频数相等时,众数组的组中值即为众数。该公式假定众数组的频数在众数组内
13、均匀分布该公式假定众数组的频数在众数组内均匀分布2.中位数(Me)(1 1)中位数概念)中位数概念 中位数是根据变量值的位置来确定的平均数。将变量值按大小顺中位数是根据变量值的位置来确定的平均数。将变量值按大小顺序排序,处于中间位置的变量值(或数据)即中位数,用序排序,处于中间位置的变量值(或数据)即中位数,用Me表示。表示。由于中位数是位置代表值,所以不会受极端值的影响,具有较高的由于中位数是位置代表值,所以不会受极端值的影响,具有较高的稳健性。稳健性。 主要用于定序数据,也可用数值型数据,但不能用主要用于定序数据,也可用数值型数据,但不能用于定类数据于定类数据(2 2)中位数的计算中位数的
14、计算未分组数据的中位数未分组数据的中位数分组数据的中位数分组数据的中位数(1)在单项式变量数列中确定中位数。)在单项式变量数列中确定中位数。 先计算累计次数,仍用(先计算累计次数,仍用(n1)/2的方的方法,确定中位点次,该位次所在组对应的标法,确定中位点次,该位次所在组对应的标志值就是中位数。志值就是中位数。1.编制累计次数表;2.根据位置公式确定中位数所在的组;3.采用下列近似公式计算中位数:(2)组距数列中确定中位数)组距数列中确定中位数dfSfLmmme12 其中其中为中位数所在组的下限;为中位数所在组的下限;为中位数所在组的上限;为中位数所在组的上限;为总次数;为总次数;为中位数组前
15、一组的向上累计次数;为中位数组前一组的向上累计次数;为中位数组后一组的向下累计次数;为中位数组后一组的向下累计次数;为中位数组的次数;为中位数组的次数;为中位数组的组距为中位数组的组距Lf 1mSmfd该公式假定中位数组的频数在该组内均匀分布该公式假定中位数组的频数在该组内均匀分布dfSfUmmme12 U1 mS3. 分位数分位数 中位数是从中间点将全部数据等分为两部分。与中位数类似的还中位数是从中间点将全部数据等分为两部分。与中位数类似的还有四分位数、十分位数和百分位数等,统称分位数。有四分位数、十分位数和百分位数等,统称分位数。 四分位数是通过四分位数是通过3 3个点将全部数据等分为个点
16、将全部数据等分为4 4部分,其中每部分包括部分,其中每部分包括25%25%的数据。很显然,第二个四分位数就是中位数,因此通常所的数据。很显然,第二个四分位数就是中位数,因此通常所说的四分位数是指处在说的四分位数是指处在25%25%位置上的数值(下四分位数位置上的数值(下四分位数Q QL L)和处)和处在在75%75%位置上的数值(上四分位数位置上的数值(上四分位数Q QU U)。)。14LQn的位置314UQn的位置oemmxoemmxoemmx中位数、众数和平均数的关系中位数、众数和平均数的关系: : 中位数、众数和平均数之间的数量关系决定于总中位数、众数和平均数之间的数量关系决定于总体内次
17、数分配的状况。体内次数分配的状况。对称钟形分布情形下:对称钟形分布情形下:非对称左偏分布情形下:非对称左偏分布情形下:非对称右偏分布情形下:非对称右偏分布情形下:反映总体单位变量值的离中趋势(或差异程度反映总体单位变量值的离中趋势(或差异程度,均衡性、稳定性),均衡性、稳定性)衡量平均数的代表性。衡量平均数的代表性。 变异指标越大,平均数代表性越小;变异指标越大,平均数代表性越小; 变异指标越小,平均数代表性越大。变异指标越小,平均数代表性越大。3.33.3离中趋势的描述离中趋势的描述变异指标变异指标最大的变量值与最小的变量值之差,用最大的变量值与最小的变量值之差,用R表示。表示。minmax
18、xxR3.3.1 极差极差一组数据的最大值与最小值之差一组数据的最大值与最小值之差离散程度的最简单测度值离散程度的最简单测度值易受极端值影响易受极端值影响未考虑数据的分布未考虑数据的分布四分位差 上四分位数与下四分位数之差,称为四分位差,也称为内距或四分间距 LUDQQQ四分位差反映了中间四分位差反映了中间50%数据的离散程度,其数值越小,数据的离散程度,其数值越小,说明中间的数据越集中,数值越大,说明中间的数据越分散。说明中间的数据越集中,数值越大,说明中间的数据越分散。四分位差不受极值的影响。此外,由于中位数处于数据的中四分位差不受极值的影响。此外,由于中位数处于数据的中间位置,因此四分位
19、差的大小在一定程度上也说明了中位数间位置,因此四分位差的大小在一定程度上也说明了中位数的代表程度。的代表程度。 平均差平均差 各变量值与其均值离差绝对值的平均数 能全面反映一组数据的离散程度 数学性质较差,实际中应用较少未分组数据:未分组数据:nxxD.A 组距分组数据:组距分组数据:.xxfA Df3.3.4 3.3.4 方差方差VarianceVariance和标准差和标准差S.DS.D 测度标志变异最重要,最常用的指标。测度标志变异最重要,最常用的指标。标准差方差的平方根。标准差方差的平方根。方差方差变量值与平均数的离差平方的平均数。变量值与平均数的离差平方的平均数。nxx2222xxf
20、fnxx22xxff方差和标准差的数学性质:方差和标准差的数学性质: (1 1)每个变量值加上一个常数,方差和标准)每个变量值加上一个常数,方差和标准差不变。差不变。xyxyixy ,22,则,则为任意常数,为任意常数,设设 (2 2)若每个变量值扩大一个常数倍,方程和)若每个变量值扩大一个常数倍,方程和标准差也同比例变化。标准差也同比例变化。xyyiixxy ,则有,则有设设222 (3)同一数列的标准差不小于平均差;)同一数列的标准差不小于平均差;22222),2 , 1;,2 , 1,4 :和和组组间间方方差差数数分分解解为为组组内内方方差差的的平平均均。则则总总方方差差可可以以个个数数
21、据据(的的第第组组表表示示第第个个组组,各各组组数数据据个个数数为为)总总体体分分为为(iijifjkijiXfk ifiiijiiiifxxffi 12222 组内方差的平均数是各组方差的加权算术平均数。组内方差的平均数是各组方差的加权算术平均数。 kiikiiiffxx1122 组间方差是各组平均数的方差组间方差是各组平均数的方差异众比率异众比率1. 离散程度的测度值之一2. 非众数组的频数占总频数的比重3. 计算公式为:3.3.6 变异系数变异系数 全距、四分位差、平均差和标准差有计量单位,是全距、四分位差、平均差和标准差有计量单位,是标志变异的绝对指标。标志变异的绝对指标。 而且指标的
22、大小不仅取决于变量而且指标的大小不仅取决于变量值的差异程度,还取决于变量值水平的高低。因而,对值的差异程度,还取决于变量值水平的高低。因而,对于具有不同水平的数列,或不同量纲的数列,都不能直于具有不同水平的数列,或不同量纲的数列,都不能直接用全距、平均差、和标准差来比较平均数代表性的大接用全距、平均差、和标准差来比较平均数代表性的大小。只能用相对形式小。只能用相对形式变异系数变异系数进行比较。进行比较。xRvR全距系数全距系数xv 标准差系数标准差系数.A DA Dvx 平均差系数平均差系数变异系数包括:变异系数包括: 标志变异指标与其相应的均值之比 消除了数据水平高低和计量单位的影响 测度了
23、数据的相对离散程度 用于对不同组别数据离散程度的比较 意义是单位平均数上的差异3.4 3.4 分布形态的描述分布形态的描述 偏态和峰态是数据分布的重要特征。偏态也称为偏度,偏态和峰态是数据分布的重要特征。偏态也称为偏度,指变量围绕其均值的非对称方向和程度。指变量围绕其均值的非对称方向和程度。 峰态也称为峰度,指数据分布曲线的凸起或平坦程度。峰态也称为峰度,指数据分布曲线的凸起或平坦程度。 偏度和峰度主要用于判断总体的分布是否接近于正态偏度和峰度主要用于判断总体的分布是否接近于正态分布。分布。 测量偏度和峰度最常用的方法是计算偏度系数和峰度测量偏度和峰度最常用的方法是计算偏度系数和峰度系数,而这
24、两个系数的计算需要理解系数,而这两个系数的计算需要理解“矩矩”概念。概念。矩的概念矩的概念 矩又叫做动差。统计学上常常用矩来测度数据分布的形态。矩又叫做动差。统计学上常常用矩来测度数据分布的形态。 若以若以a a值为变量值为变量x x的中点,所有变量值与的中点,所有变量值与a a之离差的之离差的k k次方的平次方的平均数为变量关于均数为变量关于a a的的k k阶矩:阶矩: naxk)(ffaxk)(对分组资料,各阶矩公式为对分组资料,各阶矩公式为: 当a =0时,即变量以原点为中心,称上式为k阶原点矩。则一阶原点矩为算术平均数,二阶原点矩为平方平均数。 当a = 时,即变量以均值为中心,称上式
25、为k阶中心矩,用mk表示。根据算术平均数的性质和方差的定义可知,一阶中心矩为0,二阶中心矩为方差,即:x2221/)(0/ )(nxxmnxxm偏态的测定偏态的测定 只有奇数阶中心矩才能正的离差和与负离差之和能被抵消,只有奇数阶中心矩才能正的离差和与负离差之和能被抵消,才能用于分布的形态的测度,三阶中心矩最为简单,故常才能用于分布的形态的测度,三阶中心矩最为简单,故常用三阶中心矩来测度偏态。用三阶中心矩来测度偏态。由于中心矩是有计量单位的数,所以利用由于中心矩是有计量单位的数,所以利用m3测定偏态的方测定偏态的方法,是将三阶中心矩除以标准差的三次方法,是将三阶中心矩除以标准差的三次方3,所得的
26、系数通,所得的系数通常称为偏度或偏度系数,用常称为偏度或偏度系数,用SK表示,其计算公式为:表示,其计算公式为:3333)(nxxmSK 当分布对称时,SK=0;当SK为正值时,表示正离差值较大,可以判断为右偏分布或正偏分布;当SK为负值时,表示负离差数值较大,可以判断为左偏分布或负偏分布。SK的绝对值越大,表示偏斜的程度越大。3.4.2 峰态的测定峰态的测定 峰态是以正态分布曲线为标准来衡量其尖峭程度的,通峰态是以正态分布曲线为标准来衡量其尖峭程度的,通常分为正态、尖顶与平顶三种。常分为正态、尖顶与平顶三种。 当频数分布曲线较正态分布曲线更为隆起、更瘦更高的,当频数分布曲线较正态分布曲线更为
27、隆起、更瘦更高的,称为尖顶峰度;称为尖顶峰度; 分布曲线较正态分配曲线更为平坦、更胖更矮的,称为分布曲线较正态分配曲线更为平坦、更胖更矮的,称为平顶峰度。平顶峰度。 测定峰态往往以四阶中心矩为基础。将四次中心矩除测定峰态往往以四阶中心矩为基础。将四次中心矩除以标准差的四次方,所得到的相对数就是峰态的测度以标准差的四次方,所得到的相对数就是峰态的测度值,一般称为峰度系数,简称峰度,用值,一般称为峰度系数,简称峰度,用KurtKurt表示表示, ,其计其计算公式为:算公式为:4444)(nxxmKurt 当当KurtKurt3 3时,频数分布曲线为正态曲线;当时,频数分布曲线为正态曲线;当Kurt
28、Kurt3 3时,为平时,为平顶曲线;当顶曲线;当KurtKurt3 3时,为尖顶曲线,如果时,为尖顶曲线,如果KurtKurt的数值越大于的数值越大于3 3,则频数分布曲线的顶端越尖峭。如果则频数分布曲线的顶端越尖峭。如果KurtKurt的数值越小于的数值越小于3 3,则,则频数分布曲线之顶端越平坦,待到频数分布曲线之顶端越平坦,待到KurtKurt接近于接近于1.81.8时,频数分时,频数分布趋向一条水平线,即各组包括相同频数,因而分布形态成为布趋向一条水平线,即各组包括相同频数,因而分布形态成为矩形分布;当矩形分布;当KurtKurt的数值在的数值在1.81.8以下时,频数分布曲线是以下
29、时,频数分布曲线是“U U”形分布。形分布。3.5 相对位置的描述与异常值的检测相对位置的描述与异常值的检测3.5.1 Z-3.5.1 Z-分数分数 相对位置的测度需要利用数据分布的平均数和标准差,一般相对位置的测度需要利用数据分布的平均数和标准差,一般用用Z Z表示,常又称为表示,常又称为Z-Z-分数分数。 对数据对数据相对相对位置的测度也被称作数据的标准化。依据这个标位置的测度也被称作数据的标准化。依据这个标准化值,我们还能对来自不同现象的数据进行比较。准化值,我们还能对来自不同现象的数据进行比较。iixxz切比雪夫定理与经验法则切比雪夫定理与经验法则1.1.切比雪夫定理切比雪夫定理 指出
30、与平均数的距离在某个特定倍数的标准差之内的指出与平均数的距离在某个特定倍数的标准差之内的数据项所占比例。数据项所占比例。 与平均数的距离在与平均数的距离在z z个标准差之内的数据项所占比例至少个标准差之内的数据项所占比例至少为为 ,z z是大于是大于1 1的任意实数。的任意实数。)1-12z(当当z=2、3、4个标准差时,该定理有如下应用:个标准差时,该定理有如下应用: 至少75%的数据与平均数的距离在2个标准差之内; 至少89%的数据与平均数的距离在3个标准差之内; 至少94%的数据与平均数的距离在4个标准差之内;2.经验法则 切比雪夫定理适用于任何数据集而不论其数据分布形态。 对于现实中大
31、量存在的钟形(对称)分布,可以使用经验法则: 大约有68%的数据项与平均数的距离在1个标准差之内; 大约有95%的数据项与平均数的距离在2个标准差之内; 大约有99%的数据项与平均数的距离在3个标准差之内;3.异常值检测 有时数据集会包含一个或多个数值极大或极小的观察值,这些极端值就是数据分布的异常值(outlier)。如果数据集中存在了异常值,往往会对统计分析结果的准确性产生明显影响。因此,我们有必要对异常值进行仔细甄别。 由经验法则可得,对于钟性分布几乎所有的数据(99.7%)都会落在平均数3倍标准差范围之内。 因此,我们可以利用Z-分数来鉴别异常值,把Z-分数小于-3或大于+3的数据视为
32、异常值。然后对它们的准确性进行检查,以明确在研究中是否需要剔除。56本章小结5701 02 03 04 总量指标是说明现象总规模和总水平的数值,可分为总体单位总量和总体标志总量;或分为时期指标和时点指标。将两个有联系的数值对比得到的比率称为相对数,包括结构相对数、比例相对数、计划完成相对数、比较相对数、动态相对数和强度相对数等。集中趋势的测度主要有数值平均数和位置平均数。数值平均数包括算术平均数和几何平均数。位置平均数主要包括众数和中位数。离中趋势的测度通过变异指标来表示。变异指标主要包括极差、四分位差、平均差、方差、标准差和变异系数。偏态是指频数分布曲线的非对称的方向和程度,常用基于三阶中心矩m3的偏态系数来测定。峰态是指频数分布曲线的尖峭程度,一般以四阶中心矩m4为基础来计算峰度系数。05Z-分数可以描述数据分布的相对位置。切比雪夫定理和经验法则是关于数据概率分布的定理,切比雪夫定理适用于任意数据集,经验法则适用于正态分布的数据。利用经验法则可以检测数据的异常值。