《度量分布偏斜的程度.ppt》由会员分享,可在线阅读,更多相关《度量分布偏斜的程度.ppt(54页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第七章第七章 数据的描述统数据的描述统计计目目 录录第一节第一节 集中趋势的度量集中趋势的度量第二节第二节 离散趋势的度量离散趋势的度量第三节第三节 偏斜度与峰度的度量偏斜度与峰度的度量第四节第四节 SPSSSPSS在描述统计中的运用在描述统计中的运用集中趋势(集中趋势(central tendencycentral tendency)是指一组数据向某中是指一组数据向某中心值靠拢的倾向,集中趋势的测度实际上就是对数据心值靠拢的倾向,集中趋势的测度实际上就是对数据一般水平代表值或中心值的测度。一般水平代表值或中心值的测度。不同类型的数据用不同的集中趋势测度值,选用哪一不同类型的数据用不同的集中趋
2、势测度值,选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定。据的类型来确定。集中趋势的特征数,是代表一组数据典型水平或集中集中趋势的特征数,是代表一组数据典型水平或集中趋势的统计量。常用的集中趋势的特征数包括算术平趋势的统计量。常用的集中趋势的特征数包括算术平均数、加权平均数、几何平均数、中位数、众数等。均数、加权平均数、几何平均数、中位数、众数等。3第一节第一节第一节第一节 集中趋势的度量集中趋势的度量集中趋势的度量集中趋势的度量一、算数平均数一、算数平均数算术平均数(算术平均数(arithmetic meanarithmet
3、ic mean)简称为均数)简称为均数(meanmean)。样本均数通常用)。样本均数通常用 表示,总体均数用希腊表示,总体均数用希腊字母字母 表示。表示。算术平均数是集中趋势的最主要测度值。适用于对称算术平均数是集中趋势的最主要测度值。适用于对称分布,特别是正态或近似正态分布的计量资料。分布,特别是正态或近似正态分布的计量资料。根据所掌握数据形式的不同,算术平均数有简单算术根据所掌握数据形式的不同,算术平均数有简单算术平均数和加权算术平均数。平均数和加权算术平均数。4第一节第一节第一节第一节 集中趋势的度量集中趋势的度量集中趋势的度量集中趋势的度量(1 1)简单算术平均数()简单算术平均数(
4、simple arithmetic meansimple arithmetic mean)。未经分组)。未经分组整理的原始数据,其算术平均数的计算就是直接将一组数据的各整理的原始数据,其算术平均数的计算就是直接将一组数据的各个数值相加除以数值个数。计算公式为:个数值相加除以数值个数。计算公式为:(2 2)加权算术平均数()加权算术平均数(weighted arithmetic meanweighted arithmetic mean)。根据分)。根据分组整理的数据计算的算术平均数,就要以各组变量值出现的次数组整理的数据计算的算术平均数,就要以各组变量值出现的次数或频数为权数计算加权的算术平均数
5、。计算公式为:或频数为权数计算加权的算术平均数。计算公式为:5第一节第一节第一节第一节 集中趋势的度量集中趋势的度量集中趋势的度量集中趋势的度量二、几何平均数二、几何平均数几何平均数(几何平均数(geometric meangeometric mean),是指社会经济现),是指社会经济现象的同质总体在时间上变动速度的平均数,也即统计象的同质总体在时间上变动速度的平均数,也即统计总体在一段时期内的平均发展速度。总体在一段时期内的平均发展速度。几何平均数通常用于计算指数、百分比和增长速度的几何平均数通常用于计算指数、百分比和增长速度的平均数。平均数。根据掌握的数据资料不同,几何平均数可分为简单几根
6、据掌握的数据资料不同,几何平均数可分为简单几何平均数和加权几何平均数两种。何平均数和加权几何平均数两种。6第一节第一节第一节第一节 集中趋势的度量集中趋势的度量集中趋势的度量集中趋势的度量(1 1)简单几何平均数。根据未经分组资料计算平均数。计)简单几何平均数。根据未经分组资料计算平均数。计算公式为:算公式为:(2 2)加权几何平均数。当掌握的数据资料为分组资料,且)加权几何平均数。当掌握的数据资料为分组资料,且各个变量值出现的次数不相同时,应用加权方法计算几何各个变量值出现的次数不相同时,应用加权方法计算几何平均数。计算公式为:平均数。计算公式为:7第一节第一节第一节第一节 集中趋势的度量集
7、中趋势的度量集中趋势的度量集中趋势的度量三、中位数三、中位数中位数(中位数(medianmedian)是一组按大小顺序排列的观察值中)是一组按大小顺序排列的观察值中位居中间的数值,通常用位居中间的数值,通常用 表示。它常用于描述偏态表示。它常用于描述偏态分布资料的集中趋势。分布资料的集中趋势。中位数是一个位置代表值,因此它不受极端变量值的中位数是一个位置代表值,因此它不受极端变量值的影响,特别是当分布末端无确定数据不能求算术平均影响,特别是当分布末端无确定数据不能求算术平均数和几何平均数时,可以用中位数来表示数据分布的数和几何平均数时,可以用中位数来表示数据分布的集中趋势。集中趋势。8第一节第
8、一节第一节第一节 集中趋势的度量集中趋势的度量集中趋势的度量集中趋势的度量对于已分组的数据来说,中位数的计算公式为:对于已分组的数据来说,中位数的计算公式为:其中,其中,是到中位数组前面一组为止的向上累计频数,是到中位数组前面一组为止的向上累计频数,则是到中位数组后面一组为止的向下累计频数;则是到中位数组后面一组为止的向下累计频数;为中位数组的频数;为中位数组的频数;i i 为中位数组的组距。为中位数组的组距。9第一节第一节第一节第一节 集中趋势的度量集中趋势的度量集中趋势的度量集中趋势的度量四、众数四、众数众数(众数(modemode)是指一组数据中出现次数最多的变量)是指一组数据中出现次数
9、最多的变量值,用值,用 表示。从变量分布的角度看,众数是具有表示。从变量分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所明显集中趋势点的数值,一组数据分布的最高峰点所对应的变量值即为众数。当然,如果数据的分布没有对应的变量值即为众数。当然,如果数据的分布没有明显的集中趋势或最高峰点,众数也可以不存在;如明显的集中趋势或最高峰点,众数也可以不存在;如果有多个高峰点,也就有多个众数。果有多个高峰点,也就有多个众数。在统计实践中,当一组数据出现不同质的情况,或分在统计实践中,当一组数据出现不同质的情况,或分布中出现极端数据时,用众数来描述数据的集中趋势布中出现极端数据时,用众数
10、来描述数据的集中趋势较为合适。较为合适。10第一节第一节第一节第一节 集中趋势的度量集中趋势的度量集中趋势的度量集中趋势的度量设众数组的频数为设众数组的频数为 ,众数前一组的频数为,众数前一组的频数为 ,众数后一组的频数,众数后一组的频数为为 。当众数相邻两组的频数相等时,即。当众数相邻两组的频数相等时,即 =,众数组的组中,众数组的组中值即为众数;当众数组的前一组的频数多于众数组后一组的频数时,值即为众数;当众数组的前一组的频数多于众数组后一组的频数时,即即 ,则众数会向其前一组靠,众数小于其组中值;当众数组,则众数会向其前一组靠,众数小于其组中值;当众数组后一组的频数多于众数组前一组的频数
11、时,即后一组的频数多于众数组前一组的频数时,即 ,则众,则众数会向其后一组靠,众数大于其组中值。数会向其后一组靠,众数大于其组中值。基于这种思路,借助于几何图形而导出的分组数据众数的计算公式基于这种思路,借助于几何图形而导出的分组数据众数的计算公式为:为:其中,其中,L L表示众数所在组的下限;表示众数所在组的下限;U U表示众数所在组的上限。表示众数所在组的上限。上述下限和上限公式是假定数据分布具有明显的集中趋势,且众数上述下限和上限公式是假定数据分布具有明显的集中趋势,且众数组的频数在该组内是均匀分布的,若这些假定不成立,则众数的代组的频数在该组内是均匀分布的,若这些假定不成立,则众数的代
12、表性就会很差。表性就会很差。11第一节第一节第一节第一节 集中趋势的度量集中趋势的度量集中趋势的度量集中趋势的度量五、调和平均数五、调和平均数调和平均数(调和平均数(reciprocal meanreciprocal mean)也称倒数平均数,)也称倒数平均数,它是对变量(它是对变量(x x)的倒数求平均,然后再取倒数而得到)的倒数求平均,然后再取倒数而得到的平均数。根据掌握的统计资料不同,调和平均数可的平均数。根据掌握的统计资料不同,调和平均数可以分为简单调和平均数和加权调和平均数。以分为简单调和平均数和加权调和平均数。12第一节第一节第一节第一节 集中趋势的度量集中趋势的度量集中趋势的度量
13、集中趋势的度量(1 1)简单调和平均数:)简单调和平均数:(2 2)加权调和平均数:)加权调和平均数:13第一节第一节第一节第一节 集中趋势的度量集中趋势的度量集中趋势的度量集中趋势的度量六、集中趋势度量的例题分析六、集中趋势度量的例题分析【例例7-17-1】2010 2010年中国南方某城镇年中国南方某城镇32003200户家庭的平户家庭的平均每一劳动力年收入的频数分布情况如表均每一劳动力年收入的频数分布情况如表7-17-1所示,所示,请计算其算术平均数、中位数和众数。请计算其算术平均数、中位数和众数。14第一节第一节第一节第一节 集中趋势的度量集中趋势的度量集中趋势的度量集中趋势的度量年收
14、入分组年收入分组/元元组中值组中值X/元元频数频数f累积频数累积频数8000-1700017000-2600026000-3500035000-4400044000-5300053000-62000125002150030500395004850057500700100080040020010070017002500290031003200总计总计3200解:解:(1 1)算术平均数)算术平均数(2 2)中位数)中位数(3 3)众数)众数15第一节第一节第一节第一节 集中趋势的度量集中趋势的度量集中趋势的度量集中趋势的度量【例例7-27-2】1950 1950年我国总人口为年我国总人口为5.5
15、5.5亿,亿,19851985年达到了年达到了10.510.5亿,亿,共计增长了共计增长了1.91.9倍(表倍(表7-27-2)。)。(1 1)测算)测算1950195019851985年,我国平均每年,我国平均每5 5年的人口增长速度;年的人口增长速度;(2 2)测算)测算1950195019751975年,我国平均每年,我国平均每5 5年的人口增长速度;年的人口增长速度;(3 3)如果)如果1975197519851985年期间不实行计划生育政策,请测算年期间不实行计划生育政策,请测算19851985年我国的人口总数。年我国的人口总数。16第一节第一节第一节第一节 集中趋势的度量集中趋势的
16、度量集中趋势的度量集中趋势的度量年度年度人口数人口数/万人万人环环比增比增长长速度速度1950195519601965197019751980198555196614656620772538829929242098705104532-1.1141.0771.0961.1441.1141.0681.059 解:解:(1 1)MMG G=1.1141.0771.0961.1441.1441.0681.059=1.1141.0771.0961.1441.1441.0681.059)1/71/71.0961.096,即,即 1950195019851985年,我国平均每年,我国平均每5 5年的人口增长
17、速度年的人口增长速度为为9.6%9.6%;(2 2)MMG G=(1.1141.0771.0961.1441.1441.1141.0771.0961.1441.144)1/51/51.10961.1096,即,即1950195019751975年,我国平均每年,我国平均每5 5年的人口增长速度年的人口增长速度10.9%10.9%;(3 3)P P=92420=92420(1.1091.109)2 2=113590=113590(万人),即(万人),即19851985年年我国的人口总数达到我国的人口总数达到11.35911.359亿。亿。17第一节第一节第一节第一节 集中趋势的度量集中趋势的度量
18、集中趋势的度量集中趋势的度量【例例7-37-3】东方信托投资公司某笔投资的年收益率是东方信托投资公司某笔投资的年收益率是按复利计算的,该笔投资的年收益情况如表按复利计算的,该笔投资的年收益情况如表7-37-3所示,所示,请测算该笔投资请测算该笔投资2525年的平均年收益率。年的平均年收益率。18第一节第一节第一节第一节 集中趋势的度量集中趋势的度量集中趋势的度量集中趋势的度量年收益率年收益率/%环比增长率环比增长率/%年数年数/F3481015103104108110115148102总计总计-25解:用几何平均数求该笔投资的年收益率解:用几何平均数求该笔投资的年收益率 X XG G=(103
19、%103%)1 1(104%104%)4 4(108%108%)8 8(110%110%)1010(115%115%)2 2 1/251/25 =(7.65047.6504)1/251/25=108.48%=108.48%则该笔投资的年平均收益率为则该笔投资的年平均收益率为8.48%8.48%。19第一节第一节第一节第一节 集中趋势的度量集中趋势的度量集中趋势的度量集中趋势的度量 【例例7-47-4】某汽车公司某年某汽车公司某年1 11212月份生产的平均成本和月份生产的平均成本和总成本如表总成本如表7-47-4所示。请测算:所示。请测算:(1 1)该公司汽车的月平均生产量;)该公司汽车的月平
20、均生产量;(2 2)该公司某年汽车的平均生产成本。)该公司某年汽车的平均生产成本。20第一节第一节第一节第一节 集中趋势的度量集中趋势的度量集中趋势的度量集中趋势的度量月份月份平均成本(万元)平均成本(万元)生产总成本(亿元)生产总成本(亿元)12345678910111241.841.442.741.241.643.742.541.641.142.541.641.31421.218632433.914422329.62053.93697.51414.42219.425502329.61858.5总计总计25613解:(解:(1 1)每个月的生产总成本除以平均成本,就可以得到)每个月的生产总成
21、本除以平均成本,就可以得到该公司汽车的月平均生产量,分别为:该公司汽车的月平均生产量,分别为:3434,4545,5757,3535,5656,4747,8787,3434,5454,6060,5656,4545。(2 2)通过计算加权调和平均数,就可以得到该公司汽车的)通过计算加权调和平均数,就可以得到该公司汽车的平均生产成本:平均生产成本:即该公司汽车的平均生产成本约为即该公司汽车的平均生产成本约为4242万元。万元。21第一节第一节第一节第一节 集中趋势的度量集中趋势的度量集中趋势的度量集中趋势的度量公共管理研究或调查所得到的数据,大都具有随机变量的公共管理研究或调查所得到的数据,大都具
22、有随机变量的性质。而对这些随机变量的描述,仅有集中趋势的度量是性质。而对这些随机变量的描述,仅有集中趋势的度量是不够的。集中量数只描述数据的集中趋势和典型情况,还不够的。集中量数只描述数据的集中趋势和典型情况,还不能说明一组数据的全貌。不能说明一组数据的全貌。对于数据变异性即离散趋势进行度量的一组统计量,称作对于数据变异性即离散趋势进行度量的一组统计量,称作差异量数差异量数,这些差异量数有标准差或方差、全距、平均差、,这些差异量数有标准差或方差、全距、平均差、四分差及各种百分差等等。四分差及各种百分差等等。如果一组数据是产品质量检查的结果,那么数据的变异情如果一组数据是产品质量检查的结果,那么
23、数据的变异情况说明生产是否稳定;如果数据是测量的结果,那么变异况说明生产是否稳定;如果数据是测量的结果,那么变异的情况说明测量方法是否正确、仪器是否精密;如果数据的情况说明测量方法是否正确、仪器是否精密;如果数据是学生的成绩,那么变异的情况说明成绩是否整齐(而不是学生的成绩,那么变异的情况说明成绩是否整齐(而不是高低)。是高低)。22第二节第二节第二节第二节 离散趋势的度量离散趋势的度量离散趋势的度量离散趋势的度量一、极差一、极差极差又称全距(极差又称全距(rangerange),是指总体中最大标志值与),是指总体中最大标志值与最小标志值之差。用极差反映总体分布的离散程度,最小标志值之差。用极
24、差反映总体分布的离散程度,十分简便。其计算公式为:十分简便。其计算公式为:其中,其中,和和 分别为数据中的极大值和极小值。分别为数据中的极大值和极小值。23第二节第二节第二节第二节 离散趋势的度量离散趋势的度量离散趋势的度量离散趋势的度量三、平均差三、平均差平均差(平均差(mean absolute deviationmean absolute deviation,M.D.M.D.)是离差)是离差 (样本值与均值之差)的绝对值的平均数,即:(样本值与均值之差)的绝对值的平均数,即:对于已分组的频数分布(组数为对于已分组的频数分布(组数为k k)平均差反映全部标本数据平均的误差,比极差和四分平均
25、差反映全部标本数据平均的误差,比极差和四分位差更能全面反映总体的数据变动情况,它的缺点是位差更能全面反映总体的数据变动情况,它的缺点是绝对值不适于作进一步的数学分析。绝对值不适于作进一步的数学分析。24第二节第二节第二节第二节 离散趋势的度量离散趋势的度量离散趋势的度量离散趋势的度量三、方差与标准差三、方差与标准差方差(方差(variancevariance)也称变异数、均方,常用符号)也称变异数、均方,常用符号 表表示;作为总体参数时,常用符号示;作为总体参数时,常用符号 表示。它是每个数表示。它是每个数据与该组数据平均数之差平方后的均值,即离均差平据与该组数据平均数之差平方后的均值,即离均
26、差平方后的平均数。方后的平均数。标准差(标准差(standard deviationstandard deviation)即方差的平方根,常)即方差的平方根,常用用S S或或SDSD表示。若用表示。若用 表示,则是指总体的标准差。表示,则是指总体的标准差。25第二节第二节第二节第二节 离散趋势的度量离散趋势的度量离散趋势的度量离散趋势的度量(1 1)总体方差)总体方差 (未分组的数据)(未分组的数据)(已分组的数据)(已分组的数据)(2 2)样本方差)样本方差(未分组的数据)(未分组的数据)(已分组的数据)(已分组的数据)(3 3)总体标准差)总体标准差(未分组的数据)(未分组的数据)(已分组
27、的数据)(已分组的数据)(4 4)样本标准差)样本标准差(未分组的数据)(未分组的数据)(已分组的数据)(已分组的数据)26第二节第二节第二节第二节 离散趋势的度量离散趋势的度量离散趋势的度量离散趋势的度量 方差与标准差是表示一组数据离散程度的最好、最常用的方差与标准差是表示一组数据离散程度的最好、最常用的指标。其值大,说明离散程度大;其值小,说明数据比较指标。其值大,说明离散程度大;其值小,说明数据比较集中。集中。它基本具备一个良好的差异量数应具备的条件:它基本具备一个良好的差异量数应具备的条件:反应灵反应灵敏;敏;由一定的计算公式严密确定;由一定的计算公式严密确定;容易计算;容易计算;适合
28、适合代数运算;代数运算;受抽样变动的影响小;受抽样变动的影响小;简单明了,这一点简单明了,这一点与其他差异量数比较稍有不足,但其意义还是较明白的。与其他差异量数比较稍有不足,但其意义还是较明白的。除上述之外,方差还具有可加性特点,它是对一组数据中除上述之外,方差还具有可加性特点,它是对一组数据中造成各种变异的总和的测量,能利用其可加性分解并确定造成各种变异的总和的测量,能利用其可加性分解并确定出属于不同来源的变异性(如组间、组内等)并可进一步出属于不同来源的变异性(如组间、组内等)并可进一步说明每种变异对总结果的影响。说明每种变异对总结果的影响。27第二节第二节第二节第二节 离散趋势的度量离散
29、趋势的度量离散趋势的度量离散趋势的度量五、变差系数五、变差系数变差系数又称变异系数、相对标准差等,通常用符号变差系数又称变异系数、相对标准差等,通常用符号CV CV 表示,其计算公式为:表示,其计算公式为:其中,其中,S S为某样本的标准差;为某样本的标准差;为该样本的平均数。变为该样本的平均数。变异系数是一个无量纲的量。异系数是一个无量纲的量。变差系数适于用在比较有不同算术平均数或有不同量变差系数适于用在比较有不同算术平均数或有不同量纲的两组数据的情况。纲的两组数据的情况。28第二节第二节第二节第二节 离散趋势的度量离散趋势的度量离散趋势的度量离散趋势的度量六、离散趋势度量的实例六、离散趋势
30、度量的实例 【例例7-57-5】2012 2012年某大学公共管理学院年某大学公共管理学院MPAMPA报考人报考人数为数为311311人,缺考人,缺考2 2人,其余人,其余309309人的英语考试成绩如人的英语考试成绩如表表7-57-5所示,请计算相关的表征离散趋势的特征数。所示,请计算相关的表征离散趋势的特征数。29第二节第二节第二节第二节 离散趋势的度量离散趋势的度量离散趋势的度量离散趋势的度量302012201220122012年某大学公共管理年某大学公共管理年某大学公共管理年某大学公共管理学院学院学院学院MPAMPAMPAMPA报考人员报考人员报考人员报考人员英语成绩英语成绩英语成绩英
31、语成绩83.00 82.00 78.00 63.00 67.00 77.00 62.00 65.00 76.00 67.00 68.00 73.00 73.00 74.00 65.00 75.00 63.00 76.00 60.00 65.00 65.00 68.00 64.00 73.00 59.00 60.00 64.00 70.00 48.00 67.0055.00 61.00 61.00 62.00 75.00 77.00 61.00 67.00 49.00 62.00 68.00 72.00 52.00 63.00 73.00 59.00 62.00 66.00 73.00 54.0
32、0 60.00 62.00 65.00 69.00 42.00 50.00 72.00 79.00 55.00 55.0056.00 57.00 67.00 73.00 50.00 52.00 55.00 57.00 60.00 44.00 61.00 62.00 65.00 45.00 53.00 60.00 68.00 54.00 73.00 55.00 45.00 54.00 62.00 41.00 41.00 56.00 58.00 61.00 64.00 54.0065.00 75.00 75.00 46.00 51.00 51.00 53.00 75.00 48.00 49.00
33、50.00 53.00 56.00 59.00 61.00 36.00 44.00 47.00 52.00 58.00 58.00 40.00 44.00 47.00 50.00 56.00 65.00 57.00 48.00 51.0053.00 53.00 59.00 60.00 60.00 35.00 42.00 45.00 46.00 54.00 66.00 34.00 46.00 38.00 40.00 47.00 68.00 42.00 54.00 43.00 46.00 54.00 56.00 81.00 35.00 36.00 38.00 56.00 57.00 61.0049
34、.00 37.00 38.00 44.00 37.00 40.00 45.00 45.00 57.00 57.00 37.00 38.00 41.00 45.00 47.00 49.00 60.00 66.00 41.00 42.00 51.00 38.00 43.00 46.00 53.00 63.00 63.00 30.00 45.00 49.0056.00 34.00 43.00 54.00 45.00 46.0046.00 49.00 57.00 42.00 44.00 41.00 43.00 45.00 21.00 40.00 37.00 36.00 40.00 45.00 58.0
35、0 30.00 34.00 35.00 44.00 60.00 25.00 53.00 39.00 43.0047.00 48.00 49.00 11.00 34.00 36.00 45.0048.00 50.00 26.00 34.00 42.00 43.00 33.00 34.00 20.00 34.00 44.00 28.00 42.00 45.00 49.00 36.00 39.00 49.00 37.00 38.00 43.00 27.00 33.0041.00 41.00 21.00 33.00 70.00 33.00 52.00 25.00 27.00 36.00 39.00 4
36、6.00 27.00 30.00 35.00 33.00 34.00 20.00 24.00 26.00 27.00 31.00 27.00 35.00 48.00 31.00 34.00 38.00 29.00 22.0037.00 24.00 25.00 31.00 48.00 39.00 33.00 29.0031.0034.00 30.00 32.00 34.00 16.00 19.00 30.00 36.00 30.00 28.00 24.00 26.00 32.00 23.00 34.00 31.00 19.00 23.00 24.00 17.00 10.00 16.00 28.0
37、0 14.00 24.00 21.00 14.00 15.00 48.00 15.00解:解:(1 1)极差:)极差:R R最大值最小值最大值最小值838310107373(2 2)四分位差:)四分位差:(3 3)方差和标准差。)方差和标准差。31第二节第二节第二节第二节 离散趋势的度量离散趋势的度量离散趋势的度量离散趋势的度量(4 4)变差系数。)变差系数。32第二节第二节第二节第二节 离散趋势的度量离散趋势的度量离散趋势的度量离散趋势的度量集中趋势和离散趋势是数据分布的两个重要特征,但集中趋势和离散趋势是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道数据分布的要全面了解数据
38、分布的特点,还需要知道数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。形状是否对称、偏斜的程度以及分布的扁平程度等。偏斜度和峰度偏斜度和峰度就是对这些分布特征的描述。偏斜度是就是对这些分布特征的描述。偏斜度是对数据分布的偏移方向和程度所作的进一步描述;峰对数据分布的偏移方向和程度所作的进一步描述;峰度是用来对数据分布的扁平程度所做的描述。度是用来对数据分布的扁平程度所做的描述。对于偏斜程度的描述用偏斜度系数;扁平程度的描述对于偏斜程度的描述用偏斜度系数;扁平程度的描述用峰度系数。用峰度系数。33第三节第三节第三节第三节 偏斜度与峰度的度量偏斜度与峰度的度量偏斜度与峰度的度量偏斜度与峰度
39、的度量一、动差法一、动差法动差又称矩,原是物理学上用以表示力与力臂对重心动差又称矩,原是物理学上用以表示力与力臂对重心关系的术语,这个关系和统计学中变量与权数对平均关系的术语,这个关系和统计学中变量与权数对平均数的关系在性质上很类似,所以统计学也用动差来说数的关系在性质上很类似,所以统计学也用动差来说明频数分布的性质。明频数分布的性质。一般地说,取变量的一般地说,取变量的 值为中点,所有变量值与值为中点,所有变量值与 之之差的差的K K次方的平均数称为变量次方的平均数称为变量X X关于关于 的的K K阶动差。用阶动差。用公式表示为:公式表示为:34第三节第三节第三节第三节 偏斜度与峰度的度量偏
40、斜度与峰度的度量偏斜度与峰度的度量偏斜度与峰度的度量当当 时,即变量以原点为中心,上式称为时,即变量以原点为中心,上式称为K K阶原点动差,用大阶原点动差,用大写英文字母写英文字母MM表示。表示。一阶原点动差:一阶原点动差:,即算术平均数;,即算术平均数;二阶原点动差:二阶原点动差:,即平方平均数;,即平方平均数;三阶原点动差:三阶原点动差:,等等。,等等。当当 时,即变量以算术平均数为中心,上式称为时,即变量以算术平均数为中心,上式称为K K阶中心动阶中心动差,用小写英文字母差,用小写英文字母mm表示。表示。一阶中心动差:一阶中心动差:;二阶中心动差:二阶中心动差:;三阶中心动差:三阶中心动
41、差:;等等。;等等。35第三节第三节第三节第三节 偏斜度与峰度的度量偏斜度与峰度的度量偏斜度与峰度的度量偏斜度与峰度的度量二、偏斜度二、偏斜度偏斜度是对统计数据分布偏斜方向及程度的度量。统计数据的频数分布有的偏斜度是对统计数据分布偏斜方向及程度的度量。统计数据的频数分布有的是对称的,有的是不对称的,即呈现偏态。在偏态的分布中,又有两种不同是对称的,有的是不对称的,即呈现偏态。在偏态的分布中,又有两种不同的形态,即左偏态和右偏态。度量分布偏斜的程度,可计算偏斜度。的形态,即左偏态和右偏态。度量分布偏斜的程度,可计算偏斜度。采用动差法计算偏斜度系数是用变量的三阶中心动差采用动差法计算偏斜度系数是用
42、变量的三阶中心动差 与与 进行对比,计算公进行对比,计算公式为:式为:当分布对称时,变量的三阶中心动差当分布对称时,变量的三阶中心动差 由于离差三次方后正负相互抵消而取由于离差三次方后正负相互抵消而取得得0 0值,则值,则 ;当分布不对称时,正负离差不能抵消,就形成正的或负;当分布不对称时,正负离差不能抵消,就形成正的或负的三阶中心动差的三阶中心动差 。当。当 为正值时,表示正偏离差值比负偏离差值要大,可为正值时,表示正偏离差值比负偏离差值要大,可以判断为正偏态或右偏态;反之,当以判断为正偏态或右偏态;反之,当 为负值时,表示负偏离差值比正偏离为负值时,表示负偏离差值比正偏离差值要大,可以判断
43、为负偏态或左偏态。差值要大,可以判断为负偏态或左偏态。越大,表示偏斜的程度就越大。越大,表示偏斜的程度就越大。由于三阶中心动差由于三阶中心动差 含有计量单位,为消除计量单位的影响,就用含有计量单位,为消除计量单位的影响,就用 去除去除 ,使其转化为相对数。同样的,使其转化为相对数。同样的,的绝对值越大,表示偏斜的程度就越大。的绝对值越大,表示偏斜的程度就越大。36第三节第三节第三节第三节 偏斜度与峰度的度量偏斜度与峰度的度量偏斜度与峰度的度量偏斜度与峰度的度量三、峰度三、峰度峰度是用来衡量统计数据分布的集中程度或分布曲线峰度是用来衡量统计数据分布的集中程度或分布曲线的尖峭程度的指标。计算公式为
44、:的尖峭程度的指标。计算公式为:当峰度当峰度 时,表示分布的形状比正态分布更尖更高,这意味时,表示分布的形状比正态分布更尖更高,这意味着分布比正态分布更集中在平均数周围,这样的分布称为尖峰分着分布比正态分布更集中在平均数周围,这样的分布称为尖峰分布;布;时,分布为正态分布;时,分布为正态分布;时,表示分布比正态分布时,表示分布比正态分布更扁平,意味着分布比正态分布更分散,这样的分布称为扁平分更扁平,意味着分布比正态分布更分散,这样的分布称为扁平分布。布。37第三节第三节第三节第三节 偏斜度与峰度的度量偏斜度与峰度的度量偏斜度与峰度的度量偏斜度与峰度的度量一、一、SPSSSPSS简介简介 社会科
45、学统计软件包(社会科学统计软件包(statistical package for the social statistical package for the social sciencescience,SPSSSPSS)是世界上著名的统计分析软件之一。)是世界上著名的统计分析软件之一。它由美国斯坦福大学的三位研究生于它由美国斯坦福大学的三位研究生于19681968年研制,同年成立了年研制,同年成立了SPSSSPSS公司,并于公司,并于19751975年在芝加哥组建了年在芝加哥组建了SPSSSPSS总部。总部。2020世纪世纪8080年年代以前,代以前,SPSSSPSS统计软件主要应用于企事业
46、单位。统计软件主要应用于企事业单位。19841984年,年,SPSSSPSS总部首先推出了世界上第一个统计分析软件微机版本总部首先推出了世界上第一个统计分析软件微机版本SPSS/PC+SPSS/PC+,开创了,开创了SPSSSPSS微机系列产品的开发方向,极大地扩充了它的应用微机系列产品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自然科学、技术科学、社会科学的范围,并使其能很快地应用于自然科学、技术科学、社会科学的各个领域。随着各个领域。随着SPSSSPSS产品服务领域的扩大和服务深度的增加,产品服务领域的扩大和服务深度的增加,SPSSSPSS公司已于公司已于20002000年正
47、式将英文全称更改为年正式将英文全称更改为Statistical Product Statistical Product and Service Solutionsand Service Solutions,意为,意为“统计产品与服务解决方案统计产品与服务解决方案”,标,标志着志着SPSSSPSS的战略方向正在做出重大调整。的战略方向正在做出重大调整。38第四节第四节第四节第四节 SPSSSPSSSPSSSPSS在描述统计中的应用在描述统计中的应用在描述统计中的应用在描述统计中的应用 SPSSSPSS的基本功能包括数据管理、统计分析、图表分的基本功能包括数据管理、统计分析、图表分析、输出管理等。
48、析、输出管理等。SPSSSPSS统计分析过程包括描述性统计、统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计过程,比如回归分析中又分线性回归分析、曲线估计、计、LogisticLogistic回归、回归、ProbitProbit回归、加权估计、两阶段最回归、加权估计、两阶段最小二乘法、非线性回归
49、等多个统计过程,而且每个过小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。程中又允许用户选择不同的方法及参数。39第四节第四节第四节第四节 SPSSSPSSSPSSSPSS在描述统计中的应用在描述统计中的应用在描述统计中的应用在描述统计中的应用二、二、SPSSSPSS的基本操作的基本操作(一)启动(一)启动SPSSSPSS单击单击Windows Windows 的的 开始开始 按钮,在按钮,在 所有程序所有程序 菜单项菜单项IBM IBM SPSS StatisticsSPSS Statistics中找到中找到IBM SPSS Statistics 20IBM
50、 SPSS Statistics 20并单击并单击(图(图7-37-3)。)。40第四节第四节第四节第四节 SPSSSPSSSPSSSPSS在描述统计中的应用在描述统计中的应用在描述统计中的应用在描述统计中的应用(二)打开(二)打开SPSSSPSS的主窗口。的主窗口。SPSSSPSS启动成功后,打开启动成功后,打开SPSS SPSS 的主窗口的主窗口Data ViewData View。SPSSSPSS的主窗的主窗口名为口名为IBM SPSS Statistics Data EditorIBM SPSS Statistics Data Editor(数据编辑窗口),如(数据编辑窗口),如图图7