《度量分布偏斜的程度优秀PPT.ppt》由会员分享,可在线阅读,更多相关《度量分布偏斜的程度优秀PPT.ppt(54页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第七章第七章 数据的描述数据的描述统计目目 录第一第一节 集中集中趋势的度量的度量其次其次节 离散离散趋势的度量的度量第三第三节 偏斜度与峰度的度量偏斜度与峰度的度量第四第四节 SPSS SPSS在描述在描述统计中的运中的运用用集中集中趋势趋势(central tendencycentral tendency)是指一)是指一组组数据向某中数据向某中心心值值靠靠拢拢的的倾倾向,集中向,集中趋势趋势的的测测度事度事实实上就是上就是对对数据数据一般水平代表一般水平代表值值或中心或中心值值的的测测度。度。不同不同类类型的数据用不同的集中型的数据用不同的集中趋势测趋势测度度值值,选选用哪一用哪一个个测测
2、度度值值来反映数据的集中来反映数据的集中趋势趋势,要依据所,要依据所驾驭驾驭的数的数据的据的类类型来确定。型来确定。集中集中趋势趋势的特征数,是代表一的特征数,是代表一组组数据典型水平或集中数据典型水平或集中趋势趋势的的统计统计量。常用的集中量。常用的集中趋势趋势的特征数包括算的特征数包括算术术平平均数、加均数、加权权平均数、几何平均数、中位数、众数等。平均数、几何平均数、中位数、众数等。3一、算数平均数一、算数平均数算算术平均数(平均数(arithmetic meanarithmetic mean)简称称为均数(均数(meanmean)。)。样本均数通常用本均数通常用 表示,表示,总体均数用
3、希腊字母体均数用希腊字母表示。表示。算算术平均数是集中平均数是集中趋势的最主要的最主要测度度值。适用于。适用于对称分称分布,特殊是正布,特殊是正态或近似正或近似正态分布的分布的计量量资料。料。依据所依据所驾驭数据形式的不同,算数据形式的不同,算术平均数有平均数有简洁算算术平平均数和加均数和加权算算术平均数。平均数。4(1 1)简洁简洁算算术术平均数(平均数(simple arithmetic meansimple arithmetic mean)。未)。未经经分分组组整理的原始数据,其算整理的原始数据,其算术术平均数的平均数的计计算就是干脆将一算就是干脆将一组组数据的各数据的各个数个数值值相加
4、除以数相加除以数值值个数。个数。计计算公式算公式为为:(2 2)加)加权权算算术术平均数(平均数(weighted arithmetic meanweighted arithmetic mean)。依据分)。依据分组组整理的数据整理的数据计计算的算算的算术术平均数,就要以各平均数,就要以各组变组变量量值值出出现现的次数的次数或或频频数数为权为权数数计计算加算加权权的算的算术术平均数。平均数。计计算公式算公式为为:5二、几何平均数二、几何平均数几何平均数(几何平均数(geometric meangeometric mean),是指社会),是指社会经济现象的象的同同质总体在体在时间上上变动速度的平
5、均数,也即速度的平均数,也即统计总体体在一段在一段时期内的平均期内的平均发展速度。展速度。几何平均数通常用于几何平均数通常用于计算指数、百分比和增算指数、百分比和增长速度的平速度的平均数。均数。依据依据驾驭的数据的数据资料不同,几何平均数可分料不同,几何平均数可分为简洁几何几何平均数和加平均数和加权几何平均数两种。几何平均数两种。6(1 1)简洁简洁几何平均数。依据未几何平均数。依据未经经分分组资组资料料计计算平均数。算平均数。计计算公式算公式为为:(2 2)加)加权权几何平均数。当几何平均数。当驾驭驾驭的数据的数据资资料料为为分分组资组资料,料,且各个且各个变变量量值值出出现现的次数不相同的
6、次数不相同时时,应应用加用加权权方法方法计计算几何平均数。算几何平均数。计计算公式算公式为为:7三、中位数三、中位数中位数(中位数(medianmedian)是一)是一组按大小依次排列的按大小依次排列的视察察值中位中位居中居中间的数的数值,通常用,通常用 表示。它常用于描述偏表示。它常用于描述偏态分布分布资料的集中料的集中趋势。中位数是一个位置代表中位数是一个位置代表值,因此它不受极端,因此它不受极端变量量值的影的影响,特殊是当分布末端无确定数据不能求算响,特殊是当分布末端无确定数据不能求算术平均数平均数和几何平均数和几何平均数时,可以用中位数来表示数据分布的集,可以用中位数来表示数据分布的集
7、中中趋势。8对于已分于已分组的数据来的数据来说,中位数的,中位数的计算公式算公式为:其中,其中,是到中位数是到中位数组前面一前面一组为止的向上累止的向上累计频数,数,则是到中位数是到中位数组后面一后面一组为止的向下累止的向下累计频数;数;为中位数中位数组的的频数;数;i i 为中位数中位数组的的组距。距。9四、众数四、众数众数(众数(modemode)是指一)是指一组数据中出数据中出现次数最多的次数最多的变量量值,用用 表示。从表示。从变量分布的角度看,众数是具有明量分布的角度看,众数是具有明显集中集中趋势点的数点的数值,一,一组数据分布的最高峰点所数据分布的最高峰点所对应的的变量量值即即为众
8、数。当然,假如数据的分布没有明众数。当然,假如数据的分布没有明显的集中的集中趋势或最高峰点,众数也可以不存在;假如有或最高峰点,众数也可以不存在;假如有多个高峰点,也就有多个众数。多个高峰点,也就有多个众数。在在统计实践中,当一践中,当一组数据出数据出现不同不同质的状况,或分布的状况,或分布中出中出现极端数据极端数据时,用众数来描述数据的集中,用众数来描述数据的集中趋势较为合适。合适。10设设众数众数组组的的频频数数为为 ,众数前一,众数前一组组的的频频数数为为 ,众数后一,众数后一组组的的频频数数为为 。当众数相。当众数相邻邻两两组组的的频频数相等数相等时时,即,即 =,众数,众数组组的的组
9、组中中值值即即为为众数;当众数众数;当众数组组的前一的前一组组的的频频数多于众数数多于众数组组后一后一组组的的频频数数时时,即即 ,则则众数会向其前一众数会向其前一组组靠,众数小于其靠,众数小于其组组中中值值;当众数;当众数组组后一后一组组的的频频数多于众数数多于众数组组前一前一组组的的频频数数时时,即,即 ,则则众数会众数会向其后一向其后一组组靠,众数大于其靠,众数大于其组组中中值值。基于基于这这种思路,借助于几何种思路,借助于几何图图形而形而导导出的分出的分组组数据众数的数据众数的计计算公式算公式为为:其中,其中,L L表示众数所在表示众数所在组组的下限;的下限;U U表示众数所在表示众数
10、所在组组的上限。的上限。上述下限和上限公式是假定数据分布具有明上述下限和上限公式是假定数据分布具有明显显的集中的集中趋势趋势,且众数,且众数组组的的频频数在数在该组该组内是匀整分布的,若内是匀整分布的,若这这些假定不成立,些假定不成立,则则众数的代众数的代表性就会很差。表性就会很差。11五、五、调和平均数和平均数调和平均数(和平均数(reciprocal meanreciprocal mean)也称倒数平均数,它是)也称倒数平均数,它是对变量(量(x x)的倒数求平均,然后再取倒数而得到的平)的倒数求平均,然后再取倒数而得到的平均数。依据均数。依据驾驭的的统计资料不同,料不同,调和平均数可以分
11、和平均数可以分为简洁调和平均数和加和平均数和加权调和平均数。和平均数。12(1 1)简洁调简洁调和平均数:和平均数:(2 2)加)加权调权调和平均数:和平均数:13六、集中六、集中趋势度量的例度量的例题分析分析【例【例7-17-1】2010 2010年中国南方某城年中国南方某城镇32003200户家庭的平均每家庭的平均每一一劳动力年收入的力年收入的频数分布状况如表数分布状况如表7-17-1所示,所示,请计算算其算其算术平均数、中位数和众数。平均数、中位数和众数。14年收入分组年收入分组/元元组中值组中值X/元元频数频数f累积频数累积频数8000-1700017000-2600026000-35
12、00035000-4400044000-5300053000-62000125002150030500395004850057500700100080040020010070017002500290031003200总计总计3200解:解:(1 1)算)算术平均数平均数(2 2)中位数)中位数(3 3)众数)众数15【例【例7-27-2】1950 1950年我国年我国总总人口人口为为5.55.5亿亿,19851985年达到了年达到了10.510.5亿亿,共,共计计增增长长了了1.91.9倍(表倍(表7-27-2)。)。(1 1)测测算算1950195019851985年,我国平均每年,我国平均
13、每5 5年的人口增年的人口增长长速速度;度;(2 2)测测算算1950195019751975年,我国平均每年,我国平均每5 5年的人口增年的人口增长长速速度;度;(3 3)假如)假如1975197519851985年期年期间间不不实实行支配生育政策,行支配生育政策,请测请测算算19851985年我国的人口年我国的人口总总数。数。16年度年度人口数人口数/万人万人环环比增比增长长速度速度1950195519601965197019751980198555196614656620772538829929242098705104532-1.1141.0771.0961.1441.1141.0681
14、.059 解:解:(1 1)MMG G=1.1141.0771.0961.1441.1441.0681.059=1.1141.0771.0961.1441.1441.0681.059)1/71/7 1.0961.096,即,即 1950195019851985年,我国平均每年,我国平均每5 5年的人口增年的人口增长速度速度为9.6%9.6%;(2 2)MMG G=(1.1141.0771.0961.1441.1441.1141.0771.0961.1441.144)1/51/5 1.10961.1096,即,即1950195019751975年,我国平均每年,我国平均每5 5年的人口增年的人口
15、增长速度速度10.9%10.9%;(3 3)P P=92420=92420(1.1091.109)2 2=113590=113590(万人),即(万人),即19851985年年我国的人口我国的人口总数达到数达到11.35911.359亿。17【例【例7-37-3】东东方信托投方信托投资资公司某笔投公司某笔投资资的年收益率是的年收益率是按复利按复利计计算的,算的,该该笔投笔投资资的年收益状况如表的年收益状况如表7-37-3所示,所示,请测请测算算该该笔投笔投资资2525年的平均年收益率。年的平均年收益率。18年收益率年收益率/%环比增长率环比增长率/%年数年数/F3481015103104108
16、110115148102总计总计-25解:用几何平均数求解:用几何平均数求该笔投笔投资的年收益率的年收益率 X XG G=(103%103%)1 1(104%104%)4 4(108%108%)8 8(110%110%)1010(115%115%)2 2 1/251/25 =(7.65047.6504)1/251/25=108.48%=108.48%则该笔投笔投资的年平均收益率的年平均收益率为8.48%8.48%。19 【例例7-47-4】某汽某汽车公司某年公司某年1 11212月份生月份生产的平均成本和的平均成本和总成本如表成本如表7-47-4所示。所示。请测算:算:(1 1)该公司汽公司汽
17、车的月平均生的月平均生产量;量;(2 2)该公司某年汽公司某年汽车的平均生的平均生产成本。成本。20月份月份平均成本(万元)平均成本(万元)生产总成本(亿元)生产总成本(亿元)12345678910111241.841.442.741.241.643.742.541.641.142.541.641.31421.218632433.914422329.62053.93697.51414.42219.425502329.61858.5总计总计25613解:(解:(1 1)每个月的生)每个月的生产总成本除以平均成本,就可以得到成本除以平均成本,就可以得到该公司汽公司汽车的月平均生的月平均生产量,分量
18、,分别为:3434,4545,5757,3535,5656,4747,8787,3434,5454,6060,5656,4545。(2 2)通)通过计算加算加权调和平均数,就可以得到和平均数,就可以得到该公司汽公司汽车的的平均生平均生产成本:成本:即即该公司汽公司汽车的平均生的平均生产成本成本约为4242万元。万元。21公共管理探公共管理探讨讨或或调查调查所得到的数据,大都具有随机所得到的数据,大都具有随机变变量的量的性性质质。而。而对这对这些随机些随机变变量的描述,量的描述,仅仅有集中有集中趋势趋势的度量是的度量是不不够够的。集中量数只描述数据的集中的。集中量数只描述数据的集中趋势趋势和典型
19、状况,和典型状况,还还不能不能说说明一明一组组数据的全貌。数据的全貌。对对于数据于数据变变异性即离散异性即离散趋势进趋势进行度量的一行度量的一组统计组统计量,称作量,称作差异量数,差异量数,这这些差异量数有些差异量数有标标准差或方差、全距、平均差、准差或方差、全距、平均差、四分差及各种百分差等等。四分差及各种百分差等等。假如一假如一组组数据是数据是产产品品质质量量检查检查的的结结果,那么数据的果,那么数据的变变异状异状况况说说明生明生产产是否是否稳稳定;假如数据是定;假如数据是测测量的量的结结果,那么果,那么变变异异的状况的状况说说明明测测量方法是否正确、量方法是否正确、仪仪器是否精密;假如数
20、据器是否精密;假如数据是学生的成果,那么是学生的成果,那么变变异的状况异的状况说说明成果是否整明成果是否整齐齐(而不(而不是凹凸)。是凹凸)。22一、极差一、极差极差又称全距(极差又称全距(rangerange),是指),是指总体中最大体中最大标记值与最与最小小标记值之差。用极差反映之差。用极差反映总体分布的离散程度,特体分布的离散程度,特别简便。其便。其计算公式算公式为:其中,其中,和和 分分别为数据中的极大数据中的极大值和微小和微小值。23三、平均差三、平均差平均差(平均差(mean absolute deviationmean absolute deviation,M.D.M.D.)是离
21、差)是离差 (样本本值与均与均值之差)的确定之差)的确定值的平均数,即:的平均数,即:对于已分于已分组的的频数分布(数分布(组数数为k k)平均差反映全部平均差反映全部标本数据平均的本数据平均的误差,比极差和四分位差,比极差和四分位差更能全面反映差更能全面反映总体的数据体的数据变动状况,它的缺点是确状况,它的缺点是确定定值不适于作不适于作进一步的数学分析。一步的数学分析。24三、方差与三、方差与标准差准差方差(方差(variancevariance)也称)也称变异数、均方,常用符号异数、均方,常用符号 表表示;作示;作为总体参数体参数时,常用符号,常用符号 表示。它是每个数表示。它是每个数据与
22、据与该组数据平均数之差平方后的均数据平均数之差平方后的均值,即离均差平,即离均差平方后的平均数。方后的平均数。标准差(准差(standard deviationstandard deviation)即方差的平方根,常)即方差的平方根,常用用S S或或SDSD表示。若用表示。若用 表示,表示,则是指是指总体的体的标准差。准差。25(1 1)总体方差体方差 (未分(未分组的数据)的数据)(已分(已分组的数据)的数据)(2 2)样本方差本方差(未分(未分组的数据)的数据)(已分(已分组的数据)的数据)(3 3)总体体标准差准差(未分(未分组的数据)的数据)(已分(已分组的数据)的数据)(4 4)样本
23、本标准差准差(未分(未分组的数据)的数据)(已分(已分组的数据)的数据)26 方差与方差与标准差是表示一准差是表示一组数据离散程度的最好、最常用的指数据离散程度的最好、最常用的指标。其。其值大,大,说明离散程度大;其明离散程度大;其值小,小,说明数据比明数据比较集集中。中。它基本具它基本具备一个良好的差异量数一个良好的差异量数应具具备的条件:的条件:反反应灵敏;灵敏;由确定的由确定的计算公式算公式严密确定;密确定;简洁计算;算;适合代数适合代数运算;运算;受抽受抽样变动的影响小;的影响小;简洁明白,明白,这一点与其一点与其他差异量数比他差异量数比较稍有不足,但其意稍有不足,但其意义还是是较明白
24、的。除上明白的。除上述之外,方差述之外,方差还具有可加性特点,它是具有可加性特点,它是对一一组数据中造成数据中造成各种各种变异的异的总和的和的测量,能利用其可加性分解并确定出属量,能利用其可加性分解并确定出属于不同来源的于不同来源的变异性(如异性(如组间、组内等)并可内等)并可进一步一步说明明每种每种变异异对总结果的影响。果的影响。27五、五、变差系数差系数变差系数又称差系数又称变异系数、相异系数、相对标准差等,通常用符号准差等,通常用符号CV CV 表示,其表示,其计算公式算公式为:其中,其中,S S为某某样本的本的标准差;准差;为该样本的平均数。本的平均数。变异异系数是一个无量系数是一个无
25、量纲的量。的量。变差系数适于用在比差系数适于用在比较有不同算有不同算术平均数或有不同量平均数或有不同量纲的两的两组数据的状况。数据的状况。28六、离散六、离散趋势度量的度量的实例例 【例【例7-57-5】2012 2012年某高校公共管理学院年某高校公共管理学院MPAMPA报考人数考人数为311311人,缺考人,缺考2 2人,其余人,其余309309人的英人的英语考考试成果如表成果如表7-57-5所示,所示,请计算相关的表征离散算相关的表征离散趋势的特征数。的特征数。293083.00 82.00 78.00 63.00 67.00 77.00 62.00 65.00 76.00 67.00
26、68.00 73.00 73.00 74.00 65.00 75.00 63.00 76.00 60.00 65.00 65.00 68.00 64.00 73.00 59.00 60.00 64.00 70.00 48.00 67.0055.00 61.00 61.00 62.00 75.00 77.00 61.00 67.00 49.00 62.00 68.00 72.00 52.00 63.00 73.00 59.00 62.00 66.00 73.00 54.00 60.00 62.00 65.00 69.00 42.00 50.00 72.00 79.00 55.00 55.0056
27、.00 57.00 67.00 73.00 50.00 52.00 55.00 57.00 60.00 44.00 61.00 62.00 65.00 45.00 53.00 60.00 68.00 54.00 73.00 55.00 45.00 54.00 62.00 41.00 41.00 56.00 58.00 61.00 64.00 54.0065.00 75.00 75.00 46.00 51.00 51.00 53.00 75.00 48.00 49.00 50.00 53.00 56.00 59.00 61.00 36.00 44.00 47.00 52.00 58.00 58.
28、00 40.00 44.00 47.00 50.00 56.00 65.00 57.00 48.00 51.0053.00 53.00 59.00 60.00 60.00 35.00 42.00 45.00 46.00 54.00 66.00 34.00 46.00 38.00 40.00 47.00 68.00 42.00 54.00 43.00 46.00 54.00 56.00 81.00 35.00 36.00 38.00 56.00 57.00 61.0049.00 37.00 38.00 44.00 37.00 40.00 45.00 45.00 57.00 57.00 37.00
29、 38.00 41.00 45.00 47.00 49.00 60.00 66.00 41.00 42.00 51.00 38.00 43.00 46.00 53.00 63.00 63.00 30.00 45.00 49.0056.00 34.00 43.00 54.00 45.00 46.0046.00 49.00 57.00 42.00 44.00 41.00 43.00 45.00 21.00 40.00 37.00 36.00 40.00 45.00 58.00 30.00 34.00 35.00 44.00 60.00 25.00 53.00 39.00 43.0047.00 48
30、.00 49.00 11.00 34.00 36.00 45.0048.00 50.00 26.00 34.00 42.00 43.00 33.00 34.00 20.00 34.00 44.00 28.00 42.00 45.00 49.00 36.00 39.00 49.00 37.00 38.00 43.00 27.00 33.0041.00 41.00 21.00 33.00 70.00 33.00 52.00 25.00 27.00 36.00 39.00 46.00 27.00 30.00 35.00 33.00 34.00 20.00 24.00 26.00 27.00 31.0
31、0 27.00 35.00 48.00 31.00 34.00 38.00 29.00 22.0037.00 24.00 25.00 31.00 48.00 39.00 33.00 29.0031.0034.00 30.00 32.00 34.00 16.00 19.00 30.00 36.00 30.00 28.00 24.00 26.00 32.00 23.00 34.00 31.00 19.00 23.00 24.00 17.00 10.00 16.00 28.00 14.00 24.00 21.00 14.00 15.00 48.00 15.00解:解:(1 1)极差:)极差:R R最
32、大最大值最小最小值838310107373(2 2)四分位差:)四分位差:(3 3)方差和)方差和标准差。准差。31(4 4)变差系数。差系数。32集中集中趋势趋势和离散和离散趋势趋势是数据分布的两个重要特征,但是数据分布的两个重要特征,但要全面了解数据分布的特点,要全面了解数据分布的特点,还须还须要知道数据分布的要知道数据分布的形形态态是否是否对对称、偏斜的程度以及分布的扁平程度等。称、偏斜的程度以及分布的扁平程度等。偏斜度和峰度就是偏斜度和峰度就是对这对这些分布特征的描述。偏斜度是些分布特征的描述。偏斜度是对对数据分布的偏移方向和程度所作的数据分布的偏移方向和程度所作的进进一步描述;峰一步
33、描述;峰度是用来度是用来对对数据分布的扁平程度所做的描述。数据分布的扁平程度所做的描述。对对于偏斜程度的描述用偏斜度系数;扁平程度的描述于偏斜程度的描述用偏斜度系数;扁平程度的描述用峰度系数。用峰度系数。33一、一、动差法差法动差又称矩,原是物理学上用以表示力与力臂差又称矩,原是物理学上用以表示力与力臂对重心关重心关系的系的术语,这个关系和个关系和统计学中学中变量与量与权数数对平均数平均数的关系在性的关系在性质上很上很类似,所以似,所以统计学也用学也用动差来差来说明明频数分布的性数分布的性质。一般地一般地说,取,取变量的量的 值为中点,全部中点,全部变量量值与与 之差之差的的K K次方的平均数
34、称次方的平均数称为变量量X X关于关于 的的K K阶动差。用公差。用公式表示式表示为:34当当 时,即,即变量以原点量以原点为中心,上式称中心,上式称为K K阶原点原点动差,用大差,用大写英文字母写英文字母MM表示。表示。一一阶原点原点动差:差:,即算,即算术平均数;平均数;二二阶原点原点动差:差:,即平方平均数;,即平方平均数;三三阶原点原点动差:差:,等等。,等等。当当 时,即,即变量以算量以算术平均数平均数为中心,上式称中心,上式称为K K阶中心中心动差,用小写英文字母差,用小写英文字母mm表示。表示。一一阶中心中心动差:差:;二二阶中心中心动差:差:;三三阶中心中心动差:差:;等等。;
35、等等。35二、偏斜度二、偏斜度偏斜度是偏斜度是对统计数据分布偏斜方向及程度的度量。数据分布偏斜方向及程度的度量。统计数据的数据的频数数分布有的是分布有的是对称的,有的是不称的,有的是不对称的,即呈称的,即呈现偏偏态。在偏。在偏态的分的分布中,又有两种不同的形布中,又有两种不同的形态,即左偏,即左偏态和右偏和右偏态。度量分布偏斜。度量分布偏斜的程度,可的程度,可计算偏斜度。算偏斜度。接受接受动差法差法计算偏斜度系数是用算偏斜度系数是用变量的三量的三阶中心中心动差差 与与 进行行对比,比,计算公式算公式为:当分布当分布对称称时,变量的三量的三阶中心中心动差差 由于离差三次方后正由于离差三次方后正负
36、相互相互抵消而取得抵消而取得0 0值,则 ;当分布不;当分布不对称称时,正,正负离差不能抵消,离差不能抵消,就形成正的或就形成正的或负的三的三阶中心中心动差差 。当。当 为正正值时,表示正偏离,表示正偏离差差值比比负偏离差偏离差值要大,可以推断要大,可以推断为正偏正偏态或右偏或右偏态;反之,当;反之,当 为负值时,表示,表示负偏离差偏离差值比正偏离差比正偏离差值要大,可以推断要大,可以推断为负偏偏态或左偏或左偏态。越大,表示偏斜的程度就越大。由于三越大,表示偏斜的程度就越大。由于三阶中心中心动差差 含有含有计量量单位,位,为消退消退计量量单位的影响,就用位的影响,就用 去除去除 ,使其使其转化
37、化为相相对数。同数。同样的,的,的确定的确定值越大,表示偏斜的程度越大,表示偏斜的程度就越大。就越大。36三、峰度三、峰度峰度是用来衡量峰度是用来衡量统计数据分布的集中程度或分布曲数据分布的集中程度或分布曲线的的尖峭程度的指尖峭程度的指标。计算公式算公式为:当峰度当峰度 时,表示分布的形,表示分布的形态比正比正态分布更尖更高,分布更尖更高,这意味着分布比正意味着分布比正态分布更集中在平均数四周,分布更集中在平均数四周,这样的分布称的分布称为尖峰分布;尖峰分布;时,分布,分布为正正态分布;分布;时,表示分布比正,表示分布比正态分布更扁平,意味着分布比正分布更扁平,意味着分布比正态分布更分散,分布
38、更分散,这样的分布称的分布称为扁平分布。扁平分布。37一、一、SPSSSPSS简介介 社会科学社会科学统计软件包(件包(statistical package for the statistical package for the social sciencesocial science,SPSSSPSS)是世界上著名的)是世界上著名的统计分析分析软件之一。件之一。它由美国斯坦福高校的三位探它由美国斯坦福高校的三位探讨生于生于19681968年研制,同年年研制,同年成立了成立了SPSSSPSS公司,并于公司,并于19751975年在芝加哥年在芝加哥组建了建了SPSSSPSS总部。部。2020世
39、世纪8080年年头以前,以前,SPSSSPSS统计软件主要件主要应用于用于企事企事业单位。位。19841984年,年,SPSSSPSS总部首先推出了世界上第部首先推出了世界上第一个一个统计分析分析软件微机版本件微机版本SPSS/PC+SPSS/PC+,开,开创了了SPSSSPSS微机系列微机系列产品的开品的开发方向,极大地方向,极大地扩充了它的充了它的应用范用范围,并使其能很快地,并使其能很快地应用于自然科学、技用于自然科学、技术科学、社科学、社会科学的各个会科学的各个领域。随着域。随着SPSSSPSS产品服品服务领域的域的扩大和大和服服务深度的增加,深度的增加,SPSSSPSS公司已于公司已
40、于20002000年正式将英文全年正式将英文全称更改称更改为Statistical Product and Service SolutionsStatistical Product and Service Solutions,意,意为“统计产品与服品与服务解决方案解决方案”,标记着着SPSSSPSS的的战略方向正在做出重大略方向正在做出重大调整。整。38 SPSS SPSS的基本功能包括数据管理、的基本功能包括数据管理、统计统计分析、分析、图图表分析、表分析、输输出管理等。出管理等。SPSSSPSS统计统计分析分析过过程包括程包括描述性描述性统计统计、均、均值值比比较较、一般、一般线线性模型、
41、相关性模型、相关分析、回来分析、分析、回来分析、对对数数线线性模型、聚性模型、聚类类分析、分析、数据数据简简化、生存分析、化、生存分析、时间时间序列分析、多重响序列分析、多重响应应等几大等几大类类,每,每类类中又分好几个中又分好几个统计过统计过程,比程,比如回来分析中又分如回来分析中又分线线性回来分析、曲性回来分析、曲线线估估计计、LogisticLogistic回来、回来、ProbitProbit回来、加回来、加权权估估计计、两、两阶阶段最小二乘法、非段最小二乘法、非线线性回来等多个性回来等多个统计过统计过程,程,而且每个而且每个过过程中又允程中又允许许用用户选择户选择不同的方法及不同的方法
42、及参数。参数。39二、二、SPSSSPSS的基本操作的基本操作(一)启(一)启动SPSSSPSS单击Windows Windows 的的 起先起先 按按钮,在,在 全部程序全部程序 菜菜单项IBM IBM SPSS StatisticsSPSS Statistics中找到中找到IBM SPSS Statistics 20IBM SPSS Statistics 20并并单击(图7-37-3)。)。40(二)打开(二)打开SPSSSPSS的主窗口。的主窗口。SPSSSPSS启启动动成功后,打开成功后,打开SPSS SPSS 的主窗口的主窗口Data ViewData View。SPSSSPSS的主
43、窗口名的主窗口名为为IBM SPSS Statistics Data IBM SPSS Statistics Data EditorEditor(数据(数据编辑编辑窗口),如窗口),如图图7-47-4所示。所示。41在在SPSSSPSS的主窗口的菜的主窗口的菜单栏单栏中,共有中,共有1212个个选项选项:(1 1)FileFile:文件管理菜:文件管理菜单单,有关文件的,有关文件的调调入、存入、存储储、显显示和打印等;示和打印等;(2 2)EditEdit:编辑编辑菜菜单单,有关文本内容的,有关文本内容的选择选择、拷、拷贝贝、剪、剪贴贴、找、找寻寻和替和替换换等;等;(3 3)ViewView
44、:视图视图菜菜单单,运用,运用“视图视图”菜菜单单可可显显示或示或隐隐藏状藏状态态行、工具行、工具栏栏、网、网络线络线、值标签值标签和和变变更字体等;更字体等;(4 4)DataData:数据管理菜:数据管理菜单单,有关数据,有关数据变变量定量定义义、数据格式、数据格式选选定、定、视视察察对对象的象的选择选择、排序、加、排序、加权权、数据文件的、数据文件的转换转换、连连接、接、汇总汇总等;等;(5 5)TransformTransform:数据:数据转换处转换处理菜理菜单单,有关数,有关数值值的的计计算、重新算、重新赋值赋值、缺失、缺失值值替代等;替代等;(6 6)AnalyzeAnalyze
45、:统计统计菜菜单单,有关一系列,有关一系列统计统计方法的方法的应应用;用;(7 7)Direct MarketingDirect Marketing:直:直销销菜菜单单,有关了解,有关了解顾顾客、改客、改进进行行销销活活动动等;等;(8 8)GraphsGraphs:作:作图图菜菜单单,有关,有关统计图统计图的制作;的制作;(9 9)UtilitiesUtilities:用:用户选项户选项菜菜单单,有关吩咐,有关吩咐说说明、字体明、字体选择选择、文件信息、定、文件信息、定义输义输出出标题标题、窗口、窗口设计设计等;等;(1010)WindowWindow:窗口管理菜:窗口管理菜单单,有关窗口的
46、排列、,有关窗口的排列、选择选择、显显示等;示等;(1111)Add-onsAdd-ons:附加程序菜:附加程序菜单单,有关,有关输输出管理系出管理系统统限制、数据文件注限制、数据文件注释释、定、定义义和运用和运用变变量集、运行脚本、定制量集、运行脚本、定制对话对话框等;框等;(1212)HelpHelp:求助菜:求助菜单单,有关帮助文件的,有关帮助文件的调调用、用、查询查询、显显示等。示等。42(三)定(三)定义变量量 打开打开Variable ViewVariable View进入入变量定量定义窗口,窗口,对变量量进行定行定义。变量定量定义包括包括1111个方面的内容,分个方面的内容,分别
47、为:NameName,TypeType,WidthWidth,DecimalsDecimals,LabelLabel,ValuesValues,MissingMissing,ColumnsColumns,AlignAlign,MeasureMeasure,RoleRole,如,如图7-57-5所示。所示。43(1 1)NameName:定:定义变义变量名。要求定量名。要求定义变义变量名,不能超量名,不能超过过8 8个个字符(中文和英文均可以),但不能与字符(中文和英文均可以),但不能与SPSSSPSS软软件运算符相件运算符相同的一些字符串,如同的一些字符串,如allall,andand,byb
48、y,notnot,oror,toto,withwith,eqeq,gege,gtgt,lele,lt lt,nene;“(”“(”,“)”“)”,“/”“/”,“?”“?”等符号。等符号。(2 2)TypeType:定:定义变义变量量类类型。型。SPSS SPSS 的主要的主要变变量量类类型有:型有:NumericNumeric(标标准数准数值值型)、型)、CommaComma(带带逗点的数逗点的数值值型)、型)、DotDot(逗点作小数点的数(逗点作小数点的数值值型)、型)、Scientific NotationScientific Notation(科(科学学记记数法)、数法)、DateD
49、ate(日期型)、(日期型)、DollarDollar(带带美元符号的数美元符号的数值值型)、型)、Custom CurrencyCustom Currency(自定(自定义义型)、型)、StringString(字符(字符型)、型)、Restricted NumericRestricted Numeric(Integer with leading Integer with leading zeroszeros)(受限数)(受限数值值,值值限于非限于非负负整数的整数的变变量,在量,在显显示示值时值时,填充先填充先导导0 0以达到最大以达到最大变变量量宽宽度)。度)。(3 3)WidthWidt
50、h:设设置置变变量量长长度。度。设设置数置数值变值变量的量的长长度,当度,当变变量量为为日期型日期型时时无效。无效。(4 4)DecimalsDecimals:设设置置变变量小数点位数。量小数点位数。设设置数置数值变值变量的小量的小数点位数,当数点位数,当变变量量为为日期型日期型时时无效。无效。(5 5)LabelLabel:设设置置变变量量标签标签。变变量量标签标签是是对变对变量名的量名的进进一一步描述,步描述,变变量只能由不超量只能由不超过过8 8个字符个字符组组成,成,8 8个字符常常不个字符常常不足以表示足以表示变变量的含量的含义义。而。而变变量量标签标签可可长长达达120120个字符