《描述性统计分析SPSS应用.ppt》由会员分享,可在线阅读,更多相关《描述性统计分析SPSS应用.ppt(99页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第二章描述性统计分析主要内容统计分析和研究的特点统计分析和研究的特点单变量的描述性统计单变量的描述性统计频数分析频数分析描述性分析描述性分析探索性分析探索性分析一、统计分析和研究的特点大量观察、建立数据库描述统计:用统计学来简化数据,描述特征和关系。推论统计:用统计学可以从局部(样本)来推论总体的情况。二、单变量的基本描述技术二、单变量的基本描述技术一般来说,原始的资料往往是杂乱无章一般来说,原始的资料往往是杂乱无章的。零散地分布在问卷和文献中,因此的。零散地分布在问卷和文献中,因此必须对资料进行加工必须对资料进行加工对资料的加工和分析从单变量的分析开对资料的加工和分析从单变量的分析开始。始。
2、单变量的特征包括分布、统计表和统计单变量的特征包括分布、统计表和统计图图分布特征如何?频数频数(Frequency)百分比(百分比(percent)对比值对比值(ratio)累计频数(累计频数(Cumulative Frequency)累计百分比(累计百分比(cumulative percent)基本技术之统计表表号表号在文章中便于查阅、引用。在文章中便于查阅、引用。表头,包括标题、时间和地点表头,包括标题、时间和地点纵栏标题纵栏标题横行标题横行标题总计行总计行(一)定类层次(一)定类层次1.1.频数与频数分布频数与频数分布(1).(1).频数频数(f frequency)requency):
3、也称次数,它是归属各类:也称次数,它是归属各类别的个案数。别的个案数。(2)(2)频数分布频数分布(frequency distribution)(frequency distribution):把各:把各个类别及其相应的频数全部列出,并用表格形个类别及其相应的频数全部列出,并用表格形式表示出来,就是频数分布。这个表格就是频式表示出来,就是频数分布。这个表格就是频数分布表。数分布表。o频数分布表通过对原始资料的初步简化,可频数分布表通过对原始资料的初步简化,可以简洁明了地反映原始数据的情况。但是因以简洁明了地反映原始数据的情况。但是因为样本规模的不同,通常不能直接用来比较为样本规模的不同,通常
4、不能直接用来比较信息,为什么?信息,为什么?2.百分比百分比(percent):频率:频率社会统计中通常用百分比来表示,绘制的表格一社会统计中通常用百分比来表示,绘制的表格一般是百分比表,但表的最下一行一般要注明频般是百分比表,但表的最下一行一般要注明频数。数。上表上表1中,已婚者与各机关人数的比例分别是:中,已婚者与各机关人数的比例分别是:o甲机关:甲机关:乙机关:乙机关:甲、乙机关已婚者所占的百分比分别是甲、乙机关已婚者所占的百分比分别是65.0%和和57.1%,o如果只看次数,乙机关已婚者远高于甲机关,如果只看次数,乙机关已婚者远高于甲机关,但从百分比来看,甲机关已婚的比例则较大。但从百
5、分比来看,甲机关已婚的比例则较大。o频数分布表是不同类别的绝对数量的分布情况,频数分布表是不同类别的绝对数量的分布情况,百分比分布表则是不同类别在总体中的相对数百分比分布表则是不同类别在总体中的相对数量分布,因此,百分比分布除具备频数分布的量分布,因此,百分比分布除具备频数分布的特点外,还可以十分方便地进行不同总体或不特点外,还可以十分方便地进行不同总体或不同类别之间的比较,应用更为广泛。同类别之间的比较,应用更为广泛。o3.对比值对比值(ratio):不同类别数值之间的比:不同类别数值之间的比值,用值,用x:y的形式表示的形式表示如出生性别比为如出生性别比为105:100,则表示每出生,则表
6、示每出生100个女孩则有个女孩则有105个男孩出生个男孩出生 某班男女生比率为某班男女生比率为3:5(二)定序层次:累积频数和累积频率(二)定序层次:累积频数和累积频率累积频数累积频数(cumulative frequencies):将各有序类别或组的频数逐级累加起来。将各有序类别或组的频数逐级累加起来。累积频率累积频率(cumulative percentages):就是将各有序类别或组的百分比逐渐累:就是将各有序类别或组的百分比逐渐累加起来。加起来。作用:使我们容易知道某值以下或以上的次作用:使我们容易知道某值以下或以上的次数或百分比之和数或百分比之和(1)向上累积向上累积:从类别顺序的开
7、始的一方向类别顺序的从类别顺序的开始的一方向类别顺序的最后一方累加频数(由低级向高级水平的加和)最后一方累加频数(由低级向高级水平的加和)(2)向下累积向下累积o从类别顺序的最后一方向类别顺序的开始的一从类别顺序的最后一方向类别顺序的开始的一方累加频数。(由高级或大数值一方向低级或方累加频数。(由高级或大数值一方向低级或较小数值一方的累加)较小数值一方的累加)如:某校学生的家庭月收入如:某校学生的家庭月收入收入收入(元元)fCfCf500-6991010550700-8996575540900-10991262114751100-12991583693391300-14991415101811
8、500-16994055040总数总数 550(三三)定距层次定距层次:分组与组距分组与组距1、分组是根据统计研究的需要,将数据按照某种、分组是根据统计研究的需要,将数据按照某种标准化分成不同的组别,分组后再计算出各组标准化分成不同的组别,分组后再计算出各组中出现的频数或频率,形成一张统计分析表。中出现的频数或频率,形成一张统计分析表。(1)组限:每组的范围,)组限:每组的范围,o包括上限(包括上限(Upper limit)和下限()和下限(lower limits)o如如100-200,下限就是,下限就是100,上限就是,上限就是200(2)分组遵循的两大原则)分组遵循的两大原则o“不重不漏
9、不重不漏”的原则的原则“不重不重”是指一项数据只能分在其中的某一组,不能是指一项数据只能分在其中的某一组,不能在其他组中重复出现。在其他组中重复出现。“不漏不漏”是指组别能够穷尽,及在所分的全部组别中是指组别能够穷尽,及在所分的全部组别中某项数据都能分在其中的一组,不能遗漏。某项数据都能分在其中的一组,不能遗漏。o“上组界不包括在内上组界不包括在内”的原则的原则(3)组距:是一个组的上限与下限的差组距:是一个组的上限与下限的差,o可根据全部数据的最大值和最小值及所分的可根据全部数据的最大值和最小值及所分的组数来确定组数来确定o 组距组距=(最大值最大值-最小值最小值)/组数组数 组距组距=真实
10、上限真实上限-真实下限真实下限(李沛良书李沛良书p41-42)数据的分组,通过数据的分组,通过“transform”“recode”命令命令完成完成(4)组中值:处于一组中间位置的值组中值:处于一组中间位置的值o真实上限与真实下限的平均值真实上限与真实下限的平均值 组中值组中值=(上限(上限+下限)下限)/2如,如,100-200,200-300,300-400分组分组数据的组中值:数据的组中值:150,250,350那么那么100-199,200-299,300-399分组分组的组中值是多少?的组中值是多少?基本技术之统计图基本技术之统计图o饼图饼图条形图条形图o直方图直方图o直方图是以长条
11、的面直方图是以长条的面积(长与宽的乘积)积(长与宽的乘积)来表示频数或相对频来表示频数或相对频数;条形的长度,即数;条形的长度,即纵轴高度表示单位组纵轴高度表示单位组距所含有的所有频数距所含有的所有频数或相对频数的密度。或相对频数的密度。仅适用于定距及以上仅适用于定距及以上层次的变量层次的变量 o折线和曲线图折线和曲线图定距变量资料分布常用曲线定距变量资料分布常用曲线oJ形曲线U形曲线形曲线峰状曲线峰状曲线对称与不对称曲线对称与不对称曲线o注意:适用于较低测量层次的统计法,也适注意:适用于较低测量层次的统计法,也适用于较高的层次。用于较高的层次。o图形也同样:饼图主要是用于定类变量图形也同样:
12、饼图主要是用于定类变量条形图主要是用于定序变量;直方图、折线图条形图主要是用于定序变量;直方图、折线图等主要是用于定距变量等主要是用于定距变量练习:城镇自杀率的分组次数分布练习:城镇自杀率的分组次数分布自杀率自杀率次数次数组中值组中值向上累积次数向上累积次数3-5126-8359-118112-145215-173018-20721-23923-263合计合计229三、集中趋势测量用分布来研究单变量是最全面的分析方法在很多情况下,我们只要了解其大概或分布的主要特征以便简化资料。于是就产生了用某一个典型的变量值或特征值来代表全体变量的问题,这个典型的变量值或特征值就是集中值或集中趋势。统计分析统
13、计分析首先要解决的问题,就是寻求首先要解决的问题,就是寻求一个简单数值以代表搜集所得的资料。一个简单数值以代表搜集所得的资料。下面是一个小故事:一个人到某公司求职,经过调查,得出关于该公司工资的一些数据,如果是你,应该如何选择?挠头的数值挠头的数值公司公司员员工的月薪如下:工的月薪如下:员员工工经经理理副副经经理理职员职员A职员职员B职员职员C职员职员D职员职员E职员职员F职员职员G月薪月薪(元)(元)60004000170013001200110011001100500我们有三种方法选择集中趋势:(1)根据频数:哪个变量值出现次数越多,就选择哪个变量值,比如民主决策的表决机制。(2)根据居中
14、:比如一个城镇居民的生活水平,居中的是小康家庭,那么就用小康家庭来代表该城镇的生活水平。(3)根据平均:用平均数来代表变量的平均水平。关于集中趋势的一个故事n吉斯莫先生有一个小工厂,生产超级小玩意儿。n管理人员由吉斯莫先生、他的弟弟、六个亲戚组成。工作人员由5个领工和10个工人组成。工厂经营得很顺利,现在需要一个新工人。n现在吉斯莫先生正在接见萨姆,谈工作问题。n吉斯莫:我们这里报酬不错。平均薪金是每周300美元。你在学徒期间每周得75美元,不过很快就可以加工资。n萨姆工作了几天之后,要求见厂长。n萨姆;你欺骗我!我已经找其他工人核对过了,没有一个人的工资超过每周100元。平均工资怎么可能是一
15、周300元呢?n吉斯莫:啊,萨姆,不要激动。平均工资是300元。我要向你证明这一点。n吉斯莫:这是我每周付出的酬金。我得2400元,我弟弟得1000元,我的六个亲戚每人得250元,五个领工每人得200元,10个工人每人100元。总共是每周6900元,付给23个人,对吧?n萨姆:对,对,对!你是对的,平均工资是每周300元。可你还是蒙骗了我。n吉斯莫;我不同意!你实在是不明白。我已经把工资列了个表,并告诉了你,工资的中位数是200元,可这不是平均工资,而是中等工资。n萨姆:每周100元又是怎么回事呢?n吉斯莫:那称为众数,是大多数人挣的工资。n吉斯莫:老弟,你的问题是出在你不懂平均数、中位数和众
16、数之间的区别。n萨姆:好,现在我可懂了。我我辞职!描述集中趋势的统计量描述集中趋势的统计量Mean(均值)Median(中位值)Mode(众值)(一)均值(定距变量)1.对于未分组资料对于未分组资料 例例 求求74、85、69、9l、87、74、69这些数这些数字的算术平均数。字的算术平均数。解解 78.4 2.对于分组资料对于分组资料很显然,算术平均数不仅受各变量值很显然,算术平均数不仅受各变量值(X)大小的影大小的影响,而且受各组单位数响,而且受各组单位数(频数频数)的影响。由于对于总体的影的影响。由于对于总体的影响要由频数响要由频数(f)大小所决定,所以大小所决定,所以 f 也被称为权数
17、。值得也被称为权数。值得注意的是,在统计计算中,权数不仅用来衡量总体中各标注意的是,在统计计算中,权数不仅用来衡量总体中各标志值在总体中作用,同时反映了指标的结构,所以它有两志值在总体中作用,同时反映了指标的结构,所以它有两种表现形式:绝对数(频数)和相对数(频率)。种表现形式:绝对数(频数)和相对数(频率)。例例 求下表求下表(单项数列单项数列)所示数据的算术平所示数据的算术平均数均数。人口数(人口数(X)户数户数(f)频率频率(P)23456785816106410.100.160.320.200.120.080.02合计合计501.00 对于对于组距数列组距数列,要用每一组的组中值权充该
18、,要用每一组的组中值权充该组统一的变量值。组统一的变量值。例例 求下表所示数据的算术平均数求下表所示数据的算术平均数 间距频数(f)组中值(X)148152152156156160160164164168168172172176176180180184184188188192192196 1 2 51019251712 5 3 0 1 150154158162166170174178182186190194合计 100 3.算术平均数算术平均数算术平均数算术平均数的性质的性质各变量值与算术平均数的离差之和等于各变量值与算术平均数的离差之和等于0。各变量值对算术平均数的平方和,小于它们对任各变量
19、值对算术平均数的平方和,小于它们对任何他数偏差的平方和何他数偏差的平方和算术平均数受抽样变动影响较小。算术平均数受抽样变动影响较小。分组资料如遇有开放组距时,不经特殊处理分组资料如遇有开放组距时,不经特殊处理不能进行算术平均数的计算。不能进行算术平均数的计算。受极端值影响较大。受极端值影响较大。(二)中位值(定序变量、定距变量)定义:第50百分位数上的值,即有50%的观察点落在这个值之下。根据原始资料求中位值:将各个案由低至高排列起来,居于序列中央位置的个案的值即为中位值。观察总数为奇数:Md=(N+1)/2 当观察总数为偶数:将位于最中央位置的两个数值的平均值作为中位值。1.对未分组资料对未
20、分组资料 (1)1)、先把所有数据按大小顺、先把所有数据按大小顺、先把所有数据按大小顺、先把所有数据按大小顺序排列,如果总体单位数为序排列,如果总体单位数为序排列,如果总体单位数为序排列,如果总体单位数为奇数,则取第(奇数,则取第(奇数,则取第(奇数,则取第(N+1N+1)/2/2 位上位上位上位上的变量值为中位数的变量值为中位数的变量值为中位数的变量值为中位数;(2 2)、如果总体单位数为偶)、如果总体单位数为偶)、如果总体单位数为偶)、如果总体单位数为偶数。因为居中的数值不存在,数。因为居中的数值不存在,数。因为居中的数值不存在,数。因为居中的数值不存在,按惯例,取第按惯例,取第按惯例,取
21、第按惯例,取第 N/2N/2位和第位和第位和第位和第(N+1N+1)/2/2 位上的两个变量值位上的两个变量值位上的两个变量值位上的两个变量值的平均作为中位数。的平均作为中位数。的平均作为中位数。的平均作为中位数。n例求54,65,78,66,43这些数字的中位数。n例、求54,65,78,66,43,38这些数字的中位数。你会吗?2.对于分组资料:对于分组资料:(1)单项数列单项数列 根据根据N/2在累计频数分布中找到中位数所在组,在累计频数分布中找到中位数所在组,该组变量值就是该组变量值就是MMd d。中位数XfF333491252537634717209187989199101100合计
22、合计100(2)组距数列组距数列(2)组距数列)组距数列按中位数所在组的下限:按中位数所在组的上限:当根据组距数列求中位数时,要采用所谓的比当根据组距数列求中位数时,要采用所谓的比例插值法:先根据例插值法:先根据N N2 2在累计频数分布中找到中位在累计频数分布中找到中位数所在组,然后假定该组中各变量值是均匀分布的,数所在组,然后假定该组中各变量值是均匀分布的,再用以下任何一种方法求出中位数再用以下任何一种方法求出中位数(注意:此处用注意:此处用的是向上累计的是向上累计)。例例某年级学生身高如下,求中位数某年级学生身高如下,求中位数组距fF150156331561629121621682537
23、168174347117418020911801867981861921991921981100合计100解第一种方法168617112(厘米)请你用第二种方法来做一下3.中位数的性质中位数的性质 (1)各变量值对中位数之差的绝对值总和,小于它们对任何其他数的绝对值总和。(2)中位数不受极端值的影响。(3)分组资料有不确定组距时,仍可求得中位数。(4)中位数受抽样变动的影响较算术平均数略大。4.四分位数 中位数所有单位被等分为两部分,因而被称为二分中位数所有单位被等分为两部分,因而被称为二分位数。类似于求中位数,我们还可求出位数。类似于求中位数,我们还可求出四分位数、十分四分位数、十分位数、百
24、分位数。位数、百分位数。将总体中的各单位分割成相等的四部分,则这三个将总体中的各单位分割成相等的四部分,则这三个分割的变量值就是四分位数。若以分割的变量值就是四分位数。若以Q1、Q2、Q3分别代表分别代表第一、第二、第三四分位数。第一、第二、第三四分位数。Q2 即中位数,即中位数,Q1、Q3的算的算法分别是法分别是请从下表中指出第一四请从下表中指出第一四分位数和第三四分位分位数和第三四分位数数XfF333491252537634717209187989199101100合计合计100 求出下表中的第一四分位数和第三四分数求出下表中的第一四分位数和第三四分数组距组距fF1501563315616
25、29121621682537168174347117418020911801867981861921991921981100合计合计100(三)众数(Mode)众数是在一组资料中,出现次数众数是在一组资料中,出现次数众数是在一组资料中,出现次数众数是在一组资料中,出现次数(或频或频或频或频数数数数)呈现出呈现出呈现出呈现出“峰峰峰峰”值的那些变量值,用值的那些变量值,用值的那些变量值,用值的那些变量值,用MMo o表表表表示。示。示。示。众数只与次数有关,可以用于定类、众数只与次数有关,可以用于定类、定序、定距、定比资料。定序、定距、定比资料。1.对于未分组资料对于未分组资料 直接观察首先,将
26、所有数据顺序排列;然后,只要观察到某些变量值(与相邻变量值相比较)出现的次数(或频数)呈现“峰”值,这些变量值就是众数。2.对于分组资料对于分组资料 单项式:单项式:观察频数分布(或频率分布)组距式:组距式:Lo为众数组下限;为众数组频数与前一组频数之差;为众数组频数与后一组频数之差;ho为众数组组距。人口数(人口数(X)户数户数(f)频率频率(P)23456785816106410.100.160.320.200.120.080.02合计合计501.00求下表中的众数求下表中的众数众众数数求下表中的众数求下表中的众数组距组距fF15015633156162912162168253716817
27、4347117418020911801867981861921991921981100合计合计100 (1)众数仅受上下相邻两组频数大小的影响,不受极众数仅受上下相邻两组频数大小的影响,不受极端值影响,对开口组仍可计算众数;端值影响,对开口组仍可计算众数;(2)受抽样变动影响大;受抽样变动影响大;(3)众数不唯一确定。众数不唯一确定。(4)众数标示为其峰值所对应的变量值,能很容易区众数标示为其峰值所对应的变量值,能很容易区分出单峰、多峰。因而具有明显偏态集中趋势的频数分分出单峰、多峰。因而具有明显偏态集中趋势的频数分布,用众数最合适。布,用众数最合适。3.众数的性质众数的性质四、离散趋势测量四
28、、离散趋势测量n所谓离散趋势,是指数列中各变量值之间的差距和离散程度。离势小,平均数的代表性高;离势大,平均数代表性低。例如有例如有A、B、C三三组学生各组学生各5人的成绩人的成绩如下:如下:A组:组:60,60,60,60,60 B组:组:58,59,60,61,62 C组:组:40,50,60,70,80 数据显示,平均数相同,离势可能不数据显示,平均数相同,离势可能不同;平均数不同,离势可能相同。同;平均数不同,离势可能相同。描述离散趋势的统计量描述离散趋势的统计量异众比极差四分位差方差标准差 1、Variation ratio(异众比)界定:异众比也称离异比率,一般用异众比来反映不同于
29、众值的数在全体数值中所占的比例,用于测量定类变量的离散趋势。计算公式:异众比=(N众值的频次)/N2、Range(极差)Range 也称全距或范围,即最大值与最小值之间的距离,显示的是数据分布的范围,但对于中间部分数据怎么变化,则不能推知,此外,它受极端值的影响大。3、四分位差:适用于定序变量界定:也叫四分位数偏差或四分互差。通常数据按从小到大的顺序排列后,用三个四分位数点Q1、Q2、Q3将其分成四部分。Q1是第25百分位数点或叫低四分位数点;Q2是第50百分为位数点即中位数;Q3是第75百分位数点或叫高四分位数点。四分位差规定为Q1和Q3之间的距离。计算公式:Q=Q3 Q1 Q越大,表示有5
30、0%的个案的分布越是远离中位值,中位值的代表性就越小,以中位值作为估计或预测的效果就越差。Q越小,说明数据比较集中在中位值附近4、Variance(方差):适用于定距变量方差(观察值均值)的平方和/n一般方差越大,说明观察值离平均值的距离越远,数据的离散程度也越大。5、Std.deviation(标准差)Std.deviation为Standard Deviation的简写,表示以均值做估计或预测变量时所犯错误的大小。总体的标准偏差=根号(观察值均值)的平方和/n SPSS应用频数分析频数分析描述性分析描述性分析探索性分析探索性分析频数分析n1频数分析目的和主要功能n频数就是一个变量在各个变量
31、值上取值的个案数,基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。n例如,调查消费者拥有数码产品的数量,首先分析受访者的总人数、家庭收入情况、受教育程度、性别等,获取样本是否具有总体代表性、抽样是否存在系统偏差等信息。这些可以通过频数分析来实现。n经过频数分析可以得到如下结果:n(1)频数分布表:该表中包含频数、各频数占总样本数的百分比、有效百分比、累计百分比。n(2)统计图:用统计图形展示变量的取值状况,频数分析中提供的统计图形可以是条形图、饼图或者直方图。2频数分析过程的操作界面频数分析过程的操作界面n(1)候)候选变选变量框量框n列出
32、数据文件中所有的变量列出数据文件中所有的变量n(2)Variables框框n从候选变量框中选择要分析的变量从候选变量框中选择要分析的变量n移入此框中,可同时选择多个变量,移入此框中,可同时选择多个变量,n此时,此时,SPSS就将分别产生多张就将分别产生多张n频数表或统计图形。频数表或统计图形。n(3)Display frequency tables复选框复选框n此复选框设置是否显示频数表,此复选框设置是否显示频数表,n系统默认选中,表示要显示频数表。系统默认选中,表示要显示频数表。图2-12频数分析过程的操作界面频数分析过程的操作界面n(4)Statistics按钮按钮n单击该按钮会弹出新的对
33、话框,单击该按钮会弹出新的对话框,n该对话框主要用于确定将要在该对话框主要用于确定将要在n输出结果中出现的统计量,输出结果中出现的统计量,n选中统计量前的复选框表示选中统计量前的复选框表示n输出该统计量。输出该统计量。n(5)Charts按钮按钮n用于确定将输出的图形类型用于确定将输出的图形类型n和图形取值。和图形取值。n(6)Format按钮按钮n定义输出频数表的格式定义输出频数表的格式图2-13实例分析实例分析n【例例1】以下是以下是调查问调查问卷中卷中针对针对被被调查调查人人设设置的两个置的两个问题问题:n1、您的家庭月收入大约是:(请包括所有工资、奖金、津贴等在内,以人民币为单位)单选
34、 n500-1000.11000-19992n2000-299933000-39994 n4000-499955000-59996n6000-699977000-79998n8000-899999000-999910n10000及以上11n2、您的教育程度:(指您受过的最高或正在接受的教育程度)单选n没有受过正式教育/小学.1初中2高中/中专/技校3n大专/大学非本科/高职高专4大学本科5研究生及以上.6n从问卷中收集到的数据如表2.1所示3实例分析实例分析n试对收集到的数据进行频数分析家庭月收入受教育程度35152515156410545表2.13实例分析实例分析第第1步步 数据组织;数据组
35、织;n根据表根据表2.1生成生成SPSS数据文件,建数据文件,建2个变量:个变量:“收入收入”、“教育教育”。第第2步步 打开主对话框;打开主对话框;n选择选择Analyze Descriptive Statistics Frequencies,打开,打开同图同图2-1一样的频数分析主对话框。一样的频数分析主对话框。第第3步步 确定要输出的统计量;确定要输出的统计量;n单击单击Statistics按钮,在按钮,在Statistics子对话框中选择子对话框中选择Mode(众(众数)统计量。数)统计量。第第4步步 确定要输出的统计图形;确定要输出的统计图形;n单击单击Charts按钮,在按钮,在C
36、harts子对话框中选择子对话框中选择Histograms(直(直方图)方图)运行结果及分析。运行结果及分析。n3实例分析实例分析FrequencyPercentValid PercentCumulative PercentValid181.01.01.02394.74.75.6311413.613.719.3416519.719.839.0545654.554.693.76536.36.3100.0Total83599.9100.0MissingSystem1.1Total836100.0图2-2变量“教育”的直方图表2.2变量“教育”的频数分布表描述性分析描述性分析n1描述性分析目的和主要
37、功能描述性分析目的和主要功能n描述性分析主要用于描述性分析主要用于输输出出变变量的各量的各类类描述性描述性统计统计量的量的值值,通,通过过上一上一节节的学的学习习可知,可知,频频数数分析同分析同样样可以做到,都是以可以做到,都是以计计算数算数值值型型单变单变量的量的统计统计量量为为主。描述性主。描述性统计统计分析没有分析没有图图形形功能,也不能生成功能,也不能生成频频数表,但描述性分析可数表,但描述性分析可以将原始数据以将原始数据转换转换成成标标准正准正态评态评分分值值,并以,并以变变量形式存入数据文件中,以便后量形式存入数据文件中,以便后续续分析分析时时应应用。用。2描述性分析的操作界面描述
38、性分析的操作界面n 列出数据文件中的变量,从中选择要作描述性分析的变量将需作描述性分析的变量选入此框中,可同时选择多个变量,此时,SPSS就将分别产生多个变量的描述性分析结果点击Option按钮设置需计算的描述性统计量。图2-33实例分析实例分析n【例例2】n 选择选择“身高身高”变量作描述性分析,选定要计算的统计量后,变量作描述性分析,选定要计算的统计量后,运算得到表运算得到表2.3所示的结果所示的结果表表2.3 NMinimumMaximumMeanStd.DeviationSkewness(偏度)Kurtosis(峰度)StatisticStatisticStatisticStatist
39、icStatisticStatisticStd.ErrorStatisticStd.Error身高9699.3125.0109.8915.9633.350.246-.446.488Valid N(listwise)96探索性分析探索性分析n1探索性分析目的和主要功能探索性分析目的和主要功能 n 与与前前面面介介绍绍的的两两种种分分析析方方法法相相比比,探探索索性性分分析析更更加加强强大大,它它是是对对数数据据的的探探索索和和考考察察,可可以以对对变变量量进进行行更更为为深深入入详详尽尽的的统统计计分分析析。在在进进行行统统计计分分析析前前,通通常常需需要要寻寻求求和和确确定定适适合合所所研研究
40、究的的问问题题的的统统计计方方法法,SPSS提提供供的的探探索索性性分分析析是是解解决决此此类类问题问题的有效的有效办办法。法。n 探索性分析提供了很多关于数据的探索性分析提供了很多关于数据的概括分析概括分析和和图图表直表直观观描述描述的方法,不的方法,不仅对仅对个案数据有效,而且个案数据有效,而且还还可以可以针对针对分分组组个个案。在案。在输输出常用描述性出常用描述性统计统计量的基量的基础础之上,探索性分析增加之上,探索性分析增加了有关了有关数据数据详细详细分布特征分布特征的文字与的文字与图图形表述,如茎叶形表述,如茎叶图图、箱、箱图图等,等,显显得更加得更加详细详细、完整,、完整,还还可以
41、以方差可以以方差齐齐性性为为目的的目的的变变量交量交换换提供提供线线索,索,有助于用有助于用户户制定更制定更进进一步分析的方案。一步分析的方案。n 2探索性分析的操作界面探索性分析的操作界面 (1)Depend List框框选择待分析的变量,可以选择待分析的变量,可以同时选择多个变量。注意:同时选择多个变量。注意:选择的变量必须是数值型选择的变量必须是数值型变量变量(2)Factor List框框选择分组变量,根据该变选择分组变量,根据该变量的取值不同,分组分析量的取值不同,分组分析Dependlist框中的变量。框中的变量。可以不选,也可以多选。可以不选,也可以多选。(3)statistic
42、s按钮:设按钮:设置输出的统计量;置输出的统计量;Plots按钮:设置输出的图按钮:设置输出的图形;形;Option按钮:设置缺失值按钮:设置缺失值的处理。的处理。图2-43实例分析实例分析n【例3】表2-4是2007年各地区人口出生率和死亡率的统计数据,试对其作探索性分析并做是否服从正态分布的检验。表2-4各地区人口自然变动情况 出生率6.267.6712.8211.489.876.407.677.577.479.3610.29死亡率4.976.076.595.735.915.305.005.185.897.085.42出生率9.0811.9211.7814.4414.599.909.141
43、3.9713.2017.4010.19死亡率5.956.734.496.105.736.506.286.716.305.706.15出生率12.6012.0013.8011.6011.5912.8615.2415.5315.79死亡率6.305.756.016.106.276.626.274.845.033实例分析实例分析第1步数据组织;n根据表4.4生成SPSS数据文件,建2个变量:“出生率”、“死亡率”第2步打开主对话框;n选择AnalyzeDescriptiveStatisticsExplore,选择变量“出生率”、“死亡率”移入“DependentList”文本框中。3实例分析实例分析
44、第3步确定探索性分析的描述统计量;单击Statistics按钮,在Statistics子对话框(图4-5)中选择Descriptives 复选框、M-estimators复选框,单击Continue返回主对话框。图2-53实例分析实例分析第4步确定探索性分析输出的统计图形;n单击Plots按钮,在如图2-6的Plots子对话框中选择“Dependentstogether”(不同因变量显示在一个箱图中)、“Stem-and-leaf”(茎叶图)、NormalityPlotswithtests(正态分布检测统计图)。单击Continue返回主对话框。图2-63实例分析实例分析结果分析n表2-5描述
45、性统计量3实例分析实例分析结果分析n表2-6M估计值3实例分析实例分析结果分析n 分别利用Kolmogorov-Smimov检验和Shapiro-Wilk检验两种方法来确定变量是否服从正态分布。其中,Statistic表示检验统计量的值,df代表自由度,Sig.表示显著性水平。一般来说,Sig.0.05则代表接受零假设,即接受变量服从正态分布的假设。本例中,两个变量的两种方法的Sig.值均大于0.05,因此两个变量均服从正态分布。表2-7正态检验结果3实例分析实例分析结果分析n 图2-7箱图3实例分析实例分析结果分析n 图2-8出生率QQ趋势图Q-Q图可以用来检验数据是否服从某种分布,在Q-Q
46、图中,检验数据是否较好地服从给定分布的标准有两个:看Q-Q图上的数据点与直线的重合度;Q-Q趋势图上的点是否关于直线Y=0在较小的范围内上下波动。4.4 探索性分析探索性分析n3实例分析实例分析结果分析n 图2-9出生率QQ图3实例分析实例分析结果分析n茎叶图利用原始数据以图形的形式表现了分布的形状,图中包括频数(Frequency)、茎(Stem)和叶(Leaf)3部分,右图中的下方说明中给出了本图的茎宽为10,每片叶子代表一个数据。对应图中的第一行数据,从左到右依次为:频数为6,茎为0,有6片叶子。也就是指第一组里包含6个数据,其近似值为:6、6、7、7、7、7图2-10出生率茎叶图出生率Stem-and-LeafPlotFrequencyStem&Leaf6.000.6677775.000.999997.001.00111117.001.22223335.001.445551.001.7Stemwidth:10.00Eachleaf:1case(s)