《心理统计学—数据分布特征的度量.ppt》由会员分享,可在线阅读,更多相关《心理统计学—数据分布特征的度量.ppt(57页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、心理统计学心理统计学数据分数据分布特征的度量布特征的度量 数据的分布特征可以从三个方面进行侧度和描述:集中趋势集中趋势:位置的度量、数据集中的位置;离散程度离散程度:反映数据远离其中心值的趋势;偏态和峰度偏态和峰度:反映数据分布的形状3.1 集中趋势的测度 指一组数据向某一中心值靠拢的倾向。测度集中趋势就是要寻找数据一般水平的代表值或中心值。众数(Mode)中数(Median)平均数(均值)(Mean)简单平均数(Simple mean)加权平均数(Weighted mean)调和平均数(Harmonic mean)几何平均数(Geometric mean)3.1.1 众数 众数是一组数据中出
2、现次数最多的变量值。用Mo表示。主要用于测度定类数据的集中趋势,也适用于定序、定距和定比数据的集中趋势的测度值。(1)定类、定序数据求众数)定类、定序数据求众数Mo=Coke Classic(2)数值型数据(定距、定比)求众数)数值型数据(定距、定比)求众数当数据未分组时,出现次数最多的变量值即为众数;当数据经过分组整理后,众数的数值与其相邻的频数分布有一定关系。Mo其中:L为众数组的下限值;i为中数组的组距;f-1为前一组的频数;f+1为后一组的频数;f为众数组的频数。ff+1 f-1L众数是一个位置代表值,它不受数据中极端值影响。3.1.2 中位数 一组数据中按从小到大排序后,处于中间位置
3、上的变量值。它将全部数据分成两部分,每个部分各包含50%的数据。中位数是一个位置代表值,它主要用于测度定序数据的集中趋势。也适用于数值型数据。但不适用于定类数据。将全部数据排序后,如果项数是奇数,则正中央的那一项即为中位数;如果项数是偶数,则正中央的那两项的平均值即为中位数。例 3.1 (1)32,42,46,46,54 Me=46 (2)48,75,80,84,88,90,95,100 Me=(84+88/2=86 课堂练习求出下列两组数据的中数:(1)2,15,8,3,4,1,3,9,4,3,5(2)2,3,4,4,5,6,7,9,11,21分位数分位数(1)百分位数百分位数(Percen
4、tile):第m百分位是这样一个值,它使得至少有m%的数据小于或等于这个值,且至少有(100-m)%的数据项大于或等于这个值。(2)四分位数四分位数(Quartile):将数据划分为4部分,每部分各占25%的数据项,这种划分的临界点即为四分位数。有三个四分位数分别为:QL,Me,QU(3)十分位数十分位数(Decile):将数据划分为10个部分,每部分占十分之一的数据项。其划分的临界点为十分位数。25%25%25%25%QL Me QU计算第计算第m百分位步骤:百分位步骤:第一步:从小到达排列原始数据;第二步:计算指数i i=(m/100)n,n为项数,m为所求的百分位的位置。第三步:若i不是
5、整数,将i向上取整;若i是整数,则第m百分位数是第i项与第(i+1)项数据的平均值。例3.2 有12个职员薪金的数据,求第85和第50百分位数。解:(1)将12个数据从小到大排序如下:2210 2225 2350 2380 2380 2390 2420 2440 2450 2550 2630 2825 (2)i=(m/100)n=(85/100)12=10.2 (3)由于i=10.2不是整数,向上取整,所以第85百分位数对应的是第11项,其值为2630。同理,计算第50百分位(中位数)。i=(50/100)12=6,是整数,第50百分位数是第6项和第7项的平均值,即 (2390+2420)/2
6、=2405。百分位数分数和百分等级分数百分位数分数和百分等级分数百分位分数百分位分数:次数分布中对应于某个特定百分点的原始分数。第m个百分点就是这样一个点,次数分布中有m%的数据小于等于这个数,有(100m)%的数据大于等于这个数。记为Pm百分等级分数百分等级分数:次数分布中低于某个原始分数的次数百分比,用PR表示。百分位分数是先确定某个百分点m,然后去求相应的百分位分数Pm。而求百分等级分数正好相反,事先知道次数分布中的一个原始分数,再求该分数在分布中所处的相对位置。分数分组次数累积次数累积百分数90-9458-8980-8475-7970-7465-6960-6455-5950-5445-
7、4940-4435-3930-3425-2920-2415-1910-145-90-41327517098134131125149136134126138139147151982671900188718601809173916411507137612511102966832706568429282131337100.0099.3297.8985.2191.5386.3779.3272.4265.8458.0050.8443.7937.1629.8922.5814.846.891.740.37某市招干考试分数分布表某市招干考试分数分布表分数分组次数累积次数累积百分数90-9458-8980-84
8、75-7970-7465-6960-6455-5950-5445-4940-4435-3930-3425-2920-2415-1910-145-90-41327517098134131125149136134126138139147151982671900188718601809173916411507137612511102966832706568429282131337100.0099.3297.8985.2191.5386.3779.3272.4265.8458.0050.8443.7937.1629.8922.5814.846.891.740.37课堂练习:课堂练习:1、(1)m=50
9、,Pm=?(2)m=75,Pm=?2、(1)x=60,PR=?(2)x=52,PR=?3.1.3 均值均值均值(Mean)也称算术平均数(Arithmetic mean),是全部数据的算术平均。主要适用于定距数据和定比数据,但不适用于定类、定序数据。1、简单平均(Simple mean):未分组的原始数据 设一组数据为X1,X2,,XN算术平均值的优点算术平均值的优点:反应灵敏;确定严密;简明易解;计算简单;符合代数方法进一步演算;较少受抽样变动的影响;算术平均数的缺点算术平均数的缺点:易受极端值的影响;若出现模糊不清的数据时,无法计算算术平均数;适用算术平均数的条件要求适用算术平均数的条件要
10、求:数据必须是同质的,即同一种测量工具所测量的某一特质;数据取值必须明确;数据离散不能太大。2、加权均值(Weighted mean):用于组距分组数据 设原始数据被分成K组,各组的组中值分别为X1,X2,XK,各组变量值出现的频数分别为F1,F2,FK,则均值为:均值的两个性质:(1)各变量值与其均值离差之和等于零。即(2)各变量值与其均值的离差平方和最小,即3、调和平均数:定比数据总量一定时,求平均值。如路程一定,速度不同,求平均速度。例3.2 上行速度为30公里/小时,下行速度为45公里/小时,求全程的平均速度?4、几何平均数(Geometric mean):定比数据N个变量值相乘积的N
11、次方根。几何平均数用于计算平均发展速度、平均增长率、学习记忆的平均进步率、学校经费平均增加率、平均人口出生率等等。例3.3 三种股票,1996-1999年的收益率分别为4.5%,2.0%,3.5%,5.4%,计算四年内的平均年收益率。解:平均年收益率为GM-1=103.84%-100%=3.84%若涉及到的数据为,X0为初始(基数)值,N为年份数,XN为最后年份的数值,则平均年增长率为例3.4 1949年中国人口为4.7亿,1994年为12亿,求人口的年增长率。年增长率为2.10483%3.1.4 众数、中数和均值的比较1、众数、中数和均值的关系对称:Mo=Me=X 右偏:MoMeX 左偏:X
12、MeMo 2、众数、中数、均值的特点与应用场合众数是一组数据分布的峰值所对应的随机变量的值,它是一种位置代表值,不受极端值的影响。缺点是不具有唯一性。它主要用于定类数据的集中趋势度量;中位数是一组数据中间位置上的代表值,特点是不受数据极端值的影响。主要适合于定序数据的集中趋势的测度值;均值是对于数值型数据计算的,而且利用了全部数据信息,它具有良好的数学性质,应用比较广泛。缺点是易受极端数据的影响,对于偏态分布数据,均值代表性较差。当数据为偏态分布,特别是偏度较大时,应选择众数或中位数等位置代表值。表3.2 数据的类型和所使用的集中趋势测度值*表示该数据类型最适合用的测度值3.2 离中趋势(离散
13、程度)的度量 数据离中趋势是表示数据分散程度的一组统计量,反映的是各变量值远离其中心值的程度。表示数据离中趋势的测度有:四分位差方差标准差极差(全距)平均差变异系数(离散系数):相对离散程度3.2.1 四分位差四分位差 四分位差(Quartile deviation)是上四分位数与下四分位数之差的一半,用QD表示,QD=(QU-QL)/2 四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;反之,越分散。四分位差的大小在一定程度上说明了中位数对一组数据的代表程度。四分位差适用于测度定序数据的离散程度。3.2.2 极差和平均差极差和平均差1、极差(range)也称全距,是一
14、组数据的最大值与最小值之差。R=max(Xi)-min(Xi)2、平均差(Mean deviation)也称平均离差,是各变量值与其均值离差绝对值的平均数,用MD表示。计算公式为:平均差的数学性质不是最优的,在实际应用中应用较少。3.2.33.2.3 方差(方差(VarianceVariance)和)和 标准差(标准差(Standard deviationStandard deviation)方差是各变量值与其均值离差平方和的平均数,是测度定距、定比数据离散程度的最主要方法。离差:也叫离均差,离差平方和(SS):1、总体方差和标准差方差(2):未分组数据:组距分组数据:标准差:方差的平方根 未
15、分组数据:组距分组数据:例3.3 未分组数据求方差和标准差:2=10/6=1.67,=1.29 用原始数据直接求方差和标准差:上例中课堂练习课堂练习1、分别求下列各组数据的方差、标准差(1)15,16,13,11,12,10,11(2)5,6,3,1,2,0,1(3)10,12,6,2,4,0,2方差、标准差的性质:(1)若y=x+c,x和y是随机变量,c为常数,则(2)若y=cx,c为常数,则2、样本方差与标准差方差:未分组组距分组标准差:未分组:组距分组:样本方差为什么要除以(样本方差为什么要除以(n n1 1)与自由度(degrees of freedom)有关。自由度是数学名词,在统计
16、学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限制,就只有(nk)个自由度了。计算样本方差时,n个变量值本身有n个自由度。但受到样本均数的限制,任何一个“离均差”均可以用另外的(n1)个“离均差”表示,所以只有(n1)个独立的“离均差”。因此只有(n1)个自由度。课堂练习课堂练习下列数据是从某个总体中抽取的一个随机样本,求该样本数据的方差和标准差。10,8,8,6,7,5,9,5,4,6样本方差与总体方差的区别:(1)在计算上,总体方差是用数据个数或总频数去除离差平方和,而样本方差则用样本数据个数或总频数减一去除离差平方和;(2)样本方差是统计量,
17、用S2表示;总体方差是总体参数,用2表示。(3)当n很大时,S2与2相差很小,前者是后者的无偏估计。3、方差与标准差的意义方差与标准差是表示一组数据离散程度的最好的指标。其值越大,说明离散程度大,其值小说明数据比较集中。具有以下优点:(1)反应灵敏。(2)由计算公式严格确定;(3)容易计算;(4)适合代数运算;(5)受抽样变动的影响小,即不同样本的标准差或方差比较稳定;(6)简单明了;(7)具有可加性。可以把总变异分解为不同来源的变异。(8)各变量值对均值的方差小于对任意数的方差。即:23时为尖峰分布;a43时为平峰分布.描述性统计量:平均值 最大值样本方差 最小值标准差 总和 标准误 计数中位数众数峰度偏度极差(范围)本章结束本章结束