《描述统计.ppt》由会员分享,可在线阅读,更多相关《描述统计.ppt(133页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 第二讲第二讲 描述统计描述统计n一、统计图表n二、集中量n三、差异量n四、相关量n在整理数据的过程中,第一步是对数据的特点和种类加以分析,制定出简单明了的统计图表。统计表和统计图是在表示数据上非常有用的两种不同形式。它们的优点都在于一目了然,使它所欲表现的信息容易被人们理解和接受。统计表n(一)什么是统计表n(二)统计表的构造和编制n(三)统计表的种类n统计表n构成:统计表一般由标题、表号、标目、表注等构成。横标目的总标目(亦可空白)纵标目(一般设谓语)横标目数字表的标题?注脚:说明资料来源等 X X X(顶线)(底线)统计表基本格式表一:数学焦虑、数学态度、数学投入动机基本情况分析学习经验
2、nM平均数SD标准差anx数学焦虑30083.78023.821att数学态度300101.8617.486inv数学投入动机30039.2837.731统计图n(一)统计图的功用(一)统计图的功用n所谓统计图就是依据数字资料,应用点、线、面、体、色彩导的描绘制成整齐而又规律,简明而又知其数量的图形。统计图一般采用直角坐标系,横坐标用来表示事物的组别或自变量X,纵坐标常用来表示事物出现的次数或因变量Y.(二)统计图的结构与制图要点(二)统计图的结构与制图要点n图号及图题 n图目n图形图形 n图注图注第一节 统计表与统计图n复式条形图n圆形图(饼图)圆形图(饼图)n折线图4.线条图5.频数颁布直
3、方图图.4中考化学统计成绩直方图6.累积频数图图.5 2004年中考化学抽样得分情况累积频数图 10 20 30 40 50 60 70 80 90 100图2.6:高一语文7、面积图面积图二、二、集中量数集中量数n集中量是代表一组数据典型水平或集中趋势的量。n常用的集中量有平均数、中位数和众数。一、平均数n1、算术平均数n2、加权平均数n1、算术平均数n简称为平均数或均数(Mean)。n例如,求某小组10个学生的数学测验分数78,79,62,84,90,71,76,83,98,77的平均数。表一表一 高一(高一(2)班)班30名学生语文、数学、英语期末考试成绩名学生语文、数学、英语期末考试成
4、绩 (三科成绩均服从正态分布)学号语数 英学号语数英学号语数英018793851180727621676571026567741276818222807883037372801366707323848795049486821453576024867775058078761544525325616264067875651649504526687274077580761774818027726966086360581869707328788688095866671973747229828178107074742052435430767585n缺点:n易受极端数据的影响。n 若出现模糊不清数据时,无
5、法计算平均数。n此外,必要注意,凡不同质的数据不能计算平均数。2、加权平均数n(1)加权平均数的概念n加权平均数是不同比重数据(平均数),nW表示各观察值的权数;nX表示具有不同比重的观察值。(2)加权平均数的计算方法n例如,某年级各班的一次数学考试成绩如下:一班45人平均分为80;二班50人平均分为70;三班40人平均分为65;四班50人平均分为80;五班60人平均分为65,求全年级的总平均分。中位数n中中数数,又称中点数,中位数。符号为Md中数是指位于一组数据中较大一半与较小一半中间位置的那个数。n中数的求法根据数据是 否分组,而有不同的方法。n例1有下列9个数,依大小排列为4、7、8、9
6、、10、11、12、13、14(N=9)n(N+1)/2=5,序列第五的数据是10,则该组数据的中数是10。n例2有下列8个数,依大小排列为:n2、3、5、7、8、10、15、19(N=8)序列为N/2=4者是7,序列为N/2+1=5者为8,则其中数为(7+8)/2=7.5。n从以上两例可以看出,求中数不受极大值与极小值的影响,而决定中数的关键是居中的那几个数据的数值大小。n例3有以下重复数列(N=9)依大小排序:n2、3、5、5、7、7、7、11、13中数的意义与应用n优点:计算简单,容易理解,中数的概念简单明了。n缺点:它反应不够表敏;n计算中数时,受抽样的影响较大,不如平均数稳定;n中数
7、乘以总数与数据的总和不相等;n中数不能作进一步代数运算等等。n在一些特殊情况下,它的应用受到重视。这些特殊情况是:当一组观测结果中出现两极端数目时。当次数分布的两端数据或个别数据不清楚时,只能取中数作为集中趋势的代表值。当需要快速估计一组数据的代表值是,也常用中数。众数众数n众数(Mode)又称为范数,密集数,通常数等,常用符号M0表示。众数是指在次数分布中出现次数最多的那个数的数值。n只凭观察找出出现次数最多的数据就是众数。n5、8、9、8、4、3、8、1、8、4众数的意义与应用n众数的概念简单明了,容易理解;n但它不稳定,受分组的影响,亦受样本变动的影响;n反应不够灵敏,观察众数,不严格计
8、算而来,用计算方法所得众数亦是一个估计值。同时不能作进一步代数运算。n众数也不是一个优良的集中量数,应用也不广泛。n但在下述情况下也常有应用:当需要快速而粗略地寻求一组数据的典型情况时;当一组数据出现同质的情况时,可用众数表示;3、当次数分布中有两极端的数目时,有时也用众数(一般用中数);当粗略估计次数分布的形态时,有时用平均数与众数之差,表示次数分布是否偏态的指标。平均数、中数、众数之间的关系平均数、中数、众数之间的关系n在一个正态分布中,平均数、中数、众数三者相等,因此在数轴上三点重合。n在正偏态分布中MMdM。n在负偏态分布中MMdM。n平均数为一个平衡点,是一组数据的重心。它使数轴保持
9、平衡,即支点两侧的力矩是相等的。n中数:只使其两侧的数据个数相同。n众数:是指次数出现最多的,即重量较大的那个数据。SPSSnAnalyze-descriptive stastistics n-frequencies (descriptives)三、差异量数n对于数据变异性即离中趋势进行度量的一组统计量,称作差异量数,这些差异量数有标准差或方差,全距,平均差,四分差及各种百分差等等。n集中量数是指量尺上的一点,是点值,而差异量数是量尺上的一段距离,只有将二者很好结合才能对一组数据的全貌进行清晰的描述。(一)全距(R)n最大值与最小值之差(三)方差与标准差方差与标准差n方差(Varance)也称
10、变异数、均方。作为统计量,常用符号S2,x2表示,作为总体参数,常用符号2表示。n标准差(Srandard deviation)即方差的平方根,常用S或SD,x表示。若用表示,则是指总体的标准差。1、方差与标准差的计算、方差与标准差的计算n问题1:某班甲乙两组在一次测验中的成绩分别为65,68,71,72,74(均分为70分)和 30,50,86,90,94(均分为70分)。如何评价两组的学习情况?又如:某某研究者对实验班用计算机辅助教学,而对照班仍用传统的讲授方式进行教学,期末进行统一测试,两班学生的成绩如下,试比较两种授课方式产生的效果有何不同?总平均数=81.81平均分标准差D方差和平方
11、和实验班(45)83.76 5.471.9529.92 3853324107对照班(46)79.82 6.361.9940.45 35922885442、方差与标准差的意义方差与标准差的意义n方差与标准差是表示一组数据离散程度的最好指标,其值越大,说明离散程度大,其值小,说明数据比较集中,它是统计描述与统计分析中最常应用的差异量数。它基本具备一个良好的差异量数应具备的条件:n(1)反应灵敏;n(2)有一定的计算公式严密确定;n(3)容易计算;n(4)适合代数运算;n(5)受抽样变动的影响小,即不同样本的标准差或方差比较稳定;n(6)简单明了;n(7)具有可加性。(四)差异系数(相对差异量)n在
12、对不同样本的观测结果的离散程度进行比较时,在下列情况时:n(1)两个或多个样本所测的特质不同,即所使用的观测工具不同;n(2)即使使用的是同一种观测工具,但样本的水平相差较大时。n差异系数,又称变异系数、相对标准差等,通常用符号CV表示,其计算公式如下:n例题:某校期末考试语文平均成绩为69.3分,标准差为11.2分;英语平均成绩为94.8,标准差为13.8分。问哪一学科离散程度大?语文的离散程度大n某市区入学男童(7岁组)体重的平均值为20.37kg,标准差为2.16kg;身高的平均值为113.64cm,标准差为4.04cm。问身高与体重那个差异大?由公式可得:体重CV10.6%身高CV3.
13、56%又例:(五)标准分(1)概念:标准分是将原始分数(测验分数)与平均分数相减,再除以标准差所得的商。甲同学:z(语文)=(73-48.3)/13.9=1.8 z(数学)=(79-66.9)/18.5=0.7(2)标准分特点n标准分是以标准差为单位的,故称为标准分。它是一种相对地位分,即表明原始数据在团体分布中的地位。n标准分有正负之分,一般在-3,3中(几率为99.74%)。n标准分的平均数为0,标准差为1。n标准分可比性根据在于标准正态分布。标准分数的优点n1、可比性n2、可加性n3、明确性n4、稳定性(3)标准分应用n比较各个学生成绩在班级中地位;n当Z=0,X=X;n当Z0,X Xn
14、当Z0,X Xn比较某个学生两科或多科测验中所得分的优劣,精确地计算学生的总成绩。n计算不同质的观测值的总和或平均值,以表示在团体中的相对位置n问题问题4:下表中是某班甲乙两同学的期末:下表中是某班甲乙两同学的期末考试成绩,问:(考试成绩,问:(1)甲同学的语文和数)甲同学的语文和数学哪科相对较好?学哪科相对较好?(2)甲同学和乙同)甲同学和乙同学相比,哪一个学业成绩较好?学相比,哪一个学业成绩较好?甲 生乙 生项目项目个人个人成绩成绩所在班级所在班级平均成绩平均成绩标准差标准差Z Z个人个人成绩成绩所在班级所在班级平均成绩平均成绩标准差标准差Z Z语文语文737348.348.313.913
15、.9626248.348.313.913.9数学数学797966.966.918.518.5858566.966.918.518.5英语英语757567.267.21414808067.267.21414合计合计227227227227甲 生乙 生项目项目个人个人成绩成绩所在班级所在班级平均成绩平均成绩标准差标准差Z Z个人个人成绩成绩所在班级所在班级平均成绩平均成绩标准差标准差Z Z语文语文737348.348.313.913.91.81.8626248.348.313.913.91.21.2数学数学797966.966.918.518.50.70.7858566.966.918.518.5
16、0.80.8英语英语757567.267.214140.60.6808067.267.214140.90.9合计合计2272273.13.12272272.92.9表示标准测验分数n在实际应用中,通常把标准分数Z通过线性变换,转到更大的标准分数量表上,其一般转换公式为:如 T=a+bZn上式中,a和b为选定的两个常数,Z为标准分数,T为线性变换的标准分数。如:n教育与心理测验中的T分数:T=50+10Z n韦氏智力量表智商(离差智商):IQ=100+15Z n美国大学入学考试报告分数:CEEB=500+100Z n美国教育测验中心举办“托福”考试:TOEFL=500+70Z n练习:20名学生
17、的综合测验成绩分别为40,60,71,72,73,73,77,77,77,79,83,85,86,88,89,90,92,94,98,103。试将其转换为标准分数。(六)百分位差(相对地位量数)n1、百分位数n是指量尺上的一个点,在此点以下包括数据分布中全部数据个数的一定百分比。第P个百分位数就是指在其值为P的数据以下,包括分布中全部数据的百分之P,其符号为P。n百分位差是指两个百分位数之差,常用的是P90-P10,,P93-P7表2:30名学生英语成绩频数分布表分数组中值XCfFb70-7223065-6752860-5292355-5781450-526630求P90,P75,P102、百
18、分等级分数PRn百分位数是预先确定分布中的某个百分点P,然后根据这个百分点去求相应的百分位数;n百分等级分数正好相反,它是事先知道分布中的一个原始分数,再求这个原始分数在分布中所处的相对位置百分等级。n百分等级分数指出原始数据在常模团体中的相对位置,百分等级越小,原始数据在分布中的相对位置越低,百分等级越大,原始数据在常模团体中的位置越高。3、四分位差Qn是指在一个次数分配中,中间50%的次数的全距的一半。在一组数据中,它的值等于P25到P75距离的二分之一。这个差异量数反映数据分布中中间50%的数据的散布情况。n四分位差是第三四分位(P25)与第一四分位n(P75)之差的一半。它的计算公式为
19、n百分位量表具有计算简便,意义明确,对各种测验普遍适用的优点。n但百分位量表的主要缺点是:它是一个顺序量表,不具有相等单位,从而不能作进一步的数学运算,无法作进一步的统计分析;n另外,由于百分位量表的分布呈长方形,当测验分数的分布为正态或接近正态时,百分位量表将夸大分布中间的原始分数的差异而缩小分布两端的原始分数的差异。差异量数的选用n(一)优良差异量数具备的标准n1、是根据客观数据资料获得的n2、是根据全部观测值计算得出来的n3、应当简明,容易理解n4、计算方便、容易、迅速n5、取样具有相对恒常性n6、能够采用代数方法计算(二)各种差异量数优缺点比较n标准差计算最严密,考虑到了每一个数据,测
20、量具有代表性,适合代数法处理,受抽样变动的影响较小,反应灵敏。缺点是较难理解,运算较繁琐,易受极端值的影响。n方差的描述作用不大,但是由于它具有可加性,是对一组数据中造成各种变异的总和的测量,通常采用方差的可加性分解并确定属于不同来源的变异性,并进一步说明各种变异对总结果的影响。因此,方差是推论统计中最常用的统计量数。n全距详算简便,容易理解,适用于所有类型的数据,但它易受极值影响,测量也太粗糙,只能反映分布两极端值的差值,不能显示全部数据的差异情况,仅作为辅助量数使用。n百分位差易理解,易计算,不易受极值影响,但不能反映出分布的中间数值的差异情况,也仅用作补助量数。n四分位差意义明确,计算方
21、便容易,对极端值不敏感,较不受极端值影响。当组距不确定,其他差异量数都无法计算时,可以计算四分位差。但是,四分位差无法反映分布中所有数据的离散状况,不适合使用代数方法处理,受抽样变动影响较标准差大。n通过比较,可以发现标准差、方差价值较大,它们的应用也比较广泛,因此,一般称标准差、方差为高效差异量。相比较而言,其他差异量数,如全距、平均差、百分位差和四分位差等缺点比较明显,应用也受到限制,故称他们为低效差异量数。如何选用差异量数n1、当样本是随机取样时,S、Q、R,这几个差异量数的可靠性依次降低n2、当要求计算要容易、快捷时,R、Q、S依次变得繁杂n3、当要求统计量进一步使用时,S远远胜过其他
22、差异量数n4、在偏态分布中,Q比S更常用n5、当分布是截尾分布时,只有Q能正确指出分布的变异性n6、在选用差异量数时,应考虑选用合适的集中量数n要想描述一组数据的全貌,必须同时使用集中量数和差异量数。因为集中量数描述数据的典型性特点,差异量数描述的是数据的变异特点。n1、当选用中数作为描述一组数据的集中量数时,差异量数通常选用Q或其他百分位差为宜,因为它们计算方法的原理是一致的,都是用插值法求得的。n2、大多数情况下,人们更多地是用平均数和标准差一起来描述一组数据的全貌。四、相关量教学目标1、识记相关、散点图、相关系数的类别和含义2、理解各类相关系数的意义和适用条件3、熟练掌握常用相关系数的计
23、算方法4、恰当应用各类相关系数进行相关分析学习重点1、相关的基本类型2、各种相关系数的适用条件和计算方法3、积差相关、等级相关、质量相关、品质相关的应用四、相关系数n(一)什么是相关n一种是因果关系因果关系,即一种现象是另一种现象的因,而另一种现象则是果。n第二种是共变关系共变关系,即表面看来有联系的两种事物都与第三种现象有关,这时两种事物之间的关系,便是共变关系。n第三种是相关关系相关关系,即两类现象在发展变化的方向与大小方面存在一定的关系,但不能确定这两类现象之间哪个是因,哪个是果;也有理由认为这两者并不同时受第三因素的影响,即不存在共变关系。n相关相关是指具有相关关系的不同现象之间的关系
24、程度程度相关系数n 1、定义:相关系数是两列变量间相关程度的数字表现形式,或者说是表示相关程度的指标。作为样本间相互关系程度的统计特征数,常用r表示,作为总体参数,一般用表示,并且是指线性相关而言。n 2、取值范围:相关系数的取值介于n-1.00至至+1.00之间之间,常用小数形式表示。常用小数形式表示。n第一种是两列变量变动方向相同,即一种变量变动时,另一种变量亦同时发生或大或小与前一种变量同方向的变动,这称为正相关正相关。0r 1n 相关关系第二种相关情况是负相关负相关,这时两列变量中若有一列变量变动时,另一列变量呈或大或小但与前一列变量指向相反的变动。-1 r0n 相关关系第三种相关是零
25、相关零相关,即两列变量之间无关系。这种情况下,一列变量变动时,另一列变量作无规律的变动,属零相关,即无相关关系,二者都是独立的随机变量。相关关系正相关0r 1 r=1:完全正相关负相关-1 r0 r=-1:完全负相关相关关系零相关 r=0表表4.14.1相关系数与相关程度表一览表相关系数与相关程度表一览表|r|00.30.3|r|0.50.50.81.0 相关程度零相关微相关切实相关密切相关高度相关完全相关(二)积差相关n概念n 积差相关,又称积矩相关,是英国统计学家皮尔逊于20世纪初提出的一种计算相关的方法,因而也称皮尔逊相关,是求直线相关的基本方法。n适用范围n1、两列数据正态连续变量。n
26、2、其次,两列变量之间的关系是直线性的。n3、n30n 如何判断两列变量之间的相关是否直线式如何判断两列变量之间的相关是否直线式,可可作相关散布图进行初步分析作相关散布图进行初步分析n相关散布图是以二列变量中的一列变量为横坐标,以另一列变量为纵坐标,画散点图。如果所有散点分布呈椭圆型,则说明二变量之间呈线性关系,如果散点呈弯月状(不论弯曲度大小或方向),说明二变量之间呈非线性关系。线性关系非线性关系计算积差相关的基本公式积差相关系数的定义公式:积差相关系数的定义公式:积差相关系数的定义n用原始数据计算:用特征量计算:n例:10名学生的语文高考成绩和大二的大学语文成绩如下,问二次成绩的相关程度如
27、何?n表4.2高考语文成绩7471 72 68 76 7367 70 65 74大学语文成绩7675 71 70 76 7965 77 62 72=(51467-10*71*72.3)/(10*3.317*5.178)=0.780由计算器算得:X=71,Y=72.3 X=3.317,Y=5.178,xy=51467课堂练习课堂练习:求以下几何(求以下几何(X)与代数()与代数(Y)的)的积差相关系数。积差相关系数。X 79 75 77 73 79 78 81 76 72 70Y 80 82 76 77 77 84 81 72 70 75(三)等级相关n在心理与教育领域的研究中,有时搜集到的数据
28、不是等距或等比的测量数据,只能是具有等级顺等级顺序的测量数据序的测量数据,另外,即使搜集到的数据是等距或等比的数据,但其总体分布不是正态,不满足求积差相关的要求,在这两种情况下,欲求两列或两列以上变量的相关,就要用等级相关,这种相关方法对变量的总体分有不作要求,故又称这种相关法为非参数的相关方法。本节所讨论的等级相关,也是线性相关,至于非线性关系则不包括在内。斯皮尔曼等级相关n适用资料n 斯皮尔曼等级相关,是等级相关的一种。它适用于只有两列变量,而且是属于等级变量性质,具有线性关系的资料。如果是属于等距或等比性质的变量,若按其取值大小,赋以等级顺序,也可计算等级相关。因而,有些虽属等距或等比变
29、量性质但其分布不是正态的资料,不能用积差相关的方法求相关,但能计算等级相关。n斯皮尔曼等级相关常用符号rR表示。2、基本公式n斯皮尔曼等级相关公式如下n式中D为各对偶等级之差,D2是各D平方之和,N为等级数目.nN不一定必须大于30n计算步骤为:n1、给两组数据赋予等级(从大到小或从小到大)n2、计算等级之差例:10个学生数学和物理成绩的等级相关分析序号序号数学分数数学分数X X物理分数物理分数Y YX X等级等级Y Y等级等级D DD D2 21949311002909222.5-0.50.25386923.52.511486703.57-3.512.255728254116707665.5
30、0.50.257686579-248667685.52.56.25964689811106160101000N=10N=1026课堂练习课堂练习:校方评价一个年级校方评价一个年级8位物理教师位物理教师课堂教学效果所排列的名次课堂教学效果所排列的名次(效果越好等级效果越好等级越高越高),和这,和这8个班级学生物理统一测验的个班级学生物理统一测验的平均分数如下表,问教师课堂教学效果与平均分数如下表,问教师课堂教学效果与学生测验成绩是否存在相关?学生测验成绩是否存在相关?课堂教课堂教师效果师效果得分得分 4 2 8 7 3 6 1 5各班平各班平均分数均分数 72 54 80 72 63 69 51
31、 69(四)质与量相关n质与量的相关是指一列变量为等比或等距的测量数据,另一列变量是按性质划分的类别,欲求这样两列变量的直线相关,称之为质量相关,包括:点二列相关,二列相关及多系列相关。点二列相关 如果两列变量中有一列为等距或等比的测量数据而且其总体分布为正态,另一列变量只是二分称名变量。n点二列相关多用于编制是非题测验时评价测验内部一致性等问题.这类测验题每题只有两个答案,答对得分,答错不得分,这时统计整个测验的得分,则得到一列等距或等比性质的连续变量,而每一题目的对错就成为二分名义变量,欲求每一题目与总分的相关(这称为每一题目的区分度),就要应用点二列相关。点二列相关的计算公式n在来自总体
32、的两个变量中,一个变量是连续变量,另一个变量是两分变量(男、女;对、错;及格、不及格),点二列相关研究这样两个变量之间的相关关系。相关系数p、q两类变量的平均值连续变量的标准差另一类别频数的比例一类别频数的比例例题:下表为某一测验中10名考生的卷面总分和一道选择题的得分,试求该选择题的区分度.(与部分的相关)考生ABCDEFGHIJ选择题得分1111001001卷面总分75 57 73 65 67 56 63 61 65 67课堂练习课堂练习:高等教育自学考试已婚与未高等教育自学考试已婚与未婚学员的高等数学成绩如下表,问婚否婚学员的高等数学成绩如下表,问婚否与成绩是否存在相关?与成绩是否存在相
33、关?成绩成绩72 81 64 93 67 70 78 83 79 71 77 82 80 76 58 66 72 67 74 78 已婚已婚1未婚未婚01 0 0 0 0 1 0 1 1 1 0 0 1 1 1 1 1 1 1 0二列相关n适用的资料n二列相关是两列均属于态分布。但其中一列变量为等距或等比的测量数据,另一列变量虽然也呈正态分布,但它被人为地划分为两类.n 二列相关在试验中常用于对项目区分度指标的确定.有时某一项目(或称某一题目根据一定的得分划分为对、错或通过、不通过两类时,因某一项目可得不同的分数,这些分数的分布为正态,是人为地依一定标准将它划分为两类。二者的区别主要是二分的变
34、量是否为正态。公式及计算n计算二列相关有两个公式.n n式中与与X是连续变量的标准差与平均数。nXp为与二分变量中某一二分变量对偶的连续变量的平均数,nXQ为与二分变量中另一二分变量对偶的连续变量的平均数,np为某一二分变量在所有二分变量中所占的比率。ny为p的正态曲线的高度,查正态表得到。n二列相关系数的取值在-1.001.00之间。绝对值越接近1.00,其相关程度越高。n例:下表为10名考生一次测验的卷面总分和一道问答题的得分,试求该题的区分度(该问答题满分为10分,因此6分和6分以上则认为通过).考生ABCDEFGHIJ卷面总分75577365675663616567问答题得分76747
35、44476nN=10,=6.12,XP=67.33,P=0.6n Xq=61.25,q=0.4nP=0.6 查正态分布表Y=.3866 课堂练习:把身高1.65m以上或以下作为划分高矮的标准,已抽得某班18位学生的体育理论课成绩如下.问该课成绩与学生身高是否有关?成绩968488829076786072748488907880929476身高矮矮矮高高矮矮高高矮矮高矮高高矮矮高解:(五)品质相关n品质相关用于表示RXC(行X列)表的两个变量之间的关联程度。n品质相关处理的数据类型一般都是计数数据,而非测量性数据。品质相关依二因素的性质及分类项目的不同,而有不同的名称和计算方法,主要有四分相关、
36、相关、列联表相关等。四分相关n适用范围:两个变量都是连续变量,且每一个变量的变化被人为地分为两种类型这样的测量数据之间的相关。通常整理成四格表。a b c d A因素A 非AB B因素 非B a+b c+d a+c b+d例:下表所列数据是调查377名学生两科测验成绩所得到的结果,假设两科成绩的分布为正态,只是人为地将其按一定的标准划分为及格、不及格两类。历史成绩合计及格不及格地理成绩及格 a124 b68192不及格C85 d100185合计209168377n 练习:45名学生跳高与跳远如下表,问跳高与跳远成绩的相关情况如何?跳远合计 达标未达标跳高达标 a8 b614未达标C11 d20
37、31合计192645系数n适用资料是当两个变量都是二分变量,无论是真正的二分变量还是人为的二分变量,都可用相关来表示。是表示两因素分类资料相关程度最常用的一种相关系数例:从体育达标测验的学生中随机抽取60人,其中男、女达标情况见下表,问本次达标测验是否与性别有关?另一类数据合计达标未达标一类数据男201232女111728合计3129练习:高中往常考试男女学生英语成绩见下表,问从总体上说,英语测验成绩与性别是否存在相关?成绩合计中等以上中等以下性别男 a15 b3146女C36 d1854合计5149100n系数的大小,表示两因素之间的关联程度。当值小于0.3时,表示相关较弱;当值大于0.6时
38、,表示较强.关于相关方向,一般由表中的ad、bc的大小来说明。负值表示一次测量中的“是”多于另一次测量的“非”。完全正相关时,全体个案落于四格表中a、d两格中;完全负相关时,全体个案落于四格表中b、c两格中。零相关时,全体个案匀称地落于四格中。但在应用相关时,一般不指出相关方向,只说明相关程度是否显著。n 对于四格表(独立样本)相关程度的描述,除常用的相关外,有时还用到其他方法。如尤尔的关联系数Q或归结系数(W)nQ=n n=这些表示二因素之间相关程度的尺度不同,数值也可能不同,但都能反映两因素之间的相关。Q=2/(1+2)列联表相关n又称均方相依系数、接触系数,一般用C表示。当两个变量均被分
39、成两个以上类别,或其中一个变量被分成两个以上类别,表示这两个变量之间的相关,称为列联相关。它是由二因素的RXC列联表资料求得,故称为列联相关。当数据属于RXC表的计数资料,欲分析所研究的二因素之间的相关程度,就要应用列联相关。计算方法n最常用的是皮尔逊定义的列联系数:n C=nX2=N(f20/nr*nc-1)n当两个因素完全独立时C为0,反之它不会超过1,但达不到1。为弥补这个缺点,Tschuprow提出了另一个公式:nT=n这个公式在RC时,T也不能达到1。例:某年级生物与化学成绩如下表,问两者的相关程度如何?化学成绩合计 65分以下65-85 80分以 上生物成绩上728 1550=nr
40、1中1073 27110=nr2下1322 540=nr3合计30=nc1123 =nc2 47=nc3200=NnX2=N(f20/nr*nc-1)n =200*(72/50*30+102/110*30+52/40*47)n =14.80nC=n =0.262n当双变量的测量型数据被整理成次数分布表后,也可用列联相关系数表示两变量的相关程度。此时,当分组数目R5,C5,而且样本N又较大,计算的列联相关系数C与积差相关系数很接近。作业:45名学生跳高与跳远如下表,问跳高与跳远成绩的相关情况如何?跳远合计 达标未达标跳高达标 a8 b614未达标C11 d2031合计192645(六)相关系数的
41、选用与解释n选择计算相关系数的方法取决于要处理的数据性质类别以及某一相关系数需要满足的假设条件。n选择合适的相关系数要考虑:n1、测量产生数据的类别、属性及研究问题的重点。n2、对两种测量数据依次作出判断。n3、根据相关系数的适用范围采用适当的相关系数。相关系数的解释n相关系数是一个指标值,它表示两个变量之间的关系程度,它不是等距的测量值,因此不能用倍数关系来解释。n相关系数值的大小表明了测量数据相互间的相关程度;n当两个变量之间的关系受到其他变量的影响时,两者之间的高强度相关很可能是一种假象。n偏相关和部分相关是研究消除第三变量(或其他多个变量)影响后的两变量之间相关程度的方法。相关系数的用
42、途n可以用于确定测验的信度系数和效度系数,用于地测验的项目区分度进行分析。同时,相关数值的大小,因为不同类型的测验,它所表示的价值和意义也有所不同。1、假设两变量为线性关系,计算下列各种情况的相关时,应用什么方法?n(1)两列变量是等距或等比数据且均为正态分布;n(2)两列变量是等距或等比数据但不为正态分布n(3)一变量为正态等距变量,另一列变量也为正态变量,但人为分为两类n(4)一变量 为正态等距变量,另一列变量为二分名义变量n(5)一变量为正态等距变量,另一列变量也为正态变量,但人为分为多类n(6)两变量均以等级表示2、下表是平时两次考试的成绩分数,假设其分布为正态,分别用积差相关0.81
43、97与等级相关0.7939方法计算相关系数,并回答,就这份资料用哪种相关法更恰当?被试12345678910A86587964914855823275B835289788568477625563、下列两变量为非正态,选用恰当方法计算相关0.973被试12345678910X13121010866552Y141111117754444、问下表中成绩与性别(1=男,2=女)是否有关?-0.789被试12345678910性别1221211122成绩B83 91 95 84 89 87 86 85 88 925、下表是9名被试评价10名某种天文学家的等级评定结果,问这名被试的等级评定是否具有一致性?S=3216.5,W=0.481被试被评价者ABCDEFGHIJ1124396587102142267310893134228961074134226108795192263481076149256731087135102697848135764810299128496375106、将第五题的结果转化成对偶比较结果,并计算肯德尔一致性系数0.3197、从研究生入学考试中,随机抽取60人,其大学应届与历届毕业生录取情况如下表,问应届与历届大学毕业生同研究生录取与否的相关情况如何?0.23应届录取未录取历届录取201232未录取1117283129