《心理统计学笔记(33页).doc》由会员分享,可在线阅读,更多相关《心理统计学笔记(33页).doc(32页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、-心理统计学笔记-第 32 页心理统计学笔记云南师范大学09级应用心理学专业本科学员:勾洪斌 098150003绪 论一、统计学、教育与心理统计学统计学是研究统计原理和方法的科学。具体地说,它是研究如何搜集、整理、分析反映事物总体信息的数字资料,并以此为依据,对总体特征进行对待的原理和方法。教育与心理统计学是应用统计学的一个分支,是数理统计学与教育学、心理学的一门交叉学科,是专门研究如何搜集、整理、分析在教育和心理方面由实验或调查所获得的数字资料,并如何根据这些数字资料所传递的信息,进行科学推论找出客观规律的一门科学。二、学习教育与心理统计学的意义(一)教育与心理统计学为教育与心理科学研究提供
2、了一种科学方法(二)教育与心理统计学是教育与心理科研定量分析的重要工具(三)广大教育和心理工作者学习教育教育与心理统计学的具体意义 (1)是教育与心理科学研究的需要。(2)是科学化教育管理的需要。(3)为学习教育与心理测量学、教育评价学打下基础。(4)是科学训练的需要。统计学所使用的推理及思考问题的方法是科学研究中常用的方法,统计方法的训练也是一种科学方法的训练,能学会科学的推理与思考方法,对为了研究工作是非常必要的。三、教育与心理统计学的基本内容教育与心理统计学的内容,按其目的与功能可分为描述统计、推断统计、多元统计分析、实验设计四部分。描述统计学。主要研究如何将实验或调查得到的大量数据简缩
3、成有代表性的数字,使其能客观、全面地反映这组数据的全貌,将其所提供的信息充分显现出来,为进一步统计分析和推论提供可能。推断统计学。推断统计是以描述统计为基础,以解决由局部到全体的推论问题,即通过对一组统计量的计算分析,推论该组数据所代表的总体特征。实验设计。实验者为了揭示实验中自变量与因变量的关系,在实验之前所制订的实验计划,称实验设计。描述统计学、推断统计学以及实验设计这三部分内容不是截然分开的,而是具有密切联系的。描述统计是推断统计的基础,推断统计离不开描述统计所计算的特征数;描述统计只是对数据进行一般的分析归纳,若不进一步应用推断统计对事物做进一步的分析,有时就会使统计结果失去意义,达不
4、到统计分析的目的要求。同样,只有良好的实验设计才能使所获得的数据具有意义,进一步的统计处理才能说明问题。当然,一个好的实验设计,也必须符合基本的统计方法的要求。四、学习教育与心理统计学的几个预备性的知识(一)随机现象与随机变量在科学研究中搜集到的数据往往都是以一个个分散的数字形式出现的,即便使用同一种测量工具,观测同一事物,只要是进行多次,所获得的数据也不会完全相同。数据的这种特点叫变异性。如对同一个心理特点进行测量,只要观察多人或多次,所得到的数据就不会全然相同,这些数据总是在一定范围内变化的。造成数据上下波动的原因,出自观测过程中一些偶然的不可控制的因素随机因素。随机因素使测量产生的误差称
5、作随机误差或偶然误差。由于这种随机误差的存在,使得在相同条件下观测的结果常常不只一个,并且事先无法确定,这是客观世界存在的一种普遍现象,人们称这类现象为随机现象。随机现象的各种结果总是可以用一定的数量来表现,而且表现为实验结果数值的不确定性,因而称为变量。这种变量受随机因素的影响,呈现随机变化,具有偶然性的一面,但也具有规律性的一面。通过大量的实验或观测,这种规律性可以揭示出来。我们把这种具有变化规律的表示随机现象各种结果的变量称为随机变量。如学生的身高、体重、性别、智商、成绩等等。随机变量具有离散性、变异性与规律性的特点。(二)变量的类型 变量按照不同的划分方式可以分为不同的类型,而不同类型
6、的变量所适用的统计方法是不同的。 (1)随机变量与非随机变量 (2)连续变量与非连续变量(间断变量、离散变量) 实验数据按其是否具有连续性可划分为连续变量与非连续变量。连续变量可以在量表上的任何两点加以细分,可以取得无限多个大小不同的数值。如学生的身高、体重、智商、学科成绩等等。非连续变量在量表上的任何两点只能取得有限个数值,两个单位之间不能再划分细小单位,数字形式一般是取整数。如名次、人数等等。连续变量与非连续变量其分布规律不同,各种表列及图示方法不同,所使用的统计方法也有区别。 (3)因变量与自变量因变量是指被影响的变量,而自变量是指自由变化的能影响其它变量的变量。在教育与心理科研和实验中
7、,必须要明确研究对象,确定哪些是作为因变量来研究的,哪些是作为自变量来研究的。否则,实验设计就无从进行。 ,y是因变量,x是自变量。随机变量按性质分有如下四种:(1)称名变量(Nominal),用于说明某一事物与其它事物在属性上的不同或类别上的差异,但不说明差异的大小。如性别、年级等。(2)顺序(等级)变量(ordinal),指按事物的某一属性,把它们按多少或大小加以排列的变量。这种变量不具有相等的单位。如名次、等级评定、喜爱程度、品质等级、能力等级等。(3)等距变量(interval),是指变量之间具有相等的距离,除了有量的大小外,还具有相等的单位,但没有绝对意义上的零。如天气温度、各种能力
8、分数、智商等。只能加减,不能乘除。(4)比率变量(ratio),除了有量的大小,相等单位外,还有绝对意义上的零。如身高、体重、反应时等。可以加减乘除。(三)总体、个体、样本总体(又称母体),样本与个体是统计学中常用的名词。总体是指具有某种特征的一类事物的全体,构成总体的每个基本单元称为个体。从总体中抽取的一部分个体,称为总体的一个样本。总体与样本具有相对性。这依研究对象而定。(四)连加和 (1)连加和符号及意义 (2)连加和的性质(C为不为0的常数) 1 2 3 (3)约定:表示所有x相加。第一章 常用的统计表与图次数分布表与图一、次数分布的意义 次数分布有两层含义,一是一数据在各个不同数值点
9、上所出现的次数情况(如75分在100个人的班级中出现了8次),二是一批数据在整个取值范围内各个等距区间中所出现的次数情况(7080这个区间内出现了15次)。二、次(频)数分布表(一)简单次数分布表(连续变量)简称次数分布表,其实质是反映一批数据在各等距区组内的次数分布结构。其制表步骤如下:(1)求全距(2)决定组数(3)决定组距(4)写组限(5)次数登录(f)(6)组中值(点)。(二)相对次数分布表相对次数就是各组的简单次数(f)与总次数(N)的比值。相对次数较大的组,则说明落入该组内的数据个数占全部数据个数的比例也较多。相对次数主要能反映各组数据的百分比结构。(三)累积次数分布表(F)累积次
10、数指分数组中处于某个数值以上或以下的分数个数。在简单次数分布表中,如果把某个确定值(精确上限)以下的个数累积起来,叫以下累积(向上累积);如果把某个确定值以上(精确下限)的个数累积起来,叫以上累积(向下累积)。一般,我们所讲的是以下累积。(四)累积相对次数分布表和累积百分数分布表累积相对次数:把相对次数累积起来或累积次数除以总次数。累积相对次数等于累积相对次数乘以100。累积相对次数和累积百分数可以看出某个分数值以下的人数占了总人数的百分比结构。三、次数分布图(一)次数直方图次数直方图是由若干宽度相等,高度不一的直方条紧密排列在同一基线上构成的图形。其绘图步骤如下:(1)建立坐标系。纵轴为量尺
11、,即次数,横轴为各组分数的组中值。(2)每一直方条的宽度由组距i确定并已体现在横轴的等距刻度上,所有的直方条以各组的组中值为对称点。(3)在直方图横轴下边标上图的编号和图的题目。(二)次数多边图次数多边图是利用闭合的折线构成多边形以反映次数变化情况的一种图示方法。其绘制步骤如下:(1)纵轴和横轴的要求与制作与次数多边图相同,但要求在横轴上最低组与最高组外各增加一个次数为0的组(用组中值表示)。(2)描出各点。(3)用线段把相邻的各点依次连接起来,连同横轴上两个次数为0的点构成一闭合的多边形。当次数足够大,组距不断变小时便会形成一条光滑的曲线。即次数分布曲线。(三)相对次数直方图与多边图 不同点
12、在于纵轴是相对次数的量尺。(四)累积次数曲线图有直方图和曲线图两种,但最常见的是曲线图。其绘制步骤如下:(1)纵轴为累积次数,横轴意义不变。(2)横轴是各组的上限,纵轴是累积次数。(3)用连续光滑的曲线把点的轨迹连起来,再与横轴上最低组的下限所在点连起来,形成“S”形曲线。累积曲线图有正偏态、负偏态和正态三种。(五)累积相对次数曲线图与累积百分数曲线图与(四)同,只不过纵轴是累积相对次数或累积百分数。几种常用的统计分析图一、散点图散点图是用平面直角坐标系上点的散布图形来表示两种事物之间的相关性及联系模式。在平面直角坐标系中,横轴一般代表自变量,纵轴一般代表因变量,横轴既可以作为连续性变量的量尺
13、,也可以作为离散性变量的量尺,但纵轴一般均代表连续变量的量尺。二、线形图线形图是以起伏的折线来表示某种事物的发展变化及演变趋势的统计图。适用于描述某种事物在时间序列上的变化趋势,也适用于描述一种事物随另一种事物发展变化的趋势模式,还适用于比较不同的人物团体在同一心理或教育现象上的变化特征及相互联系。三、条形图条形图是用宽度相同的长条来表示各个统计事项之间的数量关系。与直方图不同的是,条形图通常用于描述离散性变量(如属性变量)的统计事项。四、圆形图圆形图是以单位圆内各扇形面积所占整个圆形面积的百分比来表示各统计事项在其总体中所占相应比例的一种图示方法。各统计事项在总体中的比例乘以圆周角(360度
14、),求出各相应扇形的圆心角。第二章 常用统计参数数据的集中情况指一组数据的中心位置。在教育与心理统计学中,经常用集中量数来代表一群分数水平高低,用差异量数来描写这群分数的离散程度。一群分数的集中点叫集中量数,反映这群分数在横轴上的位置,它一般作为这群分数的代表值。描写分数离散程度的量数叫差异量数。表示总体统计特征的量数称为参数,用希腊字母表示。表示样本统计特征的量数称为统计量,用英文字母表示。归纳以上描述,也就是说一组变量的次数分布特征,或者说,要描述一组变量的全貌必须计算这组变量的两方面的特征量,既:中心位置:中心位置用以度量一组数据的集中趋势,描述它们的中心位于何处,故对其数量化描述称为位
15、置度量中量数(集中量数)。离散性:反映一组数据的分散程度即次数分布的离散程度。第一节 集中量数一、算术平均数(一)含义:观测值的总和除以观测值的总次数所得的商,总体平均数用表示,样本平均数用表示。(二)计算公式:(三)加权算术平均数(1)如果已知有K个组以及每一组的平均数和这一组的样本容量,求所有值的总平均数。如,已知甲、乙、丙三班的平均数以及人数,求这三班的总平均数。甲 90分 30人乙 87分 42人丙 75分 50人(2)次数分布表(分组数据)求平均数表21组 中 值组 别次 数累积次数 828084 8 53 77 7579 10 45 72 7074 12 35 67 6569 19
16、 23 62 6064 4 4以每组组中值作为这组分数的代表值(平均数),次数作为这组的样本容量,而后参加计算,用加权平均数求法,即:也可用计算器在统计状态下计算。(四)平均数的意义与应用算术平均数是应用最普遍的一种集中量数。它是“真值”渐近、最佳的估计值。(五)算术平均数的性质 (1)所有的观测值都加上一个常数C,则总体平均数也加上C。 (2)所有的观测值都乘以一个常数C,则总体平均数也乘以一个常数C。 (3)所有的观测值都乘以一个常数C再加上一个常数d,则总体平均数也乘以一个常数C再加上一个常数d (4)离均差之和为零。 (5)在所有观测值的离差平方和中,离均差平方和最小。(六)算术平均数
17、的优缺点 优:算术平均数具有反应灵敏,确定严密,简明易解,计算简便并能作进一步的代数演算特点,较少受抽样变动的影响,是应用最普遍的一种集中量数。如果一组数据是比较准确可靠且又同质,而且需要每一个数据都加入计算,同时还要作进一步的代数运算时,一般都使用算术平均数表示集中趋势。 缺:(1)算术平均数具有易受极端数据的影响。(2)若出现模糊不清的数据时,无法计算平均数,因为计算平均数需要每一个数据都加入计算。(3)凡不同质数据不能计算平均数。所谓同质数据是指使用同一个观测手段,采用相同的观测标准,能反映某一问题的同一方面特质的数据。如果使用了不同质的计算平均数,则该平均数不能作为这一组数据的代表值。
18、例如,在教育方面,计算平均成绩时,如果各科考试的难易水平和评分标准等各不相同,这时若用总平均数表示一个学生的学习成绩,就是不准确的。二、中数()(一)定义:中数,又称中点数,中位数(Median),一组数据从大到小或从小到大排列,位于中间位置的那个数,或者说,是指位于一组数据中较大一半与较小一半中间位置的那个数。这个数可能是数据中的某一个,也可能根本不是原有的数。(二)求法(1)原始数据(未分组数据)求中数 根据中数的概念,首先将数据依其取值大小排列成序,然后找出位于中间的那个数,就是中数。有两种情况;1数据个数是奇数的情况。则取序列为第(N+1)/2的那个数为中数。2数据个数是偶数的情况。则
19、取序列为第N/2与第(N/2)+1个这两个数据的均数为中数。(2)次数分布表(分组数据)求中数 将原始数据整理成次数分布表后,求中数的原理同重复数目求中数是一样的,也是取序列中将N平分为两半的那一点的值作为中数。其具体步骤如下:1求N/2,并找出N/2(累积次数)所在的分组区间。2求含有中数那一区间以下各区间的次数和(即中数组区间下限以下的累积次数)记为3求N/2与之差。4求序列为第N/2那一点的值。 求中数的公式整理如下: 使用于向上累积次数分布表:紧邻这一组的下一组累积次数;:中数所在组的精确下限;f:表示这一组的简单次数;i:组距;N;总次数 确定中数所在组:第一个大于N/2的累积次数所
20、在组。 这样表21的中数即为:,而第一个大于的累积次数所在组是7074所在组,故分布表的中数为,(三)中数的意义及应用 优:中数是根据观测数据计算而来,不能凭主观臆定。计算简单,容易理解。 缺:反应不灵敏,两极端数据变化,对中数不产生影响;计算中数时不是每个数据都加入计算,受抽样的影响较大,不如平均数稳定;中数乘以数据的总个数与数据的总和不等;中数不能作进一步的代数运算。在一般情况下,中数不被普遍应用。但在一些特殊情况下,它的应用受到重视。这些情况是:(1)当一组观测结果中出现两极端数据时。(2)当次数分布的两端数据或个别数据不清楚时,只能取中数作为集中趋势的代表值。(3)当需要快速估计一组数
21、据的代表值时,也常用中数。三、众数()(一)含义:众数又称范数,密集数,通常数等。众数是指在次数分布中出现次数最多的那个数的数值。它也是一种集中量数,也可用来代表一组数据的集中趋势。(二)求法(1)直接观察求众数不论是分组数据还是未分组数据,都可用观察法求众数。如有一组数据2、3、5、3、4、3、6,其中3的出现次数最多,因此3为众数。数据整理成次数分布表后,观察次数最多那一组区间的组中值为众数。同一组数据,由于分组时组距大小可不同,各区间的上下限也可能不一致,故次数分布表内,次数分布最多那一组的组中值可能不同,故众数也可能不同,可见,众数受分组的影响。(2)用公式求众数 用公式计算的众数称为
22、数理众数。皮尔逊经验法:。(三)众数的意义及应用 众数的概念简单明了,容易理解,但不稳定,受分组的影响,也受样本变动的影响,计算时不需要每一个数据都加入,因而较少受极端数据的影响,观察众数不是严格计算而来,用计算方法所得众数亦是一个估计值。同时众数不能作进一步代数运算。总数乘以众数也不等于数据的总和。众数也不是一个优良的集中量数,应用也不广泛。但在一些情况下也常用:(1)当需要快速而粗略地寻求一组数据的代表值时;(2)当一组数据出现不同质的情况时,可用众数表示典型情况,如工资收入常以次数最多者为代表值;(3)当次数分布中有极端数据时,有时也用众数;(4)当粗略地估计次数分布的形态时,有时用平均
23、数与众数之差,表示次数分布是否偏态的指标。第二节 差异量数一、两极差(R)两极差也叫全距,就是最大值与最小值之间的距离。二、平均差(mean deviation,MD或average deviation,AD)平均差又叫中心动差,是次数分布中所有原始数据与平均数距离绝对值的平均。平均差是对分布的变化性的较全面的一个度量。为了衡量所有数据偏离其均值的程度,先考虑每个观测值离开其均值的偏差,然后再把这些偏差连加起来,但由于离均差之和为零,所以用了一个绝对值。即例如,有5名被试的错觉实验结果,错觉量为16 18 20 22 17的平均数是,。平均差是根据分布中每一个观测值计算求得的,它较好地度量了次
24、数分布的离散程度,由于离均差之和为零,要用到绝对值,不利于进一步的运算与分析。因而在实践中不常使用,这就需要引进一种不需要绝对值而又没有负数的量数。三、方差(Variance)与标准差(Standard deviation)(一)定义及定义公式方差又叫变异数、均方(平均平方偏差),在数理统计中又常称二阶中心或二级动差。它是对分布的变化性的更全面的度量。由于离均差之和为零,为了得到描述分布形状的有价值的度量,先将所有偏差作平方计算,那么就都是正值,然后再求平均才有意义。这样得到的结果就叫做平均平方偏差或简称均方差:(1)总体方差与总体标准差(2)样本方差与样本标准差(二)计算原始数据求方差与标准
25、差用总体方差举例: =求以下数据的方差和标准差,方差分别为:40,标准差为:。40,60,50,50,40,50,50,50,60,50,50(三)方差与标准差的性质 (1)如果每个观测值都增加一个常数C,则方差与标准差不变; (2)如果每个观测值都乘以一个常数C,则方差扩大C的平方倍,标准差扩大C倍; (3)如果每个观测值都乘以一个常数C在加上一个常数d,则方差扩大C的平方倍,标准差扩大C倍。(四)方差与标准差的意义(1)反应灵敏,每个数据取值的变化,方差或标准差都随之变化;(2)有一定的计算公式严密确定;(3)容易计算;(4)适合代数运算;(5)受抽样变动的影响小,即一同样本的标准差或方差
26、比较稳定;(6)简单明了,这一点与其他差异量数比较稍有不足,但其意义还是较明白的。(五)方差与标准差的应用(1)差异系数(CV)同一特质使用同一种测量工具得到的不同样本之间的离散度的比较可以通过直接比较标准差实现。不同特质样本之间的离散度比较可以通过比较差异系数(coefficient of variation, CV)来实现,差异系数大的则离散程度大。差异系数的公式为:差异系数的适用条件:1.两个或多个样本所测的特质不同,即使使用的观测工具不同,如何比较其离散程度?2.即使使用的是同一种观测工具,但样本的水平相差较大时,如何比较它们的离散程度?例:已知某小学一年级学生的平均体重为25公斤,体
27、重的标准差为公斤,平均身高110cm,标准差为,问体重与身高的离散程度哪个大?第三节 地位量数(在分布中的相对地位)一、百分位分数()(一)含义 百分位分数实际上是一个原始分数,已知它在次数分布中特定地位(m)的原始分数,m是一个百分数,表示比这个原始分数要小的人有百分之几。如,在这里m=70,83是原始分数,意思是有70%的人低于83分。(已知百分数求原始分数)(二)计算 通过百分点确定它所对应的原始分数。 (1)原始数据求百分位分数 把所有分数从小到大排序通过N乘以百分数确定原始分数所在点。 (2)次数分布表求百分位分数 表22组 别 次 数 累 积 次 数累积相对次数6569 8 109
28、6064 12 1015559 18 895054 25 714549 24 464044 13 223539 9 9确定原始分数所在组数:,第一个大于它的累积次数所在组。组数确定以后,其它符号的含义和求中数中的含义一样。实际上,中数就是百分位分数的特例,即第50百分位分数。例如,求第25、75百分位分数。分别为、。二、百分等级分数(PR)百分位分数:已知百分点m求对应的原始分数百分等级分数:已知原始分数求对应的百分等级(一)含义 次数分布中低于这个原始分数的次数百分比,用PR表示。(二)计算公式求原始分数是52分的百分等级,原始分数是62的百分等级。(分别为54、87)百分等级指出原始数据在
29、常模团体中的相对位置,百分等级越小,原始数据分布中的相对位置越低。反之,越高。三、评价 表示相对地位的量数,是个顺序变量,PR可以表示任何一个分数在该团体中的相对地位。在测量学中,常用百分等级表示常模量表。第四节 相关量数一、什么是相关事物之间相互关系有多种,概括起来有以下几种情况:(一)因果关系因果关系即一种现象是另一种现象的因,而另一种现象则是果。例如学习的努力程度是学习成绩好坏的因(至少是部分的因);在一定刺激强度范围内,刺激强度经常是反应强度的因等等。(二)相关关系即两类现象在发展变化的方向与大小方面存在一定的关系,但不能确定这两类现象之间哪个是因,哪个是果;也有理由认为这两者并不同时
30、受第三因素的影响,即不存在共变关系。即事物之间有关系,一变量会影响另一变量,但它们之间既不是因果关系也不是共变关系,那么它们之间存在统计关系(相关关系)。二、相关系数(,r)两变量之间相关密切程度的数字指标,方向(性质): 正相关:方向一致,如身高与体重成正比。负相关:方向相反,如初学打字,练习次数越多,错误越少。零相关:不存在线性相关,如成绩好坏与身高无关,不是不相关,因为有可能是曲线相关。相关程度:完全正相关:完全负相关:零相关:相关形式:线性相关(相关散点图)非线性相关(曲线相关)相关因素多少:单相关:两变量之间,如身高与体重复相关:多个变量之间,如工资水平受工龄、劳动时间、职称等影响。
31、我们要研究的是,之间的线性相关,单相关。三、相关系数的解释,弱相关 ; ,低相关;,显著相关; ,高度相关。(1)相关系数绝对值在0,1.00之间不同时,表明相关密切程度不同,绝对值越大,表明相关程度越高。(2)相关关系不是等距量值,因此在比较相关程度时,只能说绝对值大者比绝对值小者相关更密切一些,与,只能说前者比后者密切程度高而不能说前者是后者的两倍。(3)存在相关关系,不一定存在因果关系,存在因果关系的变量相关系数一定为1。四、相关系数的计算(线性相关)计算相关系数一般要求成对的数据,即若干个个体中的个体要有两种不同的观测值。例如每个学生的数学和语文成绩;每个学生的智力分数与学习成绩;每个
32、学生的英语听力水平和口语水平。(一)积差相关(积矩相关)() 皮尔逊(Pearson)(英)二十世纪初提出的,因而也叫皮尔逊相关(1)适用条件连续变量成对出现正态分布:要求总体正态,至于用来计算的样本数据,并不要求一定为正态分布。(2)定义公式其中称为协方差(3)计算公式 D=X-Y例如,被试的身高(cm)和体重(公斤)均服从正态分布,求其相关密切程度:()被试12345678910身高170173160155173188178183180165体重50454744505350495245(二)等级相关(1)spearman等级相关 1适用条件 11两列变量都是等级或顺序变量的时候。 12确定
33、不了数据的分布形态的时候。 13积差相关运算太繁,转用等级相关。 等级转化:数据:82 71 48 96 82 54等级:2.5 4 6 1 2.5 582应该是在第2、3位,重复了两次,故其等级为(2+3) 2计算公式 D为等级相减之差 例:学习 1 2 3 4 5 6 7 8 9 10纪律 1 4 3 2 9 5 6 8 10 7D 0 -2 0 2 -4 1 1 0 -1 3(2)kendal和谐系数 1适用条件 kendal和谐系数又称阅卷者信度或评分者一致性系数,用于评价多个等级变量之间的相关密切程度。或者说用于评价多个评委对被试评定等级的一致性程度。2计算公式表示评委在某被试上的评
34、定的等级之和。例:学生 评委 A B C Ri 1 1 3 1 5 2 2 1 3 6 3 3 2 4 9 4 4 4 2 10 5 5 5 5 15(三)质与量的相关 质与量的相关是指一列变量为等距的测量数据,另一列变量是按性质划分的类别,欲求这样两列变量的直线相关,称之为质与量的相关,包括点二列相关、二列相关。点二列相关 1适用条件如果两列变量中有一列为等距或比率变量而且其总体是正态分布,另一列变量只是名义上的变量,而实际上是按事物的性质划分两类的变量。如性别为男女,选择答案为是否,生命状态为生死等。这类变量称为二分称名变量。2计算公式 其中为与一个二分变量对应的连续变量的平均数,为与另一
35、个二分变量对应的连续变量的平均数,为整个连续变量的标准差,p和q分别为二分变量在总体中各自所占的比率。例:下表为随机抽取15名儿童(8名男童,7名女童)对暴力卡通片的反应数据,其中1表示最不强烈的反应,11为最强烈的反应,试分析男女儿童对暴力卡通片的反应之间是否有联系。(0代表女孩,1代表男孩)1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 3 2 4 5 4 2 3 4 4 5 7 8 5 9 10相关系数为,经显著性检验,。第三章 概率与概率分布第一节 概率一、与概率的相关的现象(一)两种不同类型的概率现象(1)确定性现象: 在一定条件下,事先可以断言必然会发生某种结果的现象。
36、(2)随机现象 :在一定条件下,事先不能断言会发生哪一种结果的现象。(二)随机现象的两个显著特点(1)偶然性:一次试验前不能预言会发生哪一种结果,这是随机现象的偶然性。(2)必然性:在相同条件下,进行大量次重复试验,呈现出统计规律性,这说明随机现象具有必然性。而正是因为必然性或者说规律性,我们才可以用重复实验的办法来统计出事物或者说现象发生的可能性(概率)。二、随机事件与概率(1)随机事件:随机现象中出现的各种可能的结果称为随机事件(如正面朝上1,反面朝上0)简称事件。随机事件中有两种极端情况,必然事件和不可能事件。(2)频率:在随机事件中,某事件A发生的次数m与试验的总次数n的比值,这个比率
37、称为事件A发生的频率。,如在丢硬币实验中,n=5次,假如正面朝上为事件A,出现的次数为2次,则事件A发生的频率为2/5。(3)概率(后验概率):是随机事件A的频率在n时的极限,称为此事件A的概率,也就是说,在大量重复n次试验中,当n无限增大时,事件A发生的频率m/n稳定在一个确定的常数附近,我们就用这个数表示事件A发生的概率,记作:P(A)=m/n(4)概率(先验概率):先验概率是在特殊情况下直接计算的比值。它是真实的概率值而不是估计值。它必须是在这样的条件下发生的:实验的每一种可能结果(基本事件)是有限的;每一个基本事件出现的可能性相等。如果试验由n个有限的基本事件组成,事件A包括m个基本事
38、件,则在一次随机抽样中,事件A发生的概率为:P(A)=m/n。如一副牌52张(52个基本事件),抽取到任何一张的概率是相等的1/52,如果事件A为红桃,则事件A由13个基本事件,故红桃出现的概率为P(A)=13/52。(5)值域:0,1三、概率的基本性质(一)概率的公理系统(1)任何一个随机事件发生的概率都是非负的。(2)必然事件发生的概率为1,必然事件是指在一定条件下必然发生的事件。(3)不可能事件发生的概率为0,不可能事件是指在一定条件下必然不会发生的事件。概率越接近1,其发生的可能性越大,越接近0,发生的可能性越小。(二)概率的加法定理若A,B是两个互不相容事件,则A,B至少有一个发生的
39、概率为两个事件分别发生的概率之和。P(A+B)=P(A)+P(B)互不相容事件是指在一次实验中不可能同时出现的事件称为互不相容事件,若事件A发生则事件B就不可能发生。例如对学生进行考核,如果成绩为优这一事件出现,则成绩为良这一事件就一定不会出现。若该生得优的概率为,得良的概率为,依据加法定理,该生考核成绩为优良的概率为。再如,掷一个 sai子,求事件A=出现点数不超过4的概率为:就一次实验而言,6个点数(1,2,3,4,5,6点)是互不相容事件,故事件A发生的概率为,1/6+1/6+1/6+1/6=4/6。(三)概率的乘法定理若A,B是两个相互独立事件,则A和B同时发生的概率为两事件分别发生的
40、概率之积。P(AB)=P(A)P(B)相互独立事件是指一个事件的出现对另一个事件的出现不发生影响。如果事件A的概率随事件B是否出现而改变,事件B的概率随事件A是否出现而改变,则称事件A和B为相关事件或相依事件。例如从52张牌中有放回连续抽取两次,问第一次抽取到红桃6,第二次抽取到方块6的概率为,1/52*1/52=1/2704;两次都为红色的概率为1/2*1/2=1/4。再如,掷sai子,连续掷两次,则两次都出现点数为3的概率为1/6*1/6=1/36。五、排列与组合:第二节 二项分布(离散型随机变量的概率分布)一、二项实验与二项分布(一)二项实验二项实验又称贝努里实验,它有几个前提条件:任何
41、一次实验恰好有两个结果,如成功与失败、对与错、正面与反面,而且每次实验成功与失败、对与错、正面与反面的概率不变;假定事件A(成功、对、正面)发生的概率为P,则对立事件(失败、错、反面)发生的概率为q,则q=1-P;共有n次实验,各次实验相互独立,即各次实验之间无相互影响,每一次实验的概率并不会因为其它实验的结果而受到影响(抽样是有放回的)。凡符合上述要求的实验称为二项实验。在教育与心理实验中,社会调查研究中,二项实验的例子是很多的。如,测验中的是非题(对、错);四选一选择题(答对概率为1/4,答错概率为3/4);丢硬币(正面朝上,反面朝上);民意调查中支持某候选人,不支持某候选人等等。(二)二
42、项分布在n次重复实验中事件A出现的次数X就称为二项变量,X的概率分布就叫做二项分布。或者说,二项分布是指统计变量中只有性质不同的两项群体(即二项实验的结果)的概率分布。二项分布可以说是两个对立事件的概率分布。二、二项分布概率的计算二项分布与二项定理有密切的关系:在n次独立实验的条件下,事件A出现的次数x的概率为:如果用概率P的形式来表示可写成:例1:掷硬币实验。有10个硬币掷一次或一个硬币掷10次,问五次正面向上的概率是多少?根据题意,n=10,p=1/2,q=1/2例2:在一个男女居民各占半数的大居民区中,抽取一个n=10的随机样本,问样本中正好有4位女性居民的概率是多少?假定按抽样是有放回
43、的来计算误差很小。例3:假定已知某个大厂(总体)中喜欢某个电视节目的职工占60%,现从这个总体中随机抽取6位职工进行调查,设X=样本中喜欢该电视节目的人数。求样本中恰好有3人喜欢该节目的概率。()三、二项分布的均值与标准差及其应用 例:有一个出色的扣球手扣球命中率为,若每次扣20个球,则每次平均能扣中多少个球?(16个)四、二项分布的形状与性质(1)二项分布是一种离散型随机变量的概率分布。(2)若p=q,不管n多大,二项分布呈对称型。当n很大时,二项分布接近于正态分布,当n趋近于无穷大时,正态分布是二项分布的极限。(3)若pq时,为偏态分布,当n时,近似正态分布。第三节 正态分布(连续型随机变
44、量的概率分布)一、正态分布的含义正态分布也称为常态分布或常态分配,是连续随机变量的概率分布的一种。其概率分布是一种呈钟型的对称曲线,叫正态曲线或高斯曲线。这是统计学中最普遍也是最常用的一种分布。例如在度量自然现象和经济现象时测量误差一般是服从正态分布的。又例如人的智商、能力的高低、考试成绩、社会调查中某种态度的得分、行为表现以及身高、体重等身体状态等一般都近似服从正态分布。某变量服从正态分布写作:N()二、正态分布的特征(一)正态分布的密度函数为 (二)正态曲线下的面积为1,由于它在平均数处左右对称,故过平均数点的垂线将正态曲线下的面积划分为相等的两部分,即各为。(三)正态分布是由平均数和标准差唯一决定的分布。它随随机变量的平均数和标准差的大小及单位不同而有不同的分