《现代心理与教育统计学复习资料覃瑞.doc》由会员分享,可在线阅读,更多相关《现代心理与教育统计学复习资料覃瑞.doc(37页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、现代心理与教育统计学复习资料 赵晨鹰老师 覃瑞整理(21267529) 徐建平和张厚粲主编 第三版第一章 绪论课程简介: 先行课程为数学、普通心理学,后续课程为实验心理学、心理测量学、心理学研究方法、(研究型)毕业论文等。心理统计可分为三种类别(最常见的分类方法P8):第一部分是“描述统计”,包括数据整理、集中&离中&相关量数的计算等。 第二部分是“推论统计”,包括统计估计、假设检验等(以概率分布为基础)。 第三部分是“实验设计”,包括样本抽取、被试分组等。 描述统计 : 1统计图表 2集中量数 3差异量数 4相关关系 概率分布(推论统计的基础) 推论统计 :1参数估计 2假设检验 3方差分析
2、(涉及部分“实验设计”) 4 2检验 5非参数检验 线性回归(进而建立“数学模型”) 多变量统计分析简介 实验设计 : 抽样原理及方法 心理统计学(Psychological Statistics)是研究在心理实验或调查中如何收集、整理、分析数字资料,以及如何根据这些资料所传递的信息作出科学推论的应用统计学分支。随机性数据资料随机现象P3 (vs. 确定现象) 试验之前已知存在多种可能结果,但不能预料哪种结果会出现; 在相同条件下可以重复该试验。理论统计学 vs. 应用统计学心理科学研究数据的特点 P2 1、分散性:数据结果均以一个个分散的数字形式呈现。2、变异性/随机性:观测数据总在一定范围
3、内随机波动变化。 3、规律性:通过重复观测可发现其变化具有一定的特征与规律。 心理科学研究的目标就是在分析部分数据的基础上来推测其相应总体的特征。一、描述统计(descriptive statistics) P8 描述统计主要研究如何将实验或调查得到的大量数据进行图表整理或简缩成有代表性的数字(即统计量数),使其能客观、全面地反映这组数据的全貌,将其所提供的信息充分显现出来,为进一步统计分析和推论提供可能。 据分组、图表制作。 统计量/特征值P21的计算。 相互关系的描述及相关系数的计算。等等 描述统计只限于对试验样本所得观测数据的统计分析,不考察其总体的特性。二、推论统计(inferenti
4、al statistics) P9 推论统计是以描述统计为基础,从而解决由局部到全体的推论问题,即通过对一组统计量的计算分析,推论该组数据所代表的总体特性。 数估计。 假设检验中的参数检验(Z检验、t检验、F检验等)。 计数资料的检验(2检验)。等等三、实验设计(抽样理论、被试分配原则等)一、变量(variable)、观测值、随机变量 P18变量:一个可以取不同数值的物体属性/事件。 事前无法预期结果的变量随机变量。事后测定的某一结果观测值/原始取值。 补充 概念理解 涉及“实验” 自变量(及其各水平) & 因变量(及相应的反应指标) 涉及“调查”,粗略对应于 属性变量 & 反应变量二、数据类
5、型 重点,结合实例理解 P16 1、按数据反映的测量水平(低高)区分为称名/类别、顺序/等级、等距、比率/等比数据划分标准:能否排序、有无相等单位-能否加减、有无绝对零点-能否乘除。称名数据/变量只区分属性或类别上的不同,只可计数、不能排序。如性别、学科、职业等。顺序数据/变量可排序,但无相等单位、不能加减。如等级评定、受教育程度、职称等。等距数据/变量有相等单位,但无绝对零点、能加减不能乘除。如摄氏温度、常用测验得分等。比率数据/变量有相等单位,有绝对零点、能加减乘除。如反应时、身高、体重等。二、数据类型 补充说明:高层次的数据包含了低层次数据的全部性质。因此,高层次的数据可以降级当作低层次
6、的数据来处理(如“统计分组” P25),但不提倡。数据类型直接决定统计方法的选用(如“是否为连续数据将使用完全不同的方法”、“相关系数的选用”等)。一般情况下,心理科学研究只要求观测数据达到等距层次,因为等距数据已完全符合绝大多数高级的统计方法。 二、数据类型 2、按数据的观测方法和来源,区分为计数数据/计数资料和测量数据/计量资料。提醒:计数资料不是原始取值/观测值,而是在观测值的基础上计算个数所得的数据。应该说,任何原始数据都可换算为计数资料。但通常只会将称名和顺序数据换算成计数资料,因此,常默认地将此两类数据等同于计数资料。提醒:不要看到人数/个数的就以为计数结果,它可能仍是观测值! 同
7、样,等距和比率数据更多是进行加减等代数运算,这两类被默认为测量资料。 二、数据类型 3、按数据是否具有连续性,区分为离散数据(对应的变量叫“离散变量”)和连续数据(连续变量)。注意: 这是针对原始取值/观测值的划分,其标准就是理论上任意两个数据点之间能否细分出无限多个大小不同的数值。 称名和顺序数据属于离散数据,等距和比率数据属于连续数据。三、次数、比率、频率与概率 P19次数/频次/频数:某一事件在某一类别中出现的数目。 比率:同类别中不同事件出现数目之比。 频率/相对次数:某一事件数目与此类别所有事件数目之比。 这三个概念均由实际计数资料/样本计算所得。 概率:某一事件在无限观测中所能预料
8、的相对出现次数。(理论值/期望值)四、总体、样本、个体 P19总体:所欲研究的具有某种特性的一类对象的全部(样本空间)。(有限总体/无限总体) 个体:构成总体的每个基本单元。 样本(sample):从总体中按一定规则抽取的作为观测对象的一部分个体。 样本中所包含的个体数量即为样本容量/大小(大样本 vs. 小样本)对于一个(相对)无限总体而言,可以抽取出无限多个不同的样本。五、参数和统计量 P20 (总体)参数:描述总体特性的统计指标。 (样本)统计量/特征值:描述样本特性的统计指标。知识点链接:参数检验 vs. 非参数检验 P343,其区别就是“是否需要考虑总体分布/参数的情况”。“参数是一
9、个常数;统计量是一个变量。” 提醒:两者在符号上的区别通常,参数希腊字母,统计量英文字母。一定要注意各种统计指标的符号规范化不同情形,对应于不同统计方法的选用一、研究目的不同 差异检验:如t检验、方差分析、卡方检验等。 关联分析:如相关分析、回归分析等。二、被试分配不同 无一一对应关系的各组数据独立样本。有一一对应关系的各组数据相关样本(同批被试样本或配对样本)。三、数据类型不同 连续数据t检验、方差分析、积差相关等参数分析。离散数据卡方检验、等级相关等非参数分析。 四、样本的多少 单样本、双样本、多样本。(均为连续数据、进行均值比较时,前两者用t检验、后者用方差分析)五、自变量的多少 单因素
10、、多因素。(均为连续数据时,可用方差分析、及回归分析等)中英文对照: 描述统计descriptive statistics 推论统计inferential statistics变量variable 观测值observation 称名数据nominal data 顺序数据ordinal data 等距数据interval data 比率数据ratio data 计数数据count data 测量数据measurement data 离散数据discrete data连续数据continuous data 频次/频数frequency 概率probability 总体population 样本sa
11、mple 参数检验parametric test 非参数检验non-parametric test第二章 统计图表 一、数据的统计分组 统计分组是根据被研究对象的特征,将所得数据划分到时各个级别中去。 应注意的问题 P26 分组要以被研究对象的本质特性为基础(即要有理论或实践支持)。分类标志的确立必须坚持穷尽性和互斥性原则。 穷尽性:必须使全部数据都能归到某类中。 互斥性:必须每个数据只能唯一被归入某类中。 分组标准按形式可分为性质类别(常用于离散数据)与数量类别(常用于连续数据)。二、统计表既用于原始数据的整理(如被试构成),也用于检验结果的报告。注意事项:常用三线表(顶线、底线、栏目线);
12、标题置于表的上方;表号通常为阿拉伯数字123;尽量简洁明了。次数分布主要表示数据在各个组/类中的散布情况,即将原始资料转换为计数资料。次数分布表/图适用于各类数据的计数资料。一、简单次数分布表(如,表2-1) 直接对每个观测值进行计数。适用于许多心理测验或调查(单一题项)的结果(通常为离散数据)。 二、分组次数分布表(如,表2-2、表2-3的“f”列) 先划分若干分组区间,再对原数据进行归组并计数。适用于许多心理测验(总分)或实验的结果(通常为连续数据)。二、分组次数分布表编制步骤: P32 求全距(最大值与最小值之差) 决定组距与组数列出分组区间(精确组限、组中值):注意核实是否满足穷尽和互
13、斥原则。登记并计算次数编制次数分布表优缺点:这样做虽然使无序的数据变得有序、能了解分布情况;但有部分信息丢失了,所得数据与原数据有一定的出入(归组效应)。因此,进一步的统计最好仍用原始数据。三、相对次数分布表(如,表2-3的“P”列与“%”列) 四、累加次数分布表(如, P36表2-4) 五、双列次数分布表:适用于2个变量(可以为离散或连续)的计数资料。(如, P38表2-6) 六、不等距次数分布表(用于连续数据的计数资料,根据实际情况来确定)第三节 次数分布图本节内容是基于连续数据的次数分布表。一、直方图(如,图2-3、图2-4,略有误) 组距确定矩形宽度,每组频数确定各矩形高度,各矩形间不
14、留空隙,矩形面积与其频数分布大小等价。二、次数多边形图/折线图(如,图2-5)P40 在直方图基础上,通常以各矩形高端线段的中点连线而成(两端虚线延伸)。补充:单峰分布/多峰分布三、累加次数分布图 P41 1、累加直方图(如,图2-7) 2、累加折线图 累加曲线图(如,图2-8):分正偏态、正态、负偏态三种(如,图2-9)补充:折线图 曲线图:分正偏态、正态、负偏态三种(如,P66图3-3)第四节 其他类型的统计图表一、其他常用的统计表类型 P43 简单表、分组表、复合表主要适用于测量资料及其统计结果呈现(通常为三线表)。二、其他常用的统计图类别 P45 1、条形图/直条图/棒图:适用于离散数
15、据的计数资料(可对应于“简单次数分布表”)及其他可按实际需要选择其中的某种类型。(如,图2-10) 以条形的长短表示各事物间数量的大小。条形图与直方图的区别:适用资料不同;横轴标尺不同;图形形状不同。2、圆形图/饼图:适用于离散数据的计数资料,通常以百分数表示。(如,图2-11)3、线形图:最常用的图示方法,用以描述两个或两个以上变量(如,自变量和因变量)之间的函数关系,通常适用于连续数据(也可用于顺序数据)。(如,遗忘曲线;有误:如,P41图2-6) P47自习 线形图的绘制要点(与折线图的区分)4、散点图:适用于连续数据,用点的分布形态来表示两种现象(如,两个因变量的成对数据)之间的相关程
16、度。(如,图2-12)第三章 集中量数第一节 算术平均数 第二节 中数与众数 第三节 其他集中量数 对数据分布情况的量化描述主要有两方面的指标:数据的中心位置;数据的分散/变异程度。集中趋势数据向某方向的集中集中量数(数轴上的一点)离中趋势数据彼此的分散程度离中/差异量数(数轴上的一段距离) 两者一起描述一组数据的全貌。(针对连续数据)最常用的即为平均数和标准差。第一节 算术平均数 P54一般简称为平均数(average)或均值(mean)。符号为M,区分总体/样本平均数。适用资料:等距数据及以上/连续数据。一、平均数的计算 自习,包括“使用次数分布表计算平均数的方法” P56 二、平均数的特
17、点 : 离均差总和为0。 每个数加上C,则所得平均数为原平均数加上C。 每个数乘以C,则所得平均数为原平均数乘以C。三、平均数的意义:多数情况下它是真值的最好估计值。 四、平均数的优缺点 1、优点:反应灵敏。计算严密。计算简单。简明易解。 适合于进一步代数演算。 较少受抽样变动的影响。2、缺点:易受极值的影响。“修剪平均数” 据不够确切,则无法计算该样本平均数。“缺失值(missing values)的处理” 五、计算和应用平均数的原则 1、同质性原则:同质的数据才有计算平均数的意义。 2、平均数与标准差、个体数值相结合的原则:描述数据分布特征不能仅依赖于平均数,还需考察标准差以及个体数值等。
18、第二节 中数和众数一、中数 P61 又称中位数/中点数,符号为Md(Median),是指一组数据中位于较大一半与较小一半中间位置的那个数。 适用资料:顺序数据及以上。 1、一般计算方法(区分数据个数为奇数/偶数)补充 复杂情况:数列中间出现重复数值;分组数据。2、优缺点与应用 优点:计算严密;计算简单;简明易解。 缺点:反应不灵敏;不适合进一步代数演算;受抽样变动影响较大。二、众数 P64 又称范数/密集数/通常数,符号Mo(Mode),是指一组数据中出现次数最多那个数。 适用资料:称名数据及以上。 1、一般计算方法:直接观察 自习 公式计算 2、优缺点与应用 优点:简明易解。 缺点:反应不灵
19、敏;不适合进一步代数演算;受抽样变动影响较大。 三种集中量数的关系:正态分布中三者相等,正偏态中M Md Mo,负偏态中M Md Mo。 P66第三节 其他集中量数一、加权平均数:适用于等距数据;二、几何/对数平均数:适用于比率数据,用于描述增长比率等方面的问题。 例3-8计算不当三、调和/倒数平均数:适用于比率数据,用于描述平均速率等方面的问题。04第四章 差异量数 第一节 全距和百分位差 第二节 平均差、方差与标准差 第三节 标准差的应用:差异系数和标准分数 第四节 差异量数的选用 第一节 全距和百分位差 一、全距 P80 又称两极差,用最大值与最小值之差来表示离中趋势,符号R(range
20、),公式 计算所得数值越大,表明数据越离散/分散 下同 适用于等距数据及以上(将就也会用于顺序数据);最简明、最低效,常用于预备性检查。二、百分位差 P81 用百分位数之间的差值来表示离中趋势,常用的有P90-P10、P93-P7。 补充 原始排名的百分等级计算(算的是,如果你在N人里排名是R,那么类推到100人里你排名是多少 ) PR为百分等级,R为排名序号,N为总数据个数。P174四分位差(及四分位数)P84,可视为百分位差的一种,符号Q(quartile deviation),公式Q =(P75 - P25)/2(即第三个四分位数与第一个四分位数之差的一半)适用于等距数据及以上(将就也会
21、用于顺序数据);效果强于全距,但反应不够灵敏,不适合进一步代数演算,故仍为低效,应用不多。第二节 平均差、方差与标准差 适用于等距数据及以上。一、动差体系,中心动差 P85 一级动差:通常取离均差的绝对值求和应用于平均差; 二级动差:取离均差的平方求和应用于方差(其平方根即为标准差); 三级动差:取离均差的三次方求和应用于偏态指标; 四级动差:取离均差的四次方求和应用于峰态指标。二、平均差 P86 平均差:离均差绝对值的均值,符号A.D.,公式描述离中趋势/离散程度最为直观,计算简单严密易懂、反应灵敏、受抽样变动影响小;但受限于取绝对值不利于进一步代数运算,因此仍属低效,应用不多。三、方差与标
22、准差 P87 方差:离均差平方的均值,符号S2,公式标准差:符号S、s或SD,公式例题计算 自习例4-3、例4-4,结合公式4-9、4-10提醒:该计算结果为“样本标准差Sn”,而SPSS计算结果为“样本所估计的总体标准差Sn-1”。性质 P93方差的可加性和可分解性补充总方差的合成 P91(注意:合成前提是各样本进行的是同一特质的同种观测,即同质性原则)每个数加上C,则所得标准差等于原标准差。 每个数乘以C,则所得标准差为原标准差乘以C。 意义/优势所在:反应灵敏。 计算严密。(还算)计算简单。(还算)简明易懂。 适合于进一步代数演算。 较少受抽样变动的影响。缺点呢?第三节 标准差的应用一、
23、差异系数(coefficient of variation) P94 绝对差异量数 vs. 相对差异量数(不带测量单位)用以比较多组数据之间离散程度的大小。 计算公式: 常用于:同一团体不同观测值离散程度的比较(如,身高 vs. 体重);(各均值相差较大时)不同团体同种观测值离散程度的比较(如,成人体重 vs. 小孩体重)。注意:适用资料至少是等距,理论要求为比率数据;尚不能进行统计推论。二、标准分数(standard score,又称Z分数) P95 是以标准差为单位来表示一个原始分数在团体中所处的相对位置量数。可用以比较多个数在其所在数组分布中的相对位置的高低(Z分数越大,表明该数据在其分
24、布中取值越大、相对位置越靠前)。1、计算公式 : 2、标准分数的性质: Z分数无实际测量单位,是以均值为参照点,以标准差为单位的一个相对量,为等距数据。 一组原始数据转换得到的Z分数的平均数为0,标准差为1。若原始数据呈正态分布(normal distributions),则转换所得的Z分数服从正态分布N(0,1)。3、标准分数的优缺点 优点:可比性;可加性;明确性;稳定性。 缺点:计算相对繁琐;常为负数或带有小数,难理解。4、标准分数的应用(适用前提:正态变量)P97 (利用Z分数具有可比性)用于比较几个分属性质不同的观测值在各自数据分布中相对位置的高低。(如,之前的例题) (再利用Z分数具
25、有可加性)计算不同质的观测值的总和,以表示在团体中的相对位置。自习例4-9、4-10 表示标准测验分数。(如,“离差智商”,自习) 极端数据的取舍:M2S或M3S标准(即“正负两个或三个标准差原则”) 。第四节 (绝对)差异量数的选用一、优良差异量数具备的标准六条标准,可参阅“标准差的优点”二、各种差异量数优缺点比较三、(在样本容量大或正态分布中)各种差异量数之间的关系四、如何选用差异量数考虑五方面因素,同时结合适宜的集中量数来描述一组数据的全貌。第五章 相关关系 第一节 相关、相关系数与散点图 第二节 积差相关 第三节 等级相关 第四节 质与量相关 第五节 品质相关 第一节 相关、相关系数与
26、散点图相关分析主要处理两个变量之间的相互关系,属于描述统计。 P107 一、什么是相关1、事物之间的联系大致分为两类:(1)因果关系(2)相关关系:变量之间存在相互联系,但不能直接做因果判断。(通常难以区分出共变关系/虚假相关)专题讨论:相关分析完全不能得出因果关系吗?P107、148 回答:从理论和大多数实际操作来讲的确如此。 1)单凭相关无法判断何为因、何为果。 2)很有可能存在其他变量共同作用于这两个变量。 但排除了这两种情况的显著高相关可间接得出因果关系。2、相关的类别:首先分为直线相关和曲线相关(根据散点图估计) 针对直线相关,从变化情况可划分为:正相关(及完全正相关)、负相关(及完
27、全负相关)、零相关(即两变量之间无相关)。 (各种相关均可先根据散点图做初步估计) 结合P110的图5-2、图5-3二、相关系数(coefficient of correlation)变量间相关程度的数字表现形式,即表示相关强度的指标(相关量数)。 符号:样本 r ,总体取值范围:-1r 1(四点说明P108) 提醒:它只是顺序数据;正负只表示方向,取值大小表示相关的强弱程度(值越大,相关越高)。三、散点图(scatter plot) 以点的散布形状和疏密程度来显示两个变量的相关趋势和相关程度。 P110-111,图5-2、5-3、5-4补充:多个变量间的相关常用“相关矩阵”表示。注:星号表示
28、经由推论统计得出,两样本相应的两总体也(在很大程度上)存在相关,其具体的相关程度仍看该相关系数的大小第二节 皮尔逊积差相关一、概念与适用资料 又称“积矩”相关。适用资料 诸多条件缺一不可! (大样本的)成对数据(表现为两组数据存在一一对应关系) ,每对数据相互独立。 正态双变量(即两总体服从正态分布或渐近正态的单峰分布)。样本咋样就不管了 两数据类型均为连续数据(即等距/比率数据)。 两变量呈直线相关(先用散点图预测) 。二、基本计算公式 P113 1、运用标准差与离均差 2、运用标准分数(Z分数)“协方差”:表示两个变量的一致性。转换为用原始数据的Z分数加以计算的公式: 3、直接用原始数据三
29、、相关系数的合并 P121 常用于需将取自同一总体的几个样本的相关系数进行合成。Z-r转换法的具体步骤(结合P470附表8):将各样本的r转换成Z;计算平均Z分数,公式为再将平均Z分数转换成r。第三节 等级相关属于非参数相关分析一、斯皮尔曼等级相关(Spearmans rank correlation) 符号:rR或rS 1、适用资料 两列变量,成对数据,各对数据相互独立; 均为顺序数据(及以上);直线相关。(较之积差相关)优点:适用范围大;缺点:精确度低。因此,凡符合计算积差相关的资料,不要用等级相关计算。一、斯皮尔曼等级相关 2、计算公式自习:P124 例5-3。(此例也可以用积差相关来分
30、析。但由于样本容量不足、总体分布情况未知,所以宜改用等级相关。)提醒:积差相关的“韧性”很强,即使部分软条件不满足(如,样本容量略显不足、总体分布情况未知/心理学涉及的等距数据多数为正态分布)也仍适用。2、计算公式:(有相同等级时的)修正公式 不要求课外自习:P125-128 例5-4、5-5。二、肯德尔等级相关 1、肯德尔W系数(和谐系数,Kendalls concordance coefficient) P1281)适用资料:多列等级变量。采用等级评定法或排序评定法所获得的资料。(评分者信度)2)计算公式K-评定者数目;N-被评对象数目;Ri-某被评对象的等级总和。(有相同等级时的)修正公
31、式提醒:W系数不是标准的相关系数,其取值范围为0W1,W=1表示完全一致,W=0表示完全不一致。对相关的方向尚需分析实际资料。P1292、肯德尔U系数(一致性系数,Kendalls consistency coefficient) P132 1)适用资料:多列等级变量。采用对偶比较法所获得的资料。 2)计算公式Rij为某成对比较的择优分数(参见表5-13);K-评定者数目;N-被评对象数目。提醒:针对同一适用资料,W系数优于U系数。 U系数不是标准的相关系数。第四节 质与量相关 P134两个变量一个为连续数据、一个为称名数据。一、点二列相关真正的 vs. 人为的二分变量;后者可降级为前者。1、
32、适用资料:连续变量与真正的二分变量。常用以评价是非题之类测验的内部一致性等。2、计算公式:取值范围及含义与 r 相同。提示:求连续变量与顺序变量之间相关系数的降级方法通常为: 连续顺序求斯皮尔曼等级相关;顺序称名求质量相关。(前者居多)二列相关1、适用资料:两组均属正态分布,连续变量与人为的二分变量(即连续称名)。常用以评价问答题之类测验的内部一致性等。2、计算公式:取值范围及含义与 r 相同。很少用到。三、多列相关适用资料:两列正态变量,连续+人为地分成多组。较少用到。提醒:本节情况会常用“均值比较”来进行推论统计。第五节 品质相关 P141两个变量均为称名数据,整理为计数资料后表示为RC表
33、,常用于项目分析。一、四分相关1、适用资料:两个都是人为的二分变量(本来是连续数据),其RC表为四格表。2、计算公式 自习二、相关(系数)1、适用资料:两个都是真正的二分变量,其RC表为四格表。 注:P143表中括号内为期望值fe P295以后学2、计算公式:三、列联表相关 自习 本节情况常用“2检验”分析第六节 相关系数的选用与解释 自习一、如何选择合适的相关系数 两变量数据是否成对; 两变量是否呈直线相关; 两变量的数据类型。 P147表5-17 数据个数(是否为大样本);总体是否呈正态分布。二、相关系数的解释 它不是等距的测量值; 其值的大小与相关程度描述; P150图5-6(以 r 为
34、例); 相关关系不能得出因果关系,但有预测作用。 虚假相关的存在使相关分析变得没有实际价值。对此,可采用偏相关(partial correlation纯相关或净相关)分析。三、相关系数的实际应用(如,信效度检验等)补充:如何谨慎看待低相关?例1:以大一生为被试,考察年龄与性别角色气质量表得分之间的关系,结果呈低相关,表明年龄不能预测性别角色气质量表的得分。例2:考察学习压力与学业成绩之间的关系,结果呈低相关,表明两者不存在相关关系。研究所得的低相关可能并不意味着两个变量之间的真实相关程度。其中,常见的两种出错情况:1)全距限制导致低相关。2)前提假设(直线相关)不满足导致低相关。第六章 概率分
35、布 第一节 概率简介 第二节 正态分布 第三节 二项分布 第四节 样本分布第一节 概率简介 P155概率论是推断统计的数学基础。一、什么是概率(统计定义:从频率的角度来界定)1、后验概率(又称统计概率)频率:在对随机事件进行n次观测中,事件A出现m次,则m/n称为n次试验中A出现的频率。 (后验)概率:当n时,m/n将稳定于某个常数P上,P即为概率,记作 。两个前提条件:每次试验中某一事件发生的可能性不变;试验能大量重复,且每次试验相互独立。特点:试验之前无法预计,只有借助试验结果来估计。2、先验概率(又称古典概率) (先验)概率:如果基本事件的总数为n,事件A包括m个基本事件,则事件A出现的
36、概率记作P(A)=m/n。特点:试验之前就能决定某一事件出现的概率。两个前提条件:试验的基本事件是有限个数的;每个基本事件出现的可能性相等。二、概率的基本性质和基本定理 1、基本性质(又称基本公理)概率必定介于01之间。 必然事件的概率为1;不可能事件的概率为0。2、基本定理 加法定理:设事件A、B互不相容,则P(A+B)=P(A)+P(B)。 乘法定理:设事件A、B相互独立,则P(AB)=P(A)P(B)。实例:两名警察同时向某歹徒各开一枪,已知两警察命中率为80%和60%,问:歹徒未被击中、命中一枪、两枪的概率分别是多少?三、概率分布类型 P1601、离散分布(如,二项分布)与连续分布(如
37、,正态分布) 前者可考察某取值的概率大小;后者则讨论对某一取值区间来说的概率大小。2、经验分布与理论分布 前者指样本数据/观测值的次数分布;后者指对应的总体次数分布(强调在推断统计中)。 3、基本随机变量分布与抽样/样本分布。 前者指观测值/原始数据的次数分布;后者指样本统计量/特征值的次数分布(从同一总体中多次抽样,得到如样本平均数、样本标准差等统计量的分布)。第二节 正态分布 P161又称常态分布,也称高斯分布。该曲线函数P161公式6-1 ,记作:XN(,2)。标准正态分布为ZN(0,1) 。一、正态分布的性质 1、分布形式是对称的。 2、曲线从中央最高点向两侧下降,先内弯后外弯,其拐点
38、位于正负一个标准差处;曲线两端无限接近基线但终不相交。 3、曲线下的面积为1,变量X在X1X2间变化的概率为X=X1与X=X2两轴间曲线下的面积。 4、为一族分布,其形态由均值、标准差的大小决定。二、正态分布表的使用 P164及P449附表1 Z、Y、P查表三栏的含义(注意:经常会P实际P查表)记住:1S.68;1.96S.95;2.58S.99。P165 1、ZP(即,已知Z,求P) 例:P(-1Z1.96) 实例一:1000名学生参加英语期末考,结果M=65、S=10,问约多少人及格?你的成绩是75分,问排名约为多少?(假设成绩呈正态分布) 2、PZ 例: ZN(0,1) ,已知下列P,求
39、Z0值。 P(0ZZ0)=.498 P(-Z0ZZ0)=.706 P(ZZ0)=.05实例:某公司要通过业务能力考核来裁员,员工共计2800人,欲裁450人。考核结果为M=68、S=9,问裁减分数线宜定为多少?(假设考核成绩呈正态分布) 3、P或ZY(如,二列相关系数的计算等)三、次数分布是否正态的检验方法 自习四、正态分布理论的应用 P167 1、化等级评定为测量数据 前提:被评定的心理量呈正态。 步骤(5步,PZ,自习)2、确定测验题目的难易度 前提:测验中不同难易题目的分布呈正态。 步骤(4步,PZ,自习)3、在能力分组或等级评定时确定人数 假定:总体正态;正负三个标准差含所有数据。 步
40、骤(3步,ZP,自习)4、测验分数的正态化(T分数转化,要求总体正态)第三节 二项分布(也称贝努里分布) P176 自习一、二项试验(需满足的条件) 1)任何一次试验恰好只有两个结果。 2)共有n次试验(n为预定的任一正整数)。 3)每次试验各自独立。 4)某结果出现的概率在任何一次试验中固定。二、二项分布:二项试验结果的概率分布二项分布的性质 p=q,对称;n足够大,趋于正态(pq且nq5),正态分布是二项分布的极限。当接近正态时,其=np、2=npq。三、二项分布的应用(解决测验中的机遇问题) 第四节 样本分布(抽样分布) P182即样本统计量的分布 有放回多次等量随机取样一、正态或渐近正态分布(即Z分布,对应于Z检验) 1、样本平均数的分布1)总体正态、总体方差已知,样本平均数的分布呈正态分布。 符号: , - 变异误, - 标准误SE2)总体非正