现代心理教育统计学复习要点796.pdf-淘文阁

资源描述

《现代心理教育统计学复习要点796.pdf》由会员分享，可在线阅读，更多相关《现代心理教育统计学复习要点796.pdf（16页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、-一二章、绪论现代统计学之父：皮尔逊描述统计与推断统计描述统计主要研究如何整理、描述数据的特征。推断统计主要研究如何通过局部数据所提供的信息推论总体特征。变量类型定类变量：如，性别、*、颜色类别、教学方法。特征：没有绝对零点，没有测量单位。变量值之间有“相等和“不等的关系，但没有大小之分，不能比拟大小，更不能进展加、减、乘、除四则运算。定序变量：程度、等级和水平。如，比赛名次、品质等级、喜爱程度特征：既无零点、又无测量单位。变量的值之间具有“等于或“不等于关系、序关系(优于、先于、劣于、后于等)，四则运算没有意义。定比变量：除了可以说知名称和排出大小，还能算出差异大小量的变量。如温度

2、、测验成绩、智商。特征：有相等的测量单位，无绝对零点。考试成绩为零不表示没有一点知识。可进展加减运算，乘除运算则无意义。定距变量：如身高、重量、学生人数。既有测量单位，又有绝对零点，可进展计算。降低偏差：利用随机抽样降低变异性：用大一点的样本三、描述统计一、频数：*一事件在*一类别中出现的次数。-频数分布类型：正态，正负偏态，正反J 形，U 形分布。分布性质;集中分散程度，偏度和峰度不同。偏态系数：数据的对称性峰态系数：数据的峰度二、集中量数：包括算术平均数M、中位数dM、众数0M用众数代表一组数据，可靠性较差，不过，众数不受极端数据的影响，并且求法简便、加权平均数WM、几何平均数g

3、M、调和平均数HM。组数据中有少数数据偏大或偏小，数据的分布呈偏态时，应用几何平均数。算数平均数的性质算法必须会：1每一个变量加减或乘除一个数之后，均值也相应增加。2变量值与均值的离均差之和为零。3变量值与均值的离均差平方和为最小值。三、离散量数：全距 R、四分位差 Q、平均差 A.D、方差样本统计量,2S总体参数2、标准差(s 或者 SD)、百分位差全距：全部数据中的最大值与最小值的差，描述了数据分布的围。四分位差Q：样本中间 50%的人的全距的一半。是一个距离，Q 越大，表示样本中各样品越不整齐.平均差：全部数据与均值绝对离均差的均值。方差：各个数据偏离中心的程度。方差越大，数据波动越大

4、。标准差：方差的算术平方根。自由度：自由度是指当以样本的统计量来估计总体的参数时，样本中独立或能自-由变化的数据的个数。标准分数：以标准差为单位表示一个原始分数在团体中所处的相对位置，即原始分数在均值以上或以下几个标准差的位置。性质：标准分数的均值为 0，标准差为 1。没有实际单位。应用：1、比拟不同性质的观测值在各自数据分布中相对位置的上下。如身高与体重。2计算不同质的观测值的总和或者均值，以表示在团体中的相对位置。如高考的标准分。3做线性转换后，表示标准测验分数。如 IQ。图表条形图，用于定性数据。直方图与多边图：用于定量数据时序图：反映事物变化趋势饼图：定性数据的多少或构成比例散

5、点图:两个变量的变化关系和变化方向。茎叶图：保存小样本连续变量的原貌。三线表的组成要素包括：表序、表题、工程栏、表体、表注五、随机变量分布正态分布),(2NX-样本均值的分布正态分布曲线下的面积：曲线高度是频数Y，曲线下面积则是累积频数 P也视作随机变量出现的概率。*轴上的截距为 Z。-其中，决定曲线的位置，决定曲线的“胖瘦。无论各分布的均值与标准差的值是多少，*取值以下特定区域的概率(面积)是确定的，即：正负一个标准差，占 68.27%，两个 95.45%，三个 99.73%标准正态分布：均值为 0，标准差为 1.总体服从正态分布 N (,2)时，来自该总体的所有容量为 n 的样本的均

6、值*也服从正态分布，*的期望为，方差为2/n。即*N(,n2)平均数的标准误NX 标准误衡量了抽样误差(sampling error)的大小。所谓抽样误差是指由抽样引起的样本统计量与总体参数间的差异。标准误越小，统计量与参数越接近，样本对总体越有代表性，用统计量推断参数的可靠度越大，所以，标准误是推断统计可靠性的重要指标。卡方分布：变量相互独立，且服从)1,0(N分布的随机变量。称随机变量服从自由度为为 n 的卡方分布。记做)(22nxx，niixx122 卡方分布：样本方差的分布样本方差的分布 T 分布：随机变量*服从 N(0,1)，Y 服从)(2nx，且相互独立，则随机变量服从自由度为 n

7、的 t 分布，记做 t t(n).nYXt.来自一个正态总体：1)(),1()(2NXXSNtNSXt其中，来自两个正态总体-2)1()1(),2()()(212222112121212121NNSNSNSNNtNNNNSXXtPP其中，PS为两样本的混合标准差。T 分布的均值为0，方差为n/(n-2).t 统计量是参数估计与假设检验的根底。特点：当样本容量趋于，t 分布为正态分布，方差为 1，随自由度的减少，离散程度方差增大，分布中间变低，尾部变高。F 分布:)1,1(212221NNFSSF-两样本方差的比 F 统计量主要用于方差分析、协方差分析、回归分析等。六、参数估计参数估计：当在

8、研究中从样本获得一组数据后，如何通过这组信息，对总体特征进展估计，也就是如何从局部结果推论总体的情况，称为总体参数估计。总体参数估计问题可以分为点估计与区间估计。点估计：用*一样本统计量的值来估计相应总体参数的值。优良的估计量具有的性质：无偏性、有效性、一致性。区间估计：按一定概率要求，由样本统计量的值估计总体参数值的所在围。原理：抽样分布理论。抽样分布的标准误的大小决定置信区间的长度。置信区间：指在*一置信度时，总体参数所在的区域长度。置信度：是作出*种推断时正确的可能性(概率)。通常用(1a)表示。显著性水平：即 a，是指估计总体参数落在*一区间时可能犯错误的概率。两个要素：可靠性置信水平

9、的上下和准确度区间长度。置信水平为 95%的置信区间确实切含义:重复抽样 N 次，所得到的 N 个置信区-间中有 95%个包含了总体参数。影响区间估计准确度的因素：（1）置信度(1a)反比（2）样本容量正比（3）总体数据的变异程度反比 0.95 的置信区间：个标准误96.1X 单总体均值的区间估计：方差，正态分布；)1,0(NnXZ方差未知，t 分布。两总体均值差异的区间估计：T 分布。相关样本与独立样本都为T 分布。其中，独立样本时用很长很长的那个公式。总体均值的区间估计：卡方分布)1(1222NxSN 七、假设检验假设检验显著性检验：事先对总体参数或分布形式作出*种假设，然后利用样本信息

10、来判断原假设是否成立。类型：参数检验和非参数检验包括分布检验和独立性检验。假设检验的原理：(1)逻辑上为反证法假设检验首先假定虚无假设0H为真，通过否认0H，来检验备择假设1H的真实性(2)统计上为小概率事件小概率事件在一次实验或观测中，几乎是不可能发生的。在一次试验中小概率事件一旦发生，我们就有理由拒绝原假设。小概率由研究者事先确定，如 0.05,0.01,0.001 等。-假设检验的步骤：1提出原假设和备择假设 2确定适当的检验统计量，检验统计量方差的根本形式为：nxz0 3规定显著性水平0.05 或 0.01 4计算检验统计量的值 5作出统计决策拒绝域：拒绝原假设的概率。两类错误：拒真

11、错误型错误；取伪错误型错误。统计效力统计检验力1。两类错误的关系：（1）不一定等于 1.（2）其他条件不变，两者不能同时增大或者减小。（3）两者地位不一样。我们应尽量防止第一类错误。（4）影响错误的因素有总体标准差正比和样本容量反比。单侧检验与双侧检验单侧检验：强调方向性。双侧检验：只强调差异，不强调方向性。单总体均值的假设检验：方差，正态分布；)1,0(NnXZ。用这个统计公式，然后查表。方差未知，t 分布。1)(),1()(2NXXSNtNSXt其中，两总体均值差异的显著性检验：-（1）相关样本，使用 t 分布统计量（2）独立样本，方差，使用正态分布统计量；2221212121)()(

12、NNXXZ（3）独立样本，方差未知，但是齐性，使用 t 分布统计量2)1()1(),2()()(212222112121212121NNSNSNSNNtNNNNSXXtPP其中，总体分布的假设检验属于非参数检验：卡方检验设有 N 个被试，按变量*的取值可以分成k 类，第i 类有 Oi 个观测值,则检验统计量为：)1()(2122KxEEOxkiiii 八、方差分析方差分析的逻辑：把观察值的总变异分解为两个或多个局部，除随机误差外，其余各局部变异可由*个或*几个因素或它们的交互作用来解释。F 分布的统计推断可说明*一或*些因素或因素间交互作用是否对观察值有影响。单因素方差分析的逻辑与步骤：1

13、模型与假设 2平方和的分解与 F 检验 3关联强度与效应值 4多重比拟 5前提假设方差分析的前提条件：总体服从正态分布；变异可加性；方差齐性；独立性。单因素完全随机设计的方差分析：-关联强度与效应值：实验处理引致的效应的大小或者数据的变异有多少局部是由实验处理造成的。关联强度：因变量的变异被自变量解释的百分比。事后比拟：F 检验显著说明各组均值并不一样(至少两组不同)，但不能答复到底哪几组不同。通过对各组均值之间的配比照拟来进一步检验到底哪些均值之间存在差异。事后比拟的方法：1费舍最小显著差异法：对检验两总体均值是否相等的 t 检验方法的总体方差估计加以修正(用 MSE 代替)。2S-N-K

14、，q 检验：把各组均值排序，用每一比拟的两个均值在排序序列种相差的等级数来确定不同的 q 临界值。3HSD 检验：与 SNK 法类似，不同之处在于不管各组均值的大小次序，均使用同一临界值。4Bonferroni 校正(以 t 分布作为检验分布,对检验水准进展调整)，不适用于比拟的次数很多的情况。方差分析结果的解释与报告：单因素方差分析结果例：方差分析的结果见表 2显示，教学方法对阅读理解的成绩有显著影响，F(2,15)=4.44，MSE=34.94，p=0.0310.05，Etap2=0.37。进一步的多重比拟显示，当使用教学方法 2 时，被试的成绩显著高于使用方法 1p=0.015或方法 3

15、时 p=0.030；但是，方法 1 和方法 3 之间则无显著差异 p=0.737。双因素结果方差分析例：-标题提示与阅读速度对成绩的影响方差分析的结果显示，标题提示对成绩有显著影响，F(2,66)=3.856，MSE=2.475，p=0.0260.05，Eta p2=0.105。事后比拟结果显示，当标题提示为正确与中性时，成绩显著高于标题提示为误导时的成绩p0.05，但前两者无显著差异。方差分析还显示，阅读速度对成绩有显著影响，F(1,66)=21.573，MSE=2.475，p=0.0000.01，Eta p2=0.246，阅读速度为常速时的成绩比快速时更高。更重要的是，交互

16、作用显著，F(2,66)=3.575，MSE=2.475，p=0.0340.05，Eta p2=0.098，也就是说，标题提示对成绩的影响会随着阅读速度的不同而不同。简单主效应检验显示，阅读速度为快速时，标题提示为正确时的成绩显著高于标题提示为中性p=0.031和误导时p=0.001的成绩，但后两者无显著差异p=0.247；而当阅读速度为常速时，标题提示对成绩无显著影响F(1,66)=1.560，MSE=2.475，p=0.218，Eta p2=0.045。两因素完全随机设计的方差分析：适用情形：有 2 个自变量，自变量 A 有 p 个水平，自变量 B 有 q 个水平，共有p*q 种处理

17、。比单因素多了一个交互作用的离均差平方和。交互作用：交互作用显著以后，还要做进一步的简单主效应的检验。多重比拟：小结：-F 检验：主效应与交互作用是否显著。多重比拟：对显著的主效应进展多重比拟。简单主效应检验：检验因素 A(B)在 B(A)各个水平上的简单主效应，假设显著，继续就简单主效应进展多重比拟。九、相关相关量数相关系数：两列变量间相关程度的数字表现形式作为样本的统计量用r 表示，作为总体参数一般用表示。正相关：两列变量变动方向一样负相关：两列变量中有一列变量变动时，另一列变量呈现出与前一列变量方向相反的变动零相关：两列变量之间没有关系，各自按照自己的规律或无规律变化 1积差相

18、关也就是 Pearson 相关。1前提数据要成对出现，即假设干个体中每个个体都有两种不同的观测值，并且每队数据与其它对子相互独立两列变量各自总体的分布都是正态的，至少接近正态两个相关的变量是连续变量，也即两列数据都是测量数据两列变量之间的关系应是直线性的 2等级相关也就是 Spearman 相关 1适用围当研究考察的变量为顺序型数据时，假设原始数据为等比货等距，则先转化为-顺序型数据当研究考察的变量为非线性数据时 2公式将原始数据转化为顺序型数据，仍然用 Pearson 相关公式计算即可。3肯德尔等级相关 1肯德尔 W 系数也叫肯德尔和谐系数，原始数据资料的获得一般采用等级评定

19、法，即让 K 个被试对 N 件实物进展等级评定。其原理是评价者评价的一致性除以最大变异可能性。2肯德尔 U 系数*其与肯德尔 W 系数所处理的问题一样，但评价者采用对偶比拟法，即将 N 件事物两两配对分别进展比拟 4点二列相关与二列相关 1点二列相关适用于一列数据为等距正态变量，另一列为离散型二分变量。是与二分称名变量的一个值对应的连续变量的平均数是与二分称名变量的另一个值对应的连续变量的平均数 p 与 q 是二分称名变量两个值各自所占的比率 st 是连续变量的标准差 2二列相关适用于两列变量都是正态等距变量，但其中一列变量被人为地分成两类。y 为标准正态曲线中 p 值对应的高度，查正态

20、分布表能得到-相关系数：度量两个变量相关程度大小的数字特征。变量类型与该用的相关方法：两个定序变量-斯皮尔曼等级相关两定类变量-卡方独立性检验一定类，一个定序-卡方独立性检验定类序，定距-点二列相关，单因素方差分析两定距-皮尔逊相关积差相关各种统计方法的适用条件：T 检验：1总体正态分布2方差齐性3变量相互独立方差分析：1正态2方差齐性3独立性4变异可加性积差相关：1两个变量都是连续的2正态分布3变量之间为线性关系回归：1正态2线性关系3独立性4误差等分散积差相关的计算协方差：协方差是两个变量离均差乘积的均值。两个变量离均差的成绩能够反映两个变量的一致性。协方差是两个变量线

21、性关系的指示器，但不能直接用它来表示相关的大小，因为有不同的测量单位，故将其标准化。YXyxxySSNYYXXSSr)(cov 方差是协方差的特例。相关系数值的大小不表示相关是否显著。相关的程度与r 值不成正比卡方检验：为理论频数为实际频数，e,)(22feefx，理论频数=所占比率*人数-点二列相关：一个连续变量与另一个二分称名变量的相关程度。男女，上下二列相关：两列数据均为正态分布男女两个类别；十、回归回归：指由一个变量的变化去预测另一个变量的变化，描述一个变量随另一变量做不同程度变化的单向关系。回归分析的目的就是要找出一个错误最小的方法来用*预测 Y。回归分析的步骤：1建立并求解回

22、归模型的方程 2检验与评价回归方程的有效性针对整个回归方程针对各个回归系数（3）利用回归方程作出预测与控制建立回归方程：Y=a+b*b 为回归系数，Y 为实际的 Y 的预测值。XbYa 2)()(XXYYXXbiii 回归系数与相关系数：yxxyxybbr 检验与评价：是一个估计总体参数的置信区间和假设检验的问题。估计误差标准差标准误：2)(2NYYSyx 回归方程的显著性检验：回归方程参数的置信区间与检验：t 检验回归系数的b 的检验：1提出假设=0 2)2(ntSEbSEbtbb-（3）确定显著性水平，并决策。决定序数度量了 Y 的变异(由总平方和衡量)中可以由自变量的变异来解释的

23、比例：222)()(YYYYSSSSRTR (回归平方和与残差平方和)回归平方和占的比例越大，残差平方和占的比例就越小，回归直线拟合得越好决定序数与相关系数的关系：22XYrR 回归方程的解释：回归系数“平均而言，入学成绩每增加(或减少)1 分，期末成绩将增加(或减少)0.865 分。决定系数“期末成绩变异的 86.8%可以由入学成绩来解释。预测“对入学成绩为 80 分的学生，预测他们的期末成绩为 78 分，有 95%的把握在70 分至 86 分之间。多元回归：考察两个或两个以上的自变量对同一个因变量的影响。因变量：连续变量自变量：连续变量或连续变量根本与一元回归一样，但自由度不再是 N

24、-2.而是 N-p-1.自变量的选择：向前向后剔除法，逐步回归法如何理解标准误：标准误，即样本均数的标准差，是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度，反映的是样本均数之间的变异。标准误不是标准差，是多个样本平均数的标准差。标准误用来衡量抽样误差。标准误越小，说明样本统计量与总体参数的值越接近，样本对总体越有代表性，用样本统计量推断总体参数的可靠度越大。因此，标准误是统计推-断可靠性的指标。计算公式为：需要注意的是，标准误差不是测量值的实际误差，也不是误差围，它只是对一组测量数据可靠性的估计。标准误差小，测量的可靠性大一些，反之，测量就不大可靠。1.、标准误是描述抽样情况的参数，反响了抽样样本和总体样本之间的差异。2、由于通常我们无法对所有数据进展检测，只能进展抽样检测，所以就应该有一个参数来反响抽样质量的上下。

展开阅读全文