资源描述
.-
第一节 正态分布
1 正态分布的特点
首先,钟形对称分布
其次,的概率是95%;的概率是99%;将称为决策水平0.05上的小概率事件,将称为决策水平0.01上的小概率事件。其中,X是总体中的随机抽取的一个数值;μ为总体平均值,
第三,曲线两端无限靠近横轴。
2 应用
(1)某学校三年级学生的平均智商是100,其标准差为15.那么,从中随机抽取一个学生,其智商大于等于130的概率是多少?其智商小于等于85的概率是多少?
(2)某企业生产的产品重量均值为100,标准差为15。质检人员从市场上随机抽取一件,发现其重量为115,仅从质量上看,如何用统计学视角来判断此产品是否属于这一企业(决策水平为0.05)。
(3)在上题中,如果质检人员从市场上发现一个产品的重量为140,那么,仅从质量上判断,此产品是否属于这一企业(决策水平为0.01)。
3 数据处理一
让学生报告自己的身高、体重以及自己的肥胖感知(我认为自己很肥胖)、以及自己的性别。数据处理任务包括:报告三个变量的茎叶图,并大致判断其分布形态;报告三个变量的平均值、中数以及中位数、标准差。
第二节 标准正态分布
将总体的平均值记为μ,标准差记为σ,将其中的数据或个案记为X。那么,使用公式,就可以将正态分布转化为标准正态分布。
标准正态分布是正态分布的一个特例,因此,第一节的内容皆可以标准正态分布进行直译。
思考题:标准正态分布的标准差是多少?其平均值又是多少?
对于标准正态分布而言,为决策水平0.05上的小概率事件,将为决策水平0.01上的小概率事件
思考题:某地三年级学生的身高是一个总体,并且是正态分布,均值为160厘米,标准差为5厘米。研究者随机抽取一个学生,其身高为170厘米。那么,此生在标准正态分布中的身高数值应该为多少?这次抽到他是一个小概率事件吗?为什么?
练习:将“数据处理一”中三个变量转化为标准正态分布,并报告其茎叶图。
第三节 样本均值的分布
1 存在一个非常数总体,无论其为何种分布。并且此总体平均值μ与标准差σ已知。用(放回式)随机抽样,获得无数个容量相等的样本,当每一个样本容量大于30时,样本均值的分布就是正态分布。
2将样本平均值记为,标准差记为S,容量记为n,则此分布的标准误。
3 样本均值分布的特点:
首先,是正态分布,
第二,此分布的理论均值等于总体均值μ。
第三,其标准误
第四, 的概率是95%;将称为决策水平为0.05上的小概率事件;的概率是99%。将的事件称为决策水平为0.01上的小概率事件;
第五,用公式 将其标准化,则得到标准正态分布。那么,,为决策水平0.05上的小概率事件,将为决策水平0.01上的小概率事件。
第四节 统计检验的逻辑
如果一个样本是从某一总体中随机抽样得来的,那么,这一个样本必定能够代表这一总体的特征,其含义有三。其一,两者的分布形态是一致的;其二,两者的方差是一致的;其三,两者的平均值是一致的。“一致”的统计含义是,在0.05或者0.01的决策水平上,是没有差异的。
当然,随机样本不能百分百地代表总体的特征,当这样的样本不能代表总体特征时,就说是小概率事件发生了。
在科学研究中,总体往往是一个理论上的或者特定的描述,包括其分布形态、平均值以及其标准差。而样本往往来自于现实的抽取中,通过比较三个方面,就可以决断这个样本是不是属于这个理论或者特定的总体。
比如,某地区90年代的14岁儿童的平均身高为μ厘米,标准差为σ厘米,并且为正态分布。现在来考察这一地区14儿童的身高是否与90年代同龄儿童的身高是否一致。
在统计学上,只能这样做:从现在的14岁儿童中,随机进行抽样,比如,抽取n个儿童构成一个样本,其平均值为 ,标准差为S。
由于是真正的随机抽样,那么,决策者会检验三个方面。第一,看此样本的分布是否与(90年代的那个)特定总体的分布形态有一致性,如果两者分布形态一致,即样本也是正态分布,那么第二,看此样本的方差是否与特定总体的方差具有一致性,如果两者方差一致,那么第三,看此样本的平均值是否与特定总体的均值具有一致性,如果一致,则可以认为此样本依然属于那个特定的总体,或者说,如今此地区14岁儿童的身高依然与90年代一样。
在上述中,“一致”是指在0.05或者0.01的水平上进行判断,即没有发生小概率事件。如果小概率事件发生,则说明“不一致”,或者说“具有显著性差异”。
关于分布形态一致性检验与方差一致性检验在后面再学习。这里,我们先认为此样本分布形态和方差皆与那个特定总体的一致,那么,就只剩下检验样本均值是否与那个特定总体的一致。
统计学上的检验过程表述如下。
H0:此样本是从90年代的总体中随机抽取的,那么,就有
计算过程:因为所以只需要证明是否成立,即是否成立。如果成立,则认为H0是正确的;反之,如果,则说明小概率事件发生了;一次随机抽样,就发生了小概率事件,那么我宁愿在0.05的水平上相信H0是不正确的,也就是说,此样本不是从90年代的那个样本中随机抽取的,或者说,这个样本不属于这个特定的总体。
在上面的逻辑过程中,H0的表述非常重要,因为,只有先假定此样本是能够代表这个特定总体,才能套用公式,这是为什么?这是因为,从任何非常数总体中,随机抽取无数个容量相等的大样本(通常指容量大于等于30),那么样本的均值(无数个)形成正态分布(其理论均值=,标准误);那么,的概率是95%,也即,的概率是95%。反之就是0.05水平上的小概率事件发生了。因此,理解H0与否,关系着统计检验的理解与否。
练习:从“数据处理一”中随机生产一个样本,并且报告此样本均值的标准分数。看全班同学抽取到的平均值有几个是小概率事件。
第四节 t分布
存在一个非常数总体,无论其为何种分布。并且此总体平均值μ已知,但其标准差σ未知。用(放回式)随机抽样,获得无数个容量相等的样本,样本均值的分布就是t分布。
t分布的特点如下表述。
首先,t分布为对称分布,并且左右对称
其次,t分布是一簇曲线,并且每个df(即自由度,df=n-1)皆有自己的分布形态。df越大,t分布越接近正态分布。
第三,在此情况下,样本均值分布的标准误。,其理论均值等于总体均值。
第四,的概率是95% ,而则为0.05水平上的小概率事件。的概率是99% ,而则为0.01水平上的小概率事件。
t检验练习
某心理量表的常模均值是14分。100名被试经过测试发现平均分为16.4(标准差为1.44)。请检验以上样本是否与量表的常模均值有显著差异(假设有关的分布是正态分布)。
决策过程
首先,提出虚无假设:如果此样本是从(均值为14的)特定总体中随机抽取的,那么,在0.05的决策水平上,应该有 。
第三步,计算。=14,。。查表,发现当df=100-1=99时,因此,,
可见,在0.05的水平上,是不成立的,这样,小概率事件发生了。决策结果是,此样本(均值为16.4)不是从(均值为14的)特定总体中随机抽取也来的,而是从另一个均值显著大于14的总体中随机抽取出来的。进一步推断,这100名学生代表着一个智商远远大于14的总体。
第五节 独立样本t检验
存在一个非常数总体,无论其为何种分布。并且此总体平均值μ与标准差σ皆未知。用(放回式)随机抽样,得到两个独立的样本,它们的平均值分别为与,标准差分别为与,样本容量分别为与
的分布为t分布,自由度df=-1; 的分布为t分布,自由度df=-1;
当与 皆较大时,两个样本皆可以较好地代表这个总体,这意味着,两个样本的方差一致(或同质),两个样本的平均值一致,即 与在统计学上是相等的。
两个样本均值之差( -)也是t分布,与相关的结论表述如下:
首先,均值之差的分布具有自由度df==+-2
其次,均值之差分布的标准误为,其中,
第三.的概率是95%,的概率是5%,称为0.05水平上的小概率事件。.的概率是99%,的概率是1%,称为0.01水平上的小概率事件。
练习:
决策过程如下表述。
首先,如果这两个样本为同一总体中随机得来的独立样本,那么,两个样本的方差应该一致或者同质。关于样本方差同质性检验以后再学。现在我们暂且认为两个样本方差同质。
其次,提出虚无假设:如果这两个样本为同一总体中随机得来的独立样本,那么,在0.01的决策水平上,就应该有
计算过程。,
可见是不成立的,,小概率事件发生了。一次实验或抽样就发生了小概率事件,因此,我们宁可相信,两个样本并不是来自同一个总体,双性化学生(总体)的均值要显著高于非双性化学生(总体)的均值。
练习:在“数据处理一”中,有三个变量的数据。请比较男性与女性在三个变量上是否有显著的差异。要求写出假设,并且解释处理结果的关键数据。
第五节 独立样本t检验中的方差齐性检验
首先介绍F分布。
从一个正态总体中,随机抽取两个样本,它们的方差分别为与 ,是F分布。的概率是95%,此时,就认为两个样本方差同质(或者相齐、一致);,就认为在0.05的水平上,两者方差不相齐,或者说它们来自不同的总体。在0.01水平上的情形类推。
练习:
下面是决策过程。
首先,提出虚无假设:如果两个样本是随机来自于同一个总体,那么,就应该有。
计算过程。。
查表,在分子的情况下,。所以,在0.01的决策水平上, 是成立的,因此接受。所以,在0.01的决策水平上,两个样本各自代表的总体具有一致的方差。
练习:在“数据处理一”中,有三个变量的数据。请比较男性与女性在三个变量上的方差是否具有一致性。要求写出假设,并且解释关键结果的含义。
第六节 相关样本t检验
从某一人群中随机抽取一个样本(容量为n),然后测量其打字水平,对这一样本培训一段时间,再次测量其打字水平。计算出每个被试前后测量的差异D,根据D的情况来判断培训是否有效。
以上情况应该用相关样本t检验。
检验过程:
首先,确保差异数据D是正态分布(如果不符合正态分布,则用非参数检验)。
其次,提出虚无假设:当培训没有效果时,D便是一个随机样本,它来自均值为0、自由度为n-1的t分布,这样,在0.01的决策水平上,应该有,其中,,
最后,根据计算结果进行决策。如果小概率事件发生,就拒绝虚无假设,做出与虚无假设相反的结论。
实验:产生“数据处理二”。
第七节 方差分析
1 独立样本方差分析
从一个正态总体中,随机抽取K个样本,如果这K个样本皆能很好地代表同一个总体,那么,必定有(1)K个方差一致(2)K个样本分布一致,皆为正态分布;(3)K个样本均值一致,此时,在0.05的决策水平上,必有,
其中,
2 重复测量的样本方差分析
从某一人群中随机抽取一个样本(容量为n),然后测量其打字水平,对这一样本培训一个月,再次测量其打字水平,再培训一个月,再次测量其打字水平。考察打字训练有没有效果。
思路如下表述。
首先,确保每次测量后的数据皆为正态分布;其次,其次,确保每次测量后的数据样本方差一致。第三,提出虚无假设:当培训没有效果时,在0.01决策水平上,应该有(其中,)第三,计算,如果小概率事件发生,则说明三次测量结果代表的是三个不同的总体,即培训是有显著效果的。
展开阅读全文
相关搜索