教学课件第4章 统计分析:推断统计.pptx

上传人:春哥&#****71; 文档编号:25049944 上传时间:2022-07-09 格式:PPTX 页数:95 大小:2.50MB
返回 下载 相关 举报
教学课件第4章 统计分析:推断统计.pptx_第1页
第1页 / 共95页
教学课件第4章 统计分析:推断统计.pptx_第2页
第2页 / 共95页
点击查看更多>>
资源描述

《教学课件第4章 统计分析:推断统计.pptx》由会员分享,可在线阅读,更多相关《教学课件第4章 统计分析:推断统计.pptx(95页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、教材配套资源页完整PPT课件教学课件第4章 统计分析:推断统计1配套教材:毛新述编著,2022,实证研究方法论Stata应用,中国人民大学出版社2描述性统计与Stata实现推断统计与Stata实现3随机变量的概率与分布参数估计假设检验4统计只说可能性是实际世界统计只说可能性是实际世界的真实体现。真实世界充满的真实体现。真实世界充满了不确定性。了不确定性。从某种意义来说,生活中唯从某种意义来说,生活中唯一确定的事情就是其不确定一确定的事情就是其不确定性。性。 5正是不确定性使得生活充满正是不确定性使得生活充满了魅力和迷人的色彩。了魅力和迷人的色彩。有多少人会享受其未来每一有多少人会享受其未来每一

2、时刻全部已经确定了的世界时刻全部已经确定了的世界呢?呢?6随机现象与随机变量o 随机现象:在个别试验中其结果呈现出不确定性,在大量重复试验中其结果又具有统计规律性的现象o 随机变量:用来描述随机实验结果的变量,其取值随试验的结果而定,在试验之前不能预知它取什么值,且其取值具有一定的概率o 随机变量的引入,使我们能方便地描述各种随机现象71.一次试验的结果的数值性描述2.一般用 X、Y、Z 来表示3.例如: 投掷两枚硬币出现正面的数量4.根据取值情况的不同分为离散型随机变量和连续型随机变量8在概率论中,所研究的随机变量,它的分布都是假设已知的,在这一前提下研究它的性质、特点和规律性在数理统计中,

3、所研究的随机变量,它的分布是未知的,或者不是完全知道的,通过对所研究的随机变量进行重复独立的观察,得到许多观测值,对这些数据进行分析,从而对所研究的随机变量的分布做出种种推断9设X是具有分布函数F的随机变量,若X1,X2,X3,.,Xn是具有同一分布函数F的、相互独立的随机变量,则称X1,X2,X3,.,Xn为从分布函数F(总体X)得到的容量为为n的简单随机样本,简称样本,他们的观察值x1,x2,x3,.,xn称为样本值。10o 设X1,X2,X3,.,Xn是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2,X3,.,Xn),不依赖于任何未知参数参数,则称函数T(X1

4、,X2,X3,.,Xn)是一个统计量统计量。 样本均值和样本方差都是常用的统计量o 因为X1,X2,X3,.,Xn是随机变量,因此统计量也是随机变量样本是进行统计推断的依据。但应用时,往往不是直接使用样本本身,而是针对不同的问题构造样本的适当函数,来进行统计推断11统计量的分布称为抽样分布在使用统计量进行统计推断时,常需要知道它的分布。当总体的分布函数已知时,抽样分布是确定的。但要求出统计量的精确分布,一般来说是困难的统计量的分布称为抽样分布在使用统计量进行统计推断时,常需要知道它的分布。当总体的分布函数已知时,抽样分布是确定的。但要求出统计量的精确分布,一般来说是困难的12设一个总体,含有4

5、个元素(个体) ,即总体单位数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4 。现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n = 2 的样本(共16个)13 计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值14统计推断从数据得到对现实世界的结从数据得到对现实世界的结

6、论的过程论的过程15样本统计量样本统计量例如:样本均值、比例、方差总体均值、比总体均值、比例、方差等例、方差等一.估计量与估计值二.点估计与区间估计三.评价估计量的标准191.估计量:用于估计总体参数的随机变量如样本均值,样本比例、样本方差等例如: 样本均值就是总体均值 的一个估计量2.参数用 表示,估计量用 表示3.估计值:估计参数时计算出来的统计量的具体值如果样本均值 x =80,则80就是 的估计值估计量是样本的函数,对于不同的样本值,参数 的估计值一般是不相同的20有95%的样本均值会落在2个(比较精确的值是1.96)标准误差范围内。2122统计推断的另一类重要问题是假设检验问题在总体

7、的分布函数完全未知或只知道其形式、但不知道其参数的情况,为推断总体的某些未知特性,提出某些关于总体的假设,然后根据样本对所提出的假设做出拒绝,还是不能拒绝的决策假设检验是作出这一决策的过程23 对总体参数的的数值所作的一种陈述 总体参数包括总体均值总体均值、比例比例、方差方差等 分析之前之前必需陈述我认为该地区新生婴儿的平均体重为3190克!1.事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断原假设/零假设是否成立2.采用逻辑上的反证法,依据统计上的小概率原理25之所以用零来修饰原假设,其原因是原假设的内容总是没有差异或没有改变,或变量间没有关系等等零假设总是一个与总体参数有关的问

8、题,所以总是用希腊字母表示。关于样本统计量如样本均值或样本均值之差的零假设是没有意义的,因为样本统计量是已知的,当然能说出它们等于几或是否相等26设立原假设的动机主要是企图利用人们掌握的反映现实世界的数据来找出假设和现实的矛盾,从而否定这个假设。如果否定不了,那就说明证据不足,无法否定原假设。但这不能说明原假设正确。例如,我从来没骂过人27 什么是小概率? 1. 在一次试验中,一个几乎不可能发生的事件发生的概率 2. 在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设 3. 小概率由研究者事先确定28概率是从0到1之间的一个数,因此小概率就应该是接近0的一个数著名的英国统计家Ronald

9、Fisher 把20分之1作为标准,这也就是0.05,从此0.05或比0.05小的概率都被认为是小概率Fisher没有任何深奥的理由解释他为什么选择0.05,只是说他忽然想起来的29假定某行业公司的每股收益(EPS)服从正态分布,正常情况下,该行业公司的EPS均值为0.5元/股,标准差为0.015。2019年随机抽取该行业9家公司2018年年报披露的每股收益,分别为:请问,该行业公司2018年度的业绩是否正常?1234567890.4970.5060.5180.5240.4980.5110.5200.5150.51230以 , 分别表示总体X的均值和标准差。假定该行业属于成熟行业,业绩波动比较

10、小,设=0.015。于是XN(, 0.0152), 未知。问题是根据样本值来判断 =0.5,还是 0.5提出两个相互对立的假设 H0: 0.5和 H1: 0.5然后,利用合理的法则来判断31由于检验的假设涉及总体均值 ,故首先想到是否可借助样本均值这一统计量来判断样本均值是 的无偏估计,样本均值一定程度上反映了 的大小,因此,如果H0为真, 一般不应太大,如果差异过大,就有理由怀疑H0的正确性。当H0为真, ,衡量 的大小可归 结于衡量 的大小0 x0 x0 xn32当 时,就拒绝原假设H0 ,反之不能拒绝由于做出决策的依据是一个样本,当H0实际上为真时,仍可能做出拒绝H0的决策,这是一种错误

11、,应当予以控制P当H0为真拒绝H0,即犯错误的概率最大为当H0为真, 由标准正态分布分位点的定义 可得0 xkn00|XPkn33通常,为了控制犯错误的概率,取值较小若H0为真,即当 = 0,时,是一个小概率事件,根据实际推断原理,就可以认为,如果H0为真,则由一次试验得到的观察值,满足不等式几乎是不会发生的,现在在一次观察中竟然出现了,就有理由怀疑 H H0 的正确性,因而拒绝H00/ 2|Xkzn0/ 2|xkzn340.511,0.015,9,0.50.05xn假设,给定,则有00.511 0.52.20.015/ 9xZn/22.21.96zdisp invnormal(0.025)

12、if normal(z) = p, then invnormal(p) = z.根据零假设根据零假设(不是备选假设!),我们可以得到该检验(不是备选假设!),我们可以得到该检验统计量的分布;统计量的分布;然后再看这个统计量的数据实现值(然后再看这个统计量的数据实现值(realization)属不属)属不属于小概率事件。也就是说把数据代入检验统计量,看其于小概率事件。也就是说把数据代入检验统计量,看其值是否落入零假设下的小概率范畴;值是否落入零假设下的小概率范畴;如果的确是小概率事件,那么我们就有可能拒绝零假设如果的确是小概率事件,那么我们就有可能拒绝零假设,否则我们说没有足够证据拒绝零假设。,

13、否则我们说没有足够证据拒绝零假设。36假设检验就好像一场审判过程统计检验过程37你不能同时减你不能同时减少两类错误少两类错误! !38什么是P 值?(P-value)P值(p-value)是检验统计量在零假设下等于这个样本的数据实现值或更加极端值的概率1.是一个概率值2.拒绝原假设犯错误的概率39实际上,计算机软件仅仅给出p-值,而不给出a。这有很多方便之处比如a=0.05,而假定我们得到的p-值等于0.001。这时我们如果如果采用p-值作为新的显著性水平,即alpha()=0.001,于是可以说,我们拒绝零假设,显著性水平为0.001。拒绝零假设时犯错误的概率实际只是千分之一而不是百分之五在

14、这个意义上,p-值又称为观测的显著性水平(observed significant level)。在统计软件输出p-值的位置,有的用“p-value”,有的用significant的缩写“Sig”就是这个道理40展示结果的精确性(根据数据减少 的值)总是没有害处的。这好比一个身高180厘米的男生,可能愿意被认为高于或等于180厘米,而不愿意说他高于或等于155厘米,虽然这第二种说法数学上没有丝毫错误。41假定有两个班级进行考试。假定有两个班级进行考试。从第一个班抽取从第一个班抽取2 2个观测值的一个样本个观测值的一个样本,分数为(数据,分数为(数据1 1 )( (n n=2)=2):-100,

15、 -100, -300300分分( (样本均值样本均值-200-200分分) ) 从第二个班抽取从第二个班抽取1010个观测值的样本,个观测值的样本,分数为(数据分数为(数据2 2)( (n n=10)=10):100, 100, 100, 100, 100, 100, 100, 100, 99, 99, 99, 100, 100, 100, 100, 99, 99, 99, 9999(样本均值(样本均值99.699.6分)分)哪个班平均成绩更接近哪个班平均成绩更接近100100分?分?42H0: m=100 对对 Ha: m=34Xi|Xi-M0|秩符号4307-6286-9255-1519

16、4-3133-3311-3622+65318+77439+885410+Wilcoxon符号秩检验:W-=26,W+=29,检验统计量W=W+=29,P值=0.5771符号检验:S-=6,S+=4,检验统计量K=S+=4,P值=0,33763符号检验: command:signtestsigntest varname = exp if in signtest x=0Wilcoxon符号秩检验:Command:signranksignrank varname = exp if in signrank x=0642.1独立两样本检验2.1.1 比较两独立总体中位数的非参数检验:Wilcoxon(M

17、ann-Whitney)o 原理:假定第一个样本有m个观测值,第二个样本有n个观测值。把两个样本混合之后,把这m+n个观测值按照大小次序排列,然后记下每个观察值在混合排序下面的秩。然后分别把这两个样本所得到的秩相加,然后根据这两个秩和构造统计量(Wilcoxon统计量)。o 该检验需要的惟一假定就是两个总体的分布有类似的形状65Command:ranksumranksum varname if in, by(groupvar) porder ranksum tests the hypothesis that two independent samples (i.e., unmatched da

18、ta) are from populations with the same distribution by using the Wilcoxon rank-sum test, which is also known as the Mann-Whitney two-sample statistic (Wilcoxon 1945; Mann and Whitney 1947).662.2成对两样本检验当总体未知时,应该使用非参数方法成对样本的检验很容易转换为单样本检验: 检验成对样本的中位数是否相等等价于检验成对样本的中位数之差是否显著异于067 command:signtestsigntest

19、 varname = exp if insigntest also tests the equality of matched pairs of observations (Arbuthnott 1712, but better explained by Snedecor and Cochran 1989) by calculating the difference between varname and the expression. The null hypothesis is that the median of the differences is zero; no further a

20、ssumptions are made about the distributions. This, in turn, is equivalent to the hypothesis that the true proportion of positive (negative) signs is one-half.68Command:signranksignrank varname = exp if insignrank tests the equality of matched pairs of observations by using the Wilcoxon matched-pairs

21、 signed-ranks test (Wilcoxon 1945). The null hypothesis is that both distributions are the same.693.1独立多样本检验3.1.1 关于多样本秩和检验o 检验目的是看多个总体的位置参数是否一样。方法和Wilcoxon(Mann-Whitney)检验的思路类似。o 原理:假定有k个总体,先把从这k个总体来的样本混合起来排序,记各个总体观测值的秩之和为Ri,i=1,k。显然,如果各个Ri很不相同,就可以认为它们位置参数相同的零假设不妥。o 该检验仅要求各个总体有相似形状的连续分布70Command: k

22、walliskwallis varname if in , by(groupvar)kwallis tests the hypothesis that several samples are from the same population. In the syntax diagram above, varname refers to the variable recording the outcome, and groupvar refers to the variable denoting the population. by() is required.713.1独立多样本检验3.1.2

23、 关于多样本中位数检验o 在有数个独立样本的情况下,有时希望检验他们的中位数是否相等。零假设是这些样本所代表的总体中位数相等。备择假设是这些中位数不全相等o 步骤:(1)所有样本混合找共同中位数,(2)然后计算每个总体中小于该中位数的观测值个数,(3)构造相关统计量,称为Brown-Mood中位数检验72Command:medianmedian varname if in weight, by(groupvar) median_optionsmedian performs a nonparametric K-sample test on the equality of medians. It

24、tests the null hypothesis that the K samples were drawn from populations with the same median. For two samples, the chi-squared test statistic is computed both with and without a continuity correction.733.2成对多样本检验3.2.1 Friedman秩和检验o 它适用于两种因子的各种水平的组合都有一个观察值的情况o 3种减肥药分别用于4个人进行进行实验743.2成对多样本检验3.2.2 Ken

25、dall协同系数检验o 在实践中,常需要按照某些特别的性质来多次对一些个体进行评估或排序o 比如,m个评估机构对n个学校进行排序,人们想知道这些机构的不同结果是否一致,如果很不一致,则该评估多少有些随机,意义不大。75Command:friedman 【需自行下载需自行下载】friedman varlist in range if expfriedman estimates Friedmans nonparametric two-way analysis of variance and Kendalls Coefficient of Concordance (a descriptive mea

26、sure of the agreement between k sets of rankings). The two tests are equivalent and one p-value is given for both. 76命令命令说明说明signtest 单样本或成对两样本符号检验singrank单样本或成对两样本符号秩检验ranksum独立两样本秩和检验kwallis独立多样本秩和检验median独立多样本中位数检验friedman成对多样本秩和检验77成对样本webuse fuelsigntest mpg1 = mpg2signrank mpg1 = mpg2独立样本Perfo

27、rm rank-sum test on mpg by using the two groups defined by treatranksum mpg, by(treat)Perform Pearson chi-squared test of the quality of the medians of mpg between the two groups defined by treatmedian mpg, by(treat)78 Setupsysuse censusTest equality of median age distribution across all regions sim

28、ultaneouslykwallis medage, by(region)79801.是一一对应的确定关系2.设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量3.各观测点落在一条线上 81函数关系的例子某种商品的销售额(y)与销售量(x)之间的关系可表示为 y = px (p 为单价)圆的面积(S)与半径之间的关系可表示为S= R2 企业的原材料消耗额(y)与产量(x1) 、单位产量消耗(x2) 、原材料价格(x3)之间

29、的关系可表示为y = x1 x2 x3 821.变量间关系不能用函数关系精确表达2.一个变量的取值不能由另一个变量唯一确定3.当变量 x 取某个值时,变量 y 的取值可能有几个4.各观测点分布在直线周围 83相关关系的例子父亲身高(y)与子女身高(x)之间的关系收入水平(y)与受教育程度(x)之间的关系粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之间的关系商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系841.对变量之间关系密切程度的度量2.对两个变量之间线性相关程度的度量称为简单相关系数3.若相关系数是根据总体全部数据计算的,称为

30、总体相关系数,记为 4.若是根据样本数据计算的,则称为样本相关系数,记为 r85 样本相关系数的计算公式或化简为861. r 的取值范围是 -1,12. |r|=1,为完全相关r =1,为完全正相关r =-1,为完全负正相关3. r = 0,不存在线性线性 相关关系相关4. -1r0,为负相关5. 0r1,为正相关6. |r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切87-1.0+1.00-0.5+0.5完全负相关完全负相关无线性相关无线性相关完全正相关完全正相关负相关程度增加负相关程度增加r正相关程度增加正相关程度增加88Pearson相关系数(相关系数(Pearsons cor

31、relation coefficient)又叫相关系数或线性相关系数Spearman 秩相关系数(秩相关系数(Spearman rank correlation coefficient 或或Spearmans r)Kendall t 相关系数(相关系数(Kendalls t)89Pearson相关系数(相关系数(Pearsons correlation coefficient)又叫相关系数或线性相关系数。它一般用字母r表示。它是由两个变量的样本取值得到,这是一个描述线性相关强度的量,取值于-1和1之间。当两个变量有很强的线性相关时,相关系数接近于1(正相关)或-1(负相关),而当两个变量不那么

32、线性相关时,相关系数就接近0。90Spearman 秩相关系数(秩相关系数(Spearman rank correlation coefficient 或或Spearmans r)它和Pearson相关系数定义有些类似,只不过在定义中把点的坐标换成各自样本的秩(即样本点大小的“座次”)。Spearman相关系数也是取值在-1和1之间,也有类似的解释。通过它也可以进行不依赖于总体分布的非参数检验。在描述定序数据的相关性上,Spearman 秩相关系数更恰当91Kendall t 相关系数(相关系数(Kendalls t)这里的度量原理是把所有的样本点配对(如果每一个点由x和y组成的坐标(x,y)

33、代表,一对点就是诸如(x1,y1)和(x2,y2)的点对),然后看每一对中的x和y的观测值是否同时增加(或减少)。比如由点对(x1,y1)和(x2,y2),可以算出乘积(x2-x1)(y2-y1)是否大于0;如果大于0,则说明x和y同时增长或同时下降,称这两点协同协同(concordant);否则就是不协同。如果样本中协同的点数目多,两个变量就更加相关一些;如果样本中不协同(discordant)的点数目多,两个变量就不很相关。92scatter var3 var2scatter var4 var2scatter var5 var2scatter var6 var2corr var2-var6pwcorr var2-var6,sigspearman var2-var693谢谢大家!94本课件制作整理者:郭迎春 仅可用于教学、学习、交流使用 如内容、图片、字体等有侵权,请联系删除。 95

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁