统计学基础课程学习.pptx-淘文阁

资源描述

《统计学基础课程学习.pptx》由会员分享，可在线阅读，更多相关《统计学基础课程学习.pptx（112页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、会计学1统计学基础统计学基础(jch)第一页，共112页。第一节第一节统计学的一些统计学的一些(yxi)(yxi)基本概念基本概念 1.总体与样本2.变量与随机变量3.同质与变异4.参数与统计量5.误差(wch)与错误6.准确性与精确性第2页/共112页第二页，共112页。1.总体总体(zngt)与样本与样本 Population and sample样本：从总体中随机抽取(chuq)的部分观察单位。如某单位男士的身高总体：根据研究目的确定的同质研究对象的全体(集合)。如成年人的身高。分有限(yuxin)总体与无限总体第3页/共112页第三页，共112页。从总体中得到样本的方法：抽样(chu

2、 yn)。（抽样(chu yn)方法与样本量）从样本推论总体的方法：统计推断（区间估计，假设检验等）抽样抽样(chu yn)与推断与推断第4页/共112页第四页，共112页。p变量可以(ky)测量的任何特征或属性。Anycharacteristicorattributethatcanbemeasured。p如热量值、蛋白质含量、碳水化合物含量。p随机变量在概率论中称变量为随机变量2、变量(binling)与随机变量(binling)Variableandrandomvariable第5页/共112页第五页，共112页。3、变量、变量(binling)（随机变量（随机变量(binling)）的

3、分类）的分类pp 离散型变量(binling)（discrete variable）：pp 计数资料（15，17，24，）pp 连续性变量(binling)（continuous variable）：pp 计量资料（1.65,1.73,1.77，）pp 有序变量(binling)（ordinal variable）：pp 等级资料（优、良、中、差）第6页/共112页第六页，共112页。4.参数参数(cnsh)与统计与统计量量 Parameter and statistic参数：总体的统计指标，如总体均数、标准差，采用希腊字母分别记为、。通常(tngchng)是固定的常数。总体总体(zngt)(

4、zngt)样本样本抽样统计量参数推断统计量：样本的统计指标，如样本均数、标准差，采用拉丁字母分别记为。参数附近波动的随机变量。第7页/共112页第七页，共112页。5.误差误差(wch)与错误与错误Error and mistake误差(wch)：试验中不可控因素所引起的实际观察值与客观真实值（真值）之差p系统误差systematicerrorp随机误差randomerror错误：试验(shyn)过程中，人为作用引起的差错如药品称量错误，数据录入错误等第8页/共112页第八页，共112页。误差（Error）测量值=真值+随机误差+非随机误差Xi=i+i1随机误差（抽样误差）：影响因素众

5、多，变化无方向性，不可避免，但可用统计方法进行分析(fnx)。2系统误差受确定因素影响，大小变化有方向性。3非系统误差（错误）研究者偶然失误而造成的误差。偏差bias可以(ky)避免第9页/共112页第九页，共112页。6.准确性与精确性准确性与精确性准确度(accuracy)或真实性(validity)：观察值与真值的接近程度，受系统误差的影响(常用指标：如灵敏度、特异性)。精密度(precision)、也称可靠(kko)度（reliability）或重复性(repeatability）：重复观察时观察值与其均值的接近程度，受随机误差的影响（常用指标：一致百分率、Kappa值）。第10页/共

6、112页第十页，共112页。系统误差使数据(shj)偏离了其理论值，影响数据(shj)的准确度。随机误差使数据(shj)相互分散，影响了数据(shj)的精密度。准确度和精密度都好准确度差、精密度好准确度？精密度差准确度和精密度都差第11页/共112页第十一页，共112页。第二节计量(jling)资料的统计描述连续型变量（可测量的变量）频数表与频数分布平均指标（算术均数、几何均数、中位数、众数(zhnsh)）变异指标（极差、百分位数与四分位间距、方差、标准差、变异系数）第12页/共112页第十二页，共112页。一、频数一、频数(pn sh)表与表与频数频数(pn sh)分布分布(freq

7、uency table and frequency distribution)第13页/共112页第十三页，共112页。160名正常成年名正常成年(chngnin)女子的女子的血清甘油三酯（血清甘油三酯（mmol/L）编号编号血清甘油三脂血清甘油三脂编号编号血清甘油三脂血清甘油三脂1 10.510.512 20.520.521531531.651.653 30.590.591541541.661.664 40.610.611551551.671.675 50.610.611561561.671.676 60.620.621571571.691.697 70.630.631581581.71.7

8、8 80.640.641591591.711.711601601.771.77第14页/共112页第十四页，共112页。组段组段（1）划划记记（2）频数，频数，f（3）组中值，组中值，X（4）0.5 30.550.6正正90.650.7正正正正120.750.8正正正正130.850.9正正正正正正170.951.0正正正正正正181.051.1正正正正正正正正201.151.2正正正正正正181.251.3正正正正正正171.351.4正正正正131.451.5正正91.551.6正正 81.651.71.8 合计合计 31.75160第15页/共112页第十五页，共112页。男子(nn

9、z)血清总胆固醇水平（mmol/L）Stem-and-Leaf Plot Frequency Stem&Leaf 5.00 2.78999 13.00 3.0111222333444 34.00 3.5555555566666666777778888999999999 32.00 4.00000001111111222223333334444444 35.00 4.55555555566666666677777888888899999 17.00 5.00112222233333344 10.00 5.5555677899 4.00 6.0022 Stem width:1.00 Each le

10、af:1 case(s)茎叶图茎叶图第16页/共112页第十六页，共112页。二二.平均指标平均指标总称为平均数（average）反映了资料的集中趋势（centraltendency）。常用的有：1.算术均数（arithmeticmean），简称均数（mean）2.几何均数（geometricmean）3.中位数（median）4.众数(zhnsh)（mode）5.调和均数（harmonicmean）6.截尾平均值（5%trimmedmean）第17页/共112页第十七页，共112页。1.均数（均数（mean）适用条件(tiojin)：资料呈正态或近似正态分布的资料第18页/共112页第十八页

11、，共112页。2.几何均数（几何均数（geometric mean）第19页/共112页第十九页，共112页。几何均数的适用几何均数的适用(shyng)条件与条件与实例实例适用条件(tiojin)：呈倍数关系的等比资料或对数正态分布（正偏态）资料；如增长速度、抗体滴度资料抗体(kngt)的效价滴度的倒数分别为：10、100、1000、10000、100000，求几何均数。此例的算术均数为22222，显然不能代表滴度的平均水平。对于同一资料，几何均数中位数众数(zhnsh)负偏态分布时：均数中位数几何平均数调和平均数上述五种(w zhn)平均数，最常用的是算术平均数。几种(jzhn)平均数

12、之间的关系第28页/共112页第二十八页，共112页。5%trimmedmean：将一组数中去掉(qdio)最小的5数值，再去掉(qdio)最大的5，然后将剩余的90计算平均值得出的数值。减小了极端值的影响。截尾(jiwi)平均值第29页/共112页第二十九页，共112页。三三.变异变异(biny)（variation）指标指标反映(fnyng)数据的离散度（Dispersion）。即个体观察值的变异程度。常用的指标有：1.极差（Range）(全距)2.百分位数与四分位数间距PercentileandQuartilerange3.方差Variance4.标准差StandardDeviation

13、5.变异系数CoefficientofVariation第30页/共112页第三十页，共112页。1.极差（极差（Range）（全距）（全距）优点：简便缺点(qudin)：1.只利用了两个极端值2.n大，R也会大3.不稳定第31页/共112页第三十一页，共112页。1.6m1.8m2.百分位数与四分百分位数与四分(s fn)位数间距位数间距 Percentile and quartile range百分位数：数据(shj)从小到大排列，在百分尺度下，所占百分比对应的值。记为Px。四分位间距Quartilerange：QRP75P25四分位半间距Quartiledeviation：QDQR/2X

14、Frequency25%75%第32页/共112页第三十二页，共112页。3.方差方差(fn ch)方差（variance）也称均方差（meansquaredeviation），样本观察值的离均差(jnch)平方和的均值。表示一组数据的平均离散情况。第33页/共112页第三十三页，共112页。4.4.标准差标准差标准差（Standarddeviation,Std,SD）即方差的正平方根；其单位(dnwi)与原变量X的单位(dnwi)相同。总体(zngt)标准差第34页/共112页第三十四页，共112页。样本样本(yngbn)方差为什么要除以（方差为什么要除以（n1）与自由度（degreesof

15、freedom）有关。自由度是数学名词，在统计学中，n个数据(shj)如不受任何条件的限制，则n个数据(shj)可取任意值，称为有n个自由度。若受到k个条件的限制，就只有（nk）个自由度了。例如一个有5个观察值的样本，因为受到统计数的约束，在5个离均差中，只有4个数值可以在一定范围内自由(zyu)变动取值，而第五个离均差必须满足这一限制条件。第35页/共112页第三十五页，共112页。基本概念：样本(yngbn)容量及样本(yngbn)个数样本容量(n)：指一个样本所包含的单位数。一般将样本单位数不少于三十个(50?)的样本称为大样本，样本单位数不到三十个的样本称为小样本。样本个数(g)：又

16、称样本可能数目，是指从一个总体(zngt)中抽取了多少个样本。第36页/共112页第三十六页，共112页。基本概念：抽样误差抽样误差：指按照随机原则抽样时，样本指标与总体(zngt)指标之间存在的误差。主要包括：总体(zngt)平均数和样本平均数的误差；总体(zngt)标准差和样本标准差的误差。第37页/共112页第三十七页，共112页。基本概念：抽样(chu yn)平均误差为什么要研究抽样平均误差？未知实际误差未知：即使知道，由于样本均值是随机(su j)的，每次的误差也不一样。第38页/共112页第三十八页，共112页。均数的抽样误差与标准(biozhn)误例如，从总体均数=4.13

17、6mmol/L、标准差=0.817mmol/L的正态分布总体N(4.136,0.8172)中，随机抽取n人为一个样本（n=5,10,20,30），并计算该样本的均数、标准差。如此重复(chngf)抽取1000次（g=1000），可得到1000份样本，可得到1000份均数和标准差S。第39页/共112页第三十九页，共112页。10001000份样本份样本(yngbn)(yngbn)的均数和标准的均数和标准差差均数的抽样误差与标准(biozhn)误第40页/共112页第四十页，共112页。将这1000份样本的均数看成新变量值，按频数分布(fnb)方法，得到这1000份样本均数的直方图。随机抽样所得

18、随机抽样所得(su d)1000(su d)1000份样本均数的分布份样本均数的分布当n5时第41页/共112页第四十一页，共112页。当n10时第42页/共112页第四十二页，共112页。当n20时第43页/共112页第四十三页，共112页。当n30时第44页/共112页第四十四页，共112页。1000份样本均数的抽样分布(fnb)特点样本(yngbn)含量均数均数标准差 n mean sd 5 4.14030 0.36305 10 4.14039 0.25024 20 4.13859 0.17849 30 4.14173 0.14954 总体(zngt)均数4.136总体标准差0.81

19、7第45页/共112页第四十五页，共112页。1000份样本均数的抽样分布特点：1000份样本均数中，各样本均数间存在差异，但各样本均数在总体均数周围波动。样本均数的分布曲线为中间高，两边(lingbin)低，左右对称，近似服从正态分布。随着样本量增加，样本均数的标准差明显变小：第46页/共112页第四十六页，共112页。4 4个抽样实验个抽样实验(shyn)(shyn)结果比较结果比较通过(tnggu)增加样本含量n来降低抽样误差。第47页/共112页第四十七页，共112页。5.变异系数变异系数(Coefficientofvariation，CV)适用条件：观察(gunch)指标单位不同，如

20、身高、体重同单位资料，但均数相差悬殊均数标准差变异系数青年男子身高170 cm6 cm3.5体重60 kg7 kg11.7第48页/共112页第四十八页，共112页。6.数据(shj)的标准得分假定两个水平类似的班级（一班和二班）上同一门课，但是由于两个任课老师的评分标准不同，使得两个班成绩的均值(jnzh)和标准差都不一样(SPSS数据：grade.sav)。分数的均值(jnzh)标准差CV一班78.539.4312%二班70.197.0010%那么得到90分的一班的张颖是不是比得到82分的二班的刘涛成绩更好呢？怎么比较才能合理呢？第49页/共112页第四十九页，共112页。数据(sh

21、j)的标准得分均值和标准差不同的数据不能够直接比较，但是可以把它们进行标准化，然后再比较标准化后的数据。一个标准化的方法(fngf)是把原始观测值（亦称得分，score）和均值之差除以标准差；得到的度量称为标准得分(standard score，又称为z-score)。即：第50页/共112页第五十页，共112页。数据(shj)的标准得分然后可以比较来自不同样本的标准得分。这样：张颖的标准得分为刘涛的标准得分为显然如果两个班级水平差不多，刘涛的成绩(chngj)应该优于张颖的成绩(chngj)；这是在标准化之前的数据中不易看到的。第51页/共112页第五十一页，共112页。n原始数据是在各自的

22、均值附近，散布也不一样(yyng)。但它们的标准得分则在0周围散布，而且散布也差不多。n实际上，任何样本经过这样的标准化后，就都变换成均值为0、方差为1的样本。标准化后不同样本观测值的比较只有相对意义，没有绝对意义。第52页/共112页第五十二页，共112页。第三节第三节计数计数(j sh)资料的统计描述资料的统计描述第53页/共112页第五十三页，共112页。按年龄按年龄(ninlng)(ninlng)（2 2岁一组）与职业岁一组）与职业整理整理年龄工人管理人员农民商业服务无知识分子总计18 2 0 0 0 3 0 520 9 2 610 18 0 452228 71024 701

23、11502450342852153443612650432545133703662834351034 78572483011141122 39171143214 2 314 24 3 6034 4 2 5 3 12 2 2836 2 1 1 4 5 1 1438 3 1 1 0 2 1 840 0 0 2 0 0 0 2合计 207 1411022085372061401第54页/共112页第五十四页，共112页。统计软件(run jin)的种类SPSS：这是一个很受欢迎的统计软件(run jin)；容易操作，输出漂亮，功能齐全;对于非统计工作者是很好的选择。Excel：作为数据表格软件(ru

24、n jin)，有一定统计计算功能；对于简单分析比较方便；对于较复杂的分析，需要使用函数，甚至根本没有相应的方法了。多数专门一些的统计推断问题还需要其他专门的统计软件(run jin)来处理。第55页/共112页第五十五页，共112页。统计软件(run jin)的种类SAS：功能非常齐全的软件功能非常齐全的软件(run jin)；某些美国政府机构认可；某些美国政府机构认可；需要一定的训练才可以使用，对于非专业统计需要一定的训练才可以使用，对于非专业统计人员不那么方便。人员不那么方便。S-plus：统计学家喜爱的软件统计学家喜爱的软件(run jin)；其功能齐全，具有强大的编程功能；其功能齐全，

25、具有强大的编程功能；专业统计人员可以编制自己的程序来实现自己专业统计人员可以编制自己的程序来实现自己的理论和方法。的理论和方法。第56页/共112页第五十六页，共112页。统计软件(run jin)的种类Statistica：容易操作;统计资料分析、图表、资料管理;应用程序开发。Origin：容易操作;输出图形(txng)的清晰度高（很多杂志要求）。第57页/共112页第五十七页，共112页。第三节第三节常见常见(chn(chn jin)jin)的概率分布的概率分布一概率(gil)的有关概念二概率分布概述(ish)三离散型随机变量的概率分布四正态分布五常用的抽样分布第58页/共112页第五

26、十八页，共112页。一概率的有关(yugun)概念第59页/共112页第五十九页，共112页。样本的实际发生率称为频率。设在相同条件下，独立重复进行n次试验，事件A出现(chxin)f次，则事件A出现(chxin)的频率为f/n。概率：随机事件发生的可能性大小，用大写的P表示；取值0，1。样本含量n越大，频率的波动幅度越小，频率越接近概率。频率频率(pnl)(pnl)与概率与概率 frequency and probability frequency and probability第60页/共112页第六十页，共112页。必然事件 P=1随机事件 0 P 1不可能(knng)事件 P=0 P

27、0.05（5）或P 0.01（1）称为小概率事件(习惯)，统计学上认为不大可能(knng)发生。随机随机(su j)(su j)事件事件 Random events Random eventsCertainCertainImpossibleImpossible0.50.50 01 1第61页/共112页第六十一页，共112页。概率分布：描述随机变量概率分布：描述随机变量(su j bin(su j bin lin)lin)值值xixi及这些值对应概率及这些值对应概率P(X=xi)P(X=xi)的表格、的表格、公式或图形。公式或图形。n n离散离散(lsn)(lsn)型随机变量型随机变量概率分布

28、概率分布n n连续型随机变量概率分连续型随机变量概率分布布二二概率分布概述概率分布概述(i sh)(i sh)第62页/共112页第六十二页，共112页。1.1.离散离散(lsn)(lsn)型随机变量的概率分布型随机变量的概率分布第63页/共112页第六十三页，共112页。离散离散(lsn)型随机变量的概率分布（例型随机变量的概率分布（例一）一）抗体滴度人数,x比例,f(x)1:101:201:401:801:1601:3201:6401:1280合计431010111514269.058.043.145.145.159.217.203.0291.000f(x)第64页/共112页第六十四页

29、，共112页。离散离散(lsn)型随机变量的型随机变量的概率分布（例二）概率分布（例二）N=10,=0.2如新手上(shushn)路某事件(shjin)出错的概率是0.2，连续进行10次这样的事件(shjin)，出现010次错误的概率分布：第65页/共112页第六十五页，共112页。2.连续型随机变量连续型随机变量(su j bin lin)的概率分布的概率分布与离散型变量不同的是连续型变量的取值充满整个数值区间，无法一一列出其每一个可能值。一般将连续型随机变量(su j bin lin)整理成频数表，对频数作直方图，直方图的每个矩形顶端连接的阶梯形曲线来描述连续型变量的频数分布。第66页/

30、共112页第六十六页，共112页。第67页/共112页第六十七页，共112页。如果样本量很大，组段很多，矩形顶端组成如果样本量很大，组段很多，矩形顶端组成如果样本量很大，组段很多，矩形顶端组成如果样本量很大，组段很多，矩形顶端组成的阶梯型曲线可变成光滑的分布曲线。的阶梯型曲线可变成光滑的分布曲线。的阶梯型曲线可变成光滑的分布曲线。的阶梯型曲线可变成光滑的分布曲线。大多数情况下，可采用大多数情况下，可采用大多数情况下，可采用大多数情况下，可采用(ciyng)(ciyng)(ciyng)(ciyng)一个函一个函一个函一个函数拟合这一光滑曲线。这种函数称为概率密度函数拟合这一光滑曲线。这种函数称为

31、概率密度函数拟合这一光滑曲线。这种函数称为概率密度函数拟合这一光滑曲线。这种函数称为概率密度函数（数（数（数（Probability density functionProbability density functionProbability density functionProbability density function，PdfPdfPdfPdf）。）。）。）。xxxfff第68页/共112页第六十八页，共112页。n n如果(rgu)连续型随机变量X的概率密度函数记为：n n则在区间x1,x2 范围内的概率可由微积分函数定义第69页/共112页第六十九页，共112页。三三离散

32、型随机变量离散型随机变量(su j bin lin)的概的概率分布率分布离散型随机变量离散型随机变量(su j bin lin)的分布的分布1、二项分布、二项分布2、泊松分布、泊松分布连续型随机变量连续型随机变量(su j bin lin)的分布的分布正态分布正态分布第70页/共112页第七十页，共112页。毒性试验：白鼠死亡生存临床试验：病人治愈未愈临床化验：血清阳性(yngxng)阴性任一事件成功（A）失败（非A）这类“成功失败型”试验称为Bernoulli试验。1、二项分布、二项分布Binomial distribution第71页/共112页第七十一页，共112页。Bernou

33、lli试验试验(shyn)序列序列n次Bernoulli试验构成了Bernoulli试验序列。其特点（如抛硬币）如下：(1)每次试验结果，只能是两个(lin)互斥的结果之一(A或非A)。(2)每次试验的条件不变。即每次试验中，结果A发生的概率不变，均为。(3)各次试验独立。即一次试验出现什么样的结果与前面已出现的结果无关。第72页/共112页第七十二页，共112页。成功成功(chnggng)次数的概率分布次数的概率分布二二项分布项分布例设某毒理试验采用白鼠共3只，它们有相同的死亡概率，相应(xingyng)存活概率为1-。记试验后白鼠死亡的例数为X，分别求X0、1、2和3的概率第73页/

34、共112页第七十三页，共112页。3只白鼠各种试验结果(ji gu)及其发生概率第74页/共112页第七十四页，共112页。第75页/共112页第七十五页，共112页。二项分布的概率(gil)计算=BINOMDIST(1,3,0.4,0)第76页/共112页第七十六页，共112页。=0.5，正态0.5，左偏二项分布的特点(tdin)第77页/共112页第七十七页，共112页。2 2、泊松分布泊松分布(fnb)(fnb)n n当二项分布(fnb)中n很大，很小时，二项分布(fnb)就变成为Poisson分布(fnb)，所以Poisson分布(fnb)实际上是二项分布(fnb)的极限分

35、布(fnb)。n n由二项分布(fnb)的概率函数可得到泊松分布(fnb)的概率函数为：第78页/共112页第七十八页，共112页。全部(qunb)右偏越大越趋于正态PPoisson分布概率(gil)的特点第79页/共112页第七十九页，共112页。Poisson分布分布(fnb)与与正态分布正态分布(fnb)及二项分布及二项分布(fnb)的关的关系系n n当较小时，Poisson分布呈偏态分布，随着增大，迅速接近正态分布，当20时，可以认为近似(jn s)正态分布。n nPoisson分布是二项分布的特例，某现象的发生率很小，而样本例数n很大时，则二项分布接近于Piosson分布。n （应用

36、：Poisson替代二项分布）第80页/共112页第八十页，共112页。四四正态分布正态分布正态分布（Normal distribution）也叫高斯分布（Gaussian distribution），是最常见、最重要的一种(y zhn)连续型分布。1、正态分布的数学形式 2、正态曲线 3、标准正态分布 4、曲线下面积第81页/共112页第八十一页，共112页。1、数学、数学(shxu)形式形式第82页/共112页第八十二页，共112页。2 2、正态曲线（、正态曲线（、正态曲线（、正态曲线（normal curve normal curve）图形特点：钟型中间高两头低左右对称(duchn)

37、最高处对应于X轴的值就是均数曲线下面积为1标准差决定曲线的形状X Xf f(X X)m m第83页/共112页第八十三页，共112页。N（，0.52）、N（，12）、N（，22）N（1，2）、）、N（2，2）正态分布曲线由两个参数决定，即总体正态分布曲线由两个参数决定，即总体(z(z ngtngt)均数均数和总体和总体(z(z ngtngt)标准差标准差。在在不变的情况下，函数曲线形状不变，若不变的情况下，函数曲线形状不变，若变大时，曲线位置向右移；变大时，曲线位置向右移；若变小时，曲线位置向左移，故称若变小时，曲线位置向左移，故称为位置参数。为位置参数。在在不变的情况下，函数曲线位

38、置不变，若不变的情况下，函数曲线位置不变，若变大时，曲线形状变的越变大时，曲线形状变的越来越来越“胖胖”和和“矮矮”；若；若变小时，曲线形状变的越来越变小时，曲线形状变的越来越“瘦瘦”和和“高高”，故称，故称为形态参数或变异度参数。为形态参数或变异度参数。第84页/共112页第八十四页，共112页。3、标准、标准(biozhn)正正态分布态分布 n n标准(biozhn)正态离差n n标准(biozhn)正态分布：N(0,1)正态分布：第85页/共112页第八十五页，共112页。pp标准正态分布的概率密度函数实质上就是正态分布的概率密度函数中=0，=1的情形。pp实质上是作了一个坐标轴的

39、平移和尺度变换，使正态分布具有(jyu)平均数为=0，标准差=1。这种变换称为标准化正态变换。pp因此将这种具有(jyu)平均数为=0，标准差=1的正态分布称为标准正态分布，记为N（0，1）。第86页/共112页第八十六页，共112页。4、曲线(qxin)下面积u-累计(li j)概率分布函数：第87页/共112页第八十七页，共112页。曲线下面积分布曲线下面积分布(fnb)规律规律0-11-1.961.96-2.582.5868.27%95.00%99.00%-+-1.96+1.96-2.58+2.5868.27%95.00%99.00%第88页/共112页第八十八页，共112页。正态分布的

40、特征(tzhng)，归纳起来有两点：对称性（symmetry）正态峰 (mesokurtosis)偏度系数偏度系数(xsh)和峰度系数和峰度系数(xsh)skewness and kurtosis 第89页/共112页第八十九页，共112页。偏度偏度 skewness若分布若分布(fnb)(fnb)不对称就是偏态，长尾拖向右侧不对称就是偏态，长尾拖向右侧（变量值较大的一侧）叫做正偏态（变量值较大的一侧）叫做正偏态,或右偏态；长尾拖或右偏态；长尾拖向左侧（变量值较小的一侧）叫做负偏态，或左偏态。向左侧（变量值较小的一侧）叫做负偏态，或左偏态。正态分布时，mean、median、mode相等(xi

41、ngdng)第90页/共112页第九十页，共112页。偏度系数(xsh)(skewness):若分布(fnb)是以平均值对称的，则偏度=0；若分布(fnb)是右偏的，则偏度系数 0；若分布(fnb)是左偏的，则偏度系数 0。第91页/共112页第九十一页，共112页。峰度系数是描述随机变量(su j bin lin)陡峭度的参数，分为：正态峰、平阔峰、尖峭峰。峰度峰度 kurtosis a.尖峭(jin qio)峰 b.正态峰c.平阔峰第92页/共112页第九十二页，共112页。峰度系数(xsh)(kurtosis)：Skewness.088kurtosis-0.2215血清(xuqng)总胆

42、固醇.sav第93页/共112页第九十三页，共112页。1.1.正态分布在横轴上方均数处最高。正态分布在横轴上方均数处最高。2.2.正态分布以均数正态分布以均数为中心，左右对称。为中心，左右对称。3.3.正态分布由参数正态分布由参数和和确定。确定。4.4.是位置参数，当是位置参数，当不变时不变时,越大，则曲线沿横轴越向右越大，则曲线沿横轴越向右移动；反之，移动；反之，越小，曲线沿横轴越向左移动越小，曲线沿横轴越向左移动5.5.是变异度参数，当是变异度参数，当不变时，不变时，越大，表示数据越分散，越大，表示数据越分散，曲线越平坦；曲线越平坦；越小，表示数据越集中，曲线越陡峭越小，表示数

43、据越集中，曲线越陡峭(d(d uqio)uqio)6.6.标准正态分布曲线与标准正态分布曲线与X X轴所围成的面积为轴所围成的面积为1 1。7.7.在在的区间内占总面积的的区间内占总面积的68.27%68.27%，8.8.在在1.961.96的区间内占总面积的的区间内占总面积的95%95%；9.9.在在2.582.58的区间内占总面积的的区间内占总面积的99%99%。5、正态分布的特征、正态分布的特征(tzhng)第94页/共112页第九十四页，共112页。五五常用的抽样常用的抽样(chu yn)分布分布第95页/共112页第九十五页，共112页。如果总体不是正态总体，但其均数和标准差分别为

44、和，则当样本含量n不断增大时，样本均数的分布也趋近于正态分布，且其均数为，标准差为不论总体的分布形式如何，只要(zhyo)样本含量n足够大时，样本均数的分布就近似正态分布，此称为中心极限定理。1、中心中心(zhngxn)极限定理极限定理第96页/共112页第九十六页，共112页。2、常用、常用(chn yn)的三种抽样分的三种抽样分布布t 分布(fnb)F分布(fnb)2分布(fnb)均为连续型随机变量分布(fnb)，分布(fnb)只与自由度，即样本含量有关。第97页/共112页第九十七页，共112页。t分布分布(fnb)根据中心极限定理，当样本含量足够大时，对从均数为，标准差为的任意(r

45、ny)总体中随机抽样所得的样本均数进行标准化变换，有第98页/共112页第九十八页，共112页。t分布分布(fnb)的演化的演化由于总体标准差往往是未知的，此时往往用样本(yngbn)标准差s代替总体标准差，这里，为自由度，取值为n-1由W.S.Gosset以student的名义提出全国(qun u)成年人身高平均值我们班身高的标准误第99页/共112页第九十九页，共112页。f(t)=(标准正态曲线)=5=10.10.2-4-3-2-1012340.3自由度分别(fnbi)为1、5、时的t分布:t分布(fnb)的图形第100页/共112页第一百页，共112页。t分布分布(fnb)的性质的性质

46、ppt t分布为一簇单峰分布曲线分布为一簇单峰分布曲线(qxin)(qxin)，高峰在，高峰在0 0的位的位置上，说明从正态总体中随机抽样所得样本计算出置上，说明从正态总体中随机抽样所得样本计算出的的t t值接近值接近0 0的可能性较大。的可能性较大。ppt t分布以分布以0 0为中心，左右对称。为中心，左右对称。pp分布的高峰位置比分布的高峰位置比 u u 分布低，尾部高。分布低，尾部高。ppt t分布与自由度分布与自由度有关，自由度越小，有关，自由度越小，t t分布的峰越低，分布的峰越低，而两侧尾部翘得越高；自由度逐渐增大时，而两侧尾部翘得越高；自由度逐渐增大时，t t分布逐分布逐渐逼近

47、标准正态分布；当自由度为无穷大时，渐逼近标准正态分布；当自由度为无穷大时，t t分布分布就是标准正态分布。就是标准正态分布。第101页/共112页第一百零一页，共112页。t分布分布(fnb)曲线下的曲线下的面积面积-tt0GAMMADIST第102页/共112页第一百零二页，共112页。t 界值表1.8122.228-2.228tf(t)=10的t分布图第103页/共112页第一百零三页，共112页。2分布(fnb)（chi-square distribution）第104页/共112页第一百零四页，共112页。3.847.8112.59P P0.050.05的临界值的临界值2分布(fnb)

48、（chi-square distribution）5.99图中列出了各种自由度的上95分位点对应(duyng)的概率，如20.05(2)=5.99。第105页/共112页第一百零五页，共112页。F F 分布分布(fnb)(fnb)第106页/共112页第一百零六页，共112页。F分布(fnb)的概率密度函数F分布(fnb)是由英国著名统计学家RonaldA.Fisher提出的。GAMMADIST第107页/共112页第一百零七页，共112页。F 分布分布(fnb)曲线曲线第108页/共112页第一百零八页，共112页。F F 分布分布(fnb)(fnb)曲线下曲线下面积与概率面积与概率第10

49、9页/共112页第一百零九页，共112页。小小结结 n n随机变量、概率分布、抽样分布是统计学推断的基础n n二项分布描述二项分类(fn li)变量两种观察结果的出现规律。n n泊松分布是二项分布的特例，常用于事件发生率很小，样本含量很大的情况。n n正态分布是其他分布的极限分布，许多统计方法的理论基础。n n检验统计量分布（或抽样分布）包括：卡方分布，t分布，F分布等。这些分布是卡方检验、t检验、方差分析等假设检验的基础。第110页/共112页第一百一十页，共112页。谢谢(xi xie)大家！第111页/共112页第一百一十一页，共112页。感谢您的观看感谢您的观看(gunkn)！第112页/共112页第一百一十二页，共112页。

展开阅读全文