《研究生统计学讲义定量资料的统计描述.pptx》由会员分享,可在线阅读,更多相关《研究生统计学讲义定量资料的统计描述.pptx(43页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、会计学1研究生统计学讲义定量资料的统计描述研究生统计学讲义定量资料的统计描述1.正态随机变量的概率密度函数的形式为这个密度函数肯定不简单!是个坏消息为求累积概率分布,需要对f(x)积分但是不存在f(x)的不定积分那就意味着人们不能利用微积分基本公式去计算所需要的积分于是用一些精确值近似代替曲线下的实际面积,造出正态分布表于是用一些精确值近似代替曲线下的实际面积,造出正态分布表 下图给出具有平均值和标准差正态密度函数图,注意它有几个特点第1页/共43页这个正态密度函数f(x)关于平均值x=对称(点划垂线)称为位置参数,在曲线下和+之间面积近似总面积的2/3(68%),简而言之,它在平均值的一个标
2、准差内这是在图中点划垂线之间的面积在曲线下的两个标准差内,即2和+2之间面积近似为总的95%(这是在图中实垂线之间的面积),在曲线下的三个标准差内,即3和+3之间面积近似为总的99%第2页/共43页第3页/共43页幸运的是,这个曲线族能够转换为标准正态曲线(standardnormalcurve),其平均值为0,标准差为1曲线下的面积已经被制成表格,通常称为u表(utables),u表能用来确定任何正态分布的CDF值(累积分布函数值即P224 附表3)2标准正态分布的概率密度函数和分布函数(x)(3.3)标准正态变量u与一般均数为,标准差为的正态变量x的关系是:标准正态变量u=(x)/的值称为
3、标准正态(离)差。第4页/共43页标准正态变量的分布函数记为(u):因为任何正态随机变量都能被标准化,标准正态的累积分布函数能用来求概率(正态曲线下的面积),参见附表3第5页/共43页补例1设智商测验得分是具有均数100,标准差为10的正态分布(一些新颖的智商测验声称具有这些参数)问:1随机抽取一个在90以下得分的概率是多少?解:我们必须求P(X90)=F(90),得分用下图左边阴影部分表示,没有复杂的数学知识就无法计算F(90)左边=100,=10,X90右边=0,=1,u1.0,注意刻度不同第6页/共43页现在我们把X转换为标准正态变量,因为=100,=10,所以因此90分能够用平均值下的
4、1个标准差表示,见图右图P(X 90)=P(u 1.0)附表3从u=0.00到u=4.99以增量0.01编成标准正态分布的CDF表,沿着表的左边按所给u的一个小数找到u,再从表的顶端找到u的第二位小数,在表内主要部分,行列交叉处就是所给u值的概率用表3求P(X90)=P(Z1.0),找到标记为1.0的行,标记为0.0的列,其交叉处的概率就是0.1587,所以小于90分的概率就是0.1587 第7页/共43页2得分在90到115分之间的概率是多少?解:我们希望找出下图左图阴影部分的面积=0.9332-0.1587=0.77453得分为125分或更高的概率是多少?第8页/共43页解:要求P(X12
5、5),见下图=1-0.9938=0.0062只有0.62%的得分将是125或更高图3.16左边=100,=10,X125右边=0,=1,u2.5,注意刻度不同第9页/共43页补例2假设女高血压患者舒张压大约集中在100mmHg,标准差是16mmHg,血压是正态分布求:1P(X124)3P(96X104)4求x,使P(Xx)=0.95解1:使用特别当X=90时,于是查表3有P(X90)=P(u124)=P(Z1.5)=1F(1.5)=10.9332=0.0668第10页/共43页解3:求P(96X104),两者同时进行转换解4:求x,使P(Xx)=0.95,我们只不过是简单地反向操作,首先求u
6、的值使P(Uu)=0.95,从附表3查得,u=1.645,现在用转换方程求x从而x=100+1.645(16)=126.32 第11页/共43页这意味着这些女高血压患者舒张压低于126.32mmHg 大约有95%例3.1查标准正态分布u 界值表,得双侧u0.05/2=1.96,它表示标准正态变量的取值小于-1.96的概率等于u值大于1.96的概率等于0.025,反之,u值大于-1.96而小于1.96的概率,即u的绝对值小于1.96的概率,等于120.025=0.95,记为:P(u1.96)=0.025,P(-1.96u1.96)=0.95以(u)=0.05查附表3的横标目和纵标目得出的数值取绝
7、对值,得双侧0.10界值u0.10/2单侧0.05界值u0.051.65,它表示:P(u1.65)=0.05,P(u-1.65)=P(u1.65)=0.95第12页/共43页由正态分布的对称性可知,标准正态曲线下对称于0的区间面积相等:(u)=1(u),(u/2)=1(u/2),第13页/共43页例3.2若已知健康女大学生血清总蛋白含量服从正态分布,均数=73.8g/L,标准差=3.9g/L,试估计168名健康女大学生血清总蛋白含量在72.078.6g/L 范围内的人数。x1=72.0g/L时,u1=(72.073.8)/3.9=0.46x2=78.6g/L 时,u2=(78.673.8)/3
8、.9=1.232.查标准正态曲线下面积表(附表3):u=0.46时,在表的左侧找到-0.4,在表的上方找到0.06,二者相交处为0.3228,标准正态曲线下,横轴上u值小于0.46的面积为(0.46)=P(U0.46)=32.28,即标准正态变量u值小于0.46的概率为32.28;同样查得u=1.23 时,标准正态曲线下,横轴上u值小于1.23的面积为(1.23)=P(U1.23)=0.8907,即u值小于1.23的概率为89.07。第14页/共43页3.u值在0.461.23范围内的面积为(1.23)(0.46)=0.8907 0.3228 0.5679,即血清蛋白含量在72.0g/L 78
9、.6g/L 范围内的概率为56.79。4.168名健康女大学生血清总蛋白含量在72.078.6g/L 范围的人数为16856.79%=95 人3.正态分布的应用1.很多抽样分布如2分布、t 分布以正态分布为基础。2.正态分布的规律运用于区间估计和假设检验如t 检验、方差分析及直线相关分析的计算公式等。3.二项分布、Poisson分布、t 分布的极限分布是正态分布。4.许多医药指标如人体的某些正常生理值都可看作和近似看作服从正态分布。医药科研中很多资料如毒物致死量、食物中毒潜伏期,剂量一效应曲线、正常成人血铅含量等,虽不服从正态分布,但经变量变换(如取对数)后则服从正态分布或近似正态分布,可按正
10、态分布规律来处理第15页/共43页4.统计推断和计算公式的推导中经常应用到的正态变量性质(1)相互独立的正态变量的代数和仍为正态变量;常数与正态变量的乘积仍为正态变量;正态变量的线性函数仍为正态变量。(2)正态变量的和(差)的均数等于正态变量均数的和(差);常数与正态变量乘积的均数等于常数与变量均数的乘积。(3)常数与正态变量乘积的方差等于常数的平方与正态变量方差的乘积;相互独立的正态变量的和或差的方差都等于正态变量方差的和。5.对数正态分布若随机变量X不服从正态分布,但X的对数(如lnX、lgX等)服从正态分布,则称X服从对数正态分布。第16页/共43页二、频数分布表和频数分布图(P29)将
11、观察值分组,统计各组段的频数,按一定的顺序排列成表,称为频数分布表(frequencydistributiontable)。将频数分布表绘制成图,称为频数分布图(frequencygraph)。编制频数分布表,绘制频数分布图,都是整理资料的基本方法,可以提示资料的分布特征和分布类型,表达原始数据中所包含各种数量的分布规律,且便于发现特异值。有简捷方法计算平均值和标准差。例3.1测得148名正常人糖(mmol/L)结果如下,试求频数分布图。493488483490454435412437334495417500517503534546416520第17页/共43页用途:1.揭示资料的分布特征和分
12、布类型。2.便于进一步计算统计指标和分析处理。3.便于发现某些特大或特小的特异值。图像:对称、左偏、右偏。特征:集中、离散三、集中趋势的描述(P30)1、均数第18页/共43页总体平均数:例如一个小的理论总体,其全体取值为:1,6,4,5,6,3,8,7,可以表示为:X1=1,X2=6,X3=4,X4=5,X5=6,X6=3,X7=8,X8=7(1.1)使用字母N来表示总体容量,上面理论总体容量为N=8总体平均数(念作“mu”)就是公式1.1作为总体平均数的代数缩写式就是:第19页/共43页公式1.2作为样本平均数的代数缩写式就是:从(1.1)所示总体1,6,4,5,6,3,8,7,可以抽出5
13、6种容量为3的样本,但是只有四个样本均数与总体均数相同,即:样本和X3,X6,X74+3+85X2,X3,X46+4+55X5,X3,X46+4+55X8,X6,X47+3+55第20页/共43页要使每一个样本均数是的无偏估计取决于样本所含的值以及样本容量的实际大小我们期望全部可能平均值的平均值与总体参数相等事实上,这个定义就是总体均数的一个无偏估计如果把56种容量为3的样本均数求出来,再求平均数的平均数,就得到平均值5,也即是总体均数,记得吗?总体数量太大以至难以完全进行调查,于是依靠单一样本去估计或逼近总体特征2.中位数M(Median)中位数M是排序观察值的中间值当一组数据按照从小到大的
14、顺序排列起来时,值的深度d=(n+1)/2,是它相对于极端值(末端)所在的位置它不是由全部观察值综合计算出来的,而是由居中位置的观察值所决定,因此它不受个别特小或特大的观察值的影响,应用范围较广。第21页/共43页例3.410例由伤寒杆菌引起伤寒的患者潜伏期为6,8,11,12,14,15,16,21,29,34天,求中位数。因n=10,为偶数,居中的两个位次为10/2=5,1+10/2=6,这两个位次上的观察值为14和15,(14+15)/2=14.5(天),即为所求的中位数。例3.5治愈9名脾虚泄泻患儿所用天数分别为2,3,3,3,4,5,6,9,16,求中位数。因n=9,是奇数,居中的第
15、(9+1)/2=5位次上的观察值为4,即中位数为4天。3.百分位数Px(percentile)一种位置指标。将n个观察值从小到大依次排列,再把它分成100等份,对应于第x%位次上的数值即第x百分位数,记为Px。用途:1.可用百分位数求医学参考值范围(referenceranges)或个体容许区间等统计量的界限第22页/共43页2.在假设检验中用作拒绝或接受检验假设的临界值。众数(MODE)指在一个数据集合里面出现次数最多的数.小结定量资料中,无论平均数是连续的还是离散的,它都是一个有目的的度量无论一个变量是否能够排序(包括定量资料),都能够计算出中位数样本中位数所含信息比样本平均数要少,这是因
16、为中位数仅仅使用了排序信息而没有使用它的测量值信息,但是中位数可以抵消离群值的影响极端值或离群值(outliers)能够大大地影响样本平均数,然而它们对中位数的影响却很小第23页/共43页考虑例3.6,平均数为=16.6,而中位数=14.5cm假如说X7被错误地记为160而不是16的话,平均数会变成30cm,而中位数仍然保持=14.5cm四、离散趋势的描述(P33)例下表给出两个金枪鱼样本的重量(kg)度量,怎样表现样本之间的差异呢?样本18.99.611.29.49.910.910.411.09.7两样本还具有相同的众数:9.9样本之间的差异是以观测值的分散或离散来表示,第一个样本比第二个样
17、本包含有更多的信息,较之第二个样本,第一个样本的观测值更集中于平均值,因此我们需要描述分散或离差的度量来反映其差别样本23.117.09.95.118.03.810.02.921.2第24页/共43页极差(range)一组资料中最大值与最小值之差就称为极差:极差=XnX1总体极差=XNX1这里Xn和X1称为样本极差限度(samplerangelimits)两样本的极差都反映出一些分散差别,但是极差是一个相当粗略的估计,因为它只使用了两个数据点,某些时候还取决于样本容量随样本容量的增大,我们会预料到最大的和最小的观测值会变得更加极端,即便总体极差不变,但是样本极差也会变大样本最大值最小值与总体最
18、大最小值不同所以样本极差低估了总体极差,属于有偏估计第25页/共43页方差(variance)称xi=Xi为离差(deviates),有时为正(观测值大于平均值),有时为负(观测值小于平均值)。例:设有一组数据X1=2,X2=3,X3=1,X4=8,X5=6=4,偏差为:X1=2,X2=1,X3=3,X4=4,X5=2那么偏差之和为0,即结论:观测值的离差之和为0。公式校正的平方和公式就是样本方差:第26页/共43页回到例,样本1的方差是0.641kg2,样本2的方差是49.851kg2,这反映出在样本2里有较大的分散(spread)度样本方差是总体方差的无偏估计。在一定容量的样本里面,“无偏
19、“即意味着全部可能的s2值的平均值等于总体方差值2公式校正的平方和公式是未校正的平方和校正条件第27页/共43页公式利用样本平方和的计算公式计算样本方差的公式是返回例中的样本2,Xi=92,Xi2=1318.92,n=9,所以标准差SD(StandardDeviation)公式更自然的公式是标准差,它是方差的正平方根:第28页/共43页再考虑金枪鱼的例,样本1:s1=0.80kg,样本2:s2=7.06kg,清楚反映了第2个样本比第1个样本变异较大五、容许区间与参考值范围1.容许区间(tolerancelimitofpopulation)指的是总体中绝大多数个体观察值可能出现的范围。严格说,总
20、体中100(1)%个体某种指标的所在范围,称为该指标的100(1)%容许区间;(1)称为个体某指标值落入该范围的可信度。第29页/共43页1)双侧(1)容许区间按标准正态变量值的分布规律P(u/2u u/2)=1有从而P(u/2x u)=1,P(uu)=1,P(x(u),或x(+u)(3.30)第30页/共43页2.医学参考值范围常用大样本资料的和s分别作为和的估计值,所计算的容许区间常称为参考值范围。医学参考值范围通常是从对健康人的观察中取得,故亦称医学正常值范围,简称正常值范围。如95正常值范围的含义是指样本中有95的个体其测定值在所求的范围之内。双侧95%的界限值为:1.96s。(3.3
21、2)单侧95%的上限值为:+1.645s。(3.33)单侧95%的下限值为:-1.645s。(3.34)例3.13若已知健康女大学生血清总蛋白含量服从正态分布,例3.3资料n=100,已算出=73.708g/L,s=3.8759g/L,求健康女大学生血清总蛋白含量的95%参考值范围。第31页/共43页因血清总蛋白含量不宜过高或过低,本例宜用双侧公式:1.96 s=73.7081.963.8759=(66.1,81.3)g/L0.012.3262.5760.051.6451.9600.101.2821.645表3-5常用u界值表单侧u双侧u2制定医学参考值范围的注意事项1)样本含量;2)结合专业
22、;3)根据研究要求和资料的特点;3)根据使用该参考值的目的考虑第32页/共43页第七节 离群值的取舍 测量数据中有时会有个别过大或过小,远离均数的可疑数值,这种数值称为极端值或离群值(outlier)。极端值有两种可能:可能是测量值随机波动的极度表现,即极值,它虽然与其余数据相差较远,但仍然是处于统计上所允许的合理误差范围之内。极端值也可能是与其余数据不属于同一总体的离群值。如果在测量数据中混有离群值,必然会歪曲试验结果,此时若能将该值舍弃,将使结果更符合客观实际情况。但若将本来不是离群的测量值主观地作为离群值舍弃,虽然得到分散很小、精度很高的结果,而此结果实质上是虚假的,并不是客观情况的真实
23、反映。所以怎样正确取舍极端值,是实践中经常碰到的问题。第33页/共43页1.计量资料判断离群值计量资料判断极端值是否离群值,常用3s法、格拉布斯法、Q检验法、间距法。.X3s法X3s法适用于正态分布资料,且样本含量较大(n60)。以 xj 代表极端值,按正态分布理论,离群值与平均值差的绝对值大于2的概率为1/20,大于3的概率仅约为1/370。按小概率原理,小概率事件在一次测量中实际是不可能发生的,2与3可认为统计上允许的合理误差范围,而超出此范围的数据则为极端值。因此,有人将3作为界值,根据绝对值是否大于3作出判断。也就是说,可以根据X3sX3s范围内是否包括xj作出判断:当xj在X3sX3
24、s范围之外时可舍弃,在此范围之内时保留。第34页/共43页.格鲁布斯法格拉布斯法(Grubbs)适用于正态分布资料。xj 表示极端值,计算包括极端值 xj 在内的测量值与s,总体均数及标准差已知或未知时计算统计量 T的绝对值公式分别为T 或T(3-38)按第一类错误概率和样本含量n,查如表3-6所示的格鲁布斯T,n界值表,与 T的绝对值比较。若T界值T,n,则不能判极端值xi为离群值。若TT,n,则可判 xj 为离群值,应舍去。.Q检验法第35页/共43页Q 检验法不要求资料服从正态分布。数据从小到大排列为x1,x2,x3,xn1,xn。极差Rxnx1,最小值x1或最大值xn 为极端值时计算统
25、计量Q 的公式分别为表3-6检验正态分布资料极端值用格拉布斯T,n界值表Q 或 Q若Q1/3,则极端值是离群值,应舍弃。【例3.15】研究人工培植人参中M物质的含量(g),76次测得的结果为40.0,41.0,41.5,41.6,41.6,41.9,42.5,43.5,43.8,44.2,60.2。检查无误,对于最小值 x140.0和最大值 x7660.2,找不出原因。在下面条件下,分别判断是否为离群值。第36页/共43页若已知M物质的含量服从正态分布,计算得到X42.16g,S2.150g;解:若用X3S法计算,则可以得到(X3S,X3S)(35.7,48.6)最小值x140.0在此范围内不
26、是局外值。最大值x7660.2在范围外是离群值,应舍弃。若用格鲁布斯法计算,对于最小值x140.0,计算得到T =1.01第37页/共43页查表3-6,和未知时T0.05,502.96,T0.05,603.03,|T|T0.05,76,x140.0不是离群值。对最大值x7660.2,类似计算得到T|8.39T0.05,76,故60.2是离群值,应舍弃。若不知人参中M物质的含量是否服从正态分布。极差Rxnx160.240.020.2,对于最小值x140.0,计算得到Q=0.0495第38页/共43页由于Q1/3,故x140.0不是离群值,应保留。对于最大值x7660.2,类似计算得到Q0.792
27、1 1/3,故60.2是离群值,应舍弃。.间距法间距法不要求正态分布资料。由上、下四分位数P75、P25,计算四分位间距QR,即QRP75P25(3-40)计算上或下截界值CU、CL的公式分别为CUP752QR或CLP252QR(3-41)大于上截界值CU或小于下截界值CL的数据可视为局外值,应舍弃。第39页/共43页【例3.16】某资料的上四分位数P75205(109/L),下四分位数P25141(109/L)。若该资料中有找不出任何原因的小数据80,大数据378,能否剔除?解:计算QR20514164(109/L)CL14126413,CU205264333小数据80下截界值CL,不是离群值。大数据378上截界值CU是离群值,应剔除。3注意周密实验设计下获得的实验数据一般都不应随意舍弃,否则实验结果的真实性将受破坏。如果有个别数据过份地偏大偏小,也不要在未查清原因的情况下盲目将其舍弃。第40页/共43页在一组观测值中极端值总是少数,一般认为一侧舍弃的数据不应多于2个。若个数较多,则应从实验要素的选择及实验方法、条件等方面查找原因。不论可否剔除极端值,应在论文的适当地方进行说明,以正确反映事物的全貌。对待极端值务必进行认真分析,有时极端值可能导致意外发现。第41页/共43页第42页/共43页