2022年研究生医学统计学考点总结 .pdf

上传人:H****o 文档编号:39900665 上传时间:2022-09-08 格式:PDF 页数:24 大小:1MB
返回 下载 相关 举报
2022年研究生医学统计学考点总结 .pdf_第1页
第1页 / 共24页
2022年研究生医学统计学考点总结 .pdf_第2页
第2页 / 共24页
点击查看更多>>
资源描述

《2022年研究生医学统计学考点总结 .pdf》由会员分享,可在线阅读,更多相关《2022年研究生医学统计学考点总结 .pdf(24页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、医学统计学基本概念:1.医学统计学 Statistics:医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门科学。2.同质和异质:具有相同性质的事物称为同质(homogeneous)。否则称为异质的或者间杂的(heterogeneous)。不同质的个体不能笼统地混在一起分析,同质和异质是相对的概念。3.变异:同质事物之间的差别称为变异(variation),亦称个体变异。变异的两个方面:个体与个体间的差别同一个体重复测量值间的差别结果是随机的,不可预测的;一种或多种不可控因素(已知的或未知的)作用下的综合表现;个体变异是普遍存在的;个

2、体变异是有规律的;没有个体变异,就没有统计学。4.总体和样本:总体(population):根据研究目的所确定的同质观察单位的全体;分为有限总体和无限总体。个体(individual):是构成总体的最基本观察单位。样本(sample):是从总体中按照一定的目的随机抽取的一部分具有代表性的个体集合。样本含量(sample size):样本中包含的个体个数。5.参数和统计量:?总体参数(parameter):描述某总体特征的指标,简称参数,一般用希腊字母表示,如:、。?统计量(statistic):描述某样本特征的指标,一般用拉丁字母表示,如:、s、p。?在总体被确定之后,总体参数就是一个常数,是

3、不会变化的,不管你是否确切知其大小;而统计量是几乎总是随着样本而变的。6.随机(random):是指机会均等,目的是保证样本对总体的代表性、可靠性。7.概率和频率:频率(relative frequency):在 n 次随机试验中,事件 A 发生了 m 次,则比值 m/n称为事件 A 在这 n 次试验中出现的频率。概率(probability):是随机事件发生可能性大小的一个度量,是一种参数,常用P表示,0 P 1。8.小概率事件和小概率原理:小概率事件:医学研究中,将概率小于等于 0.05 或 0.01 的事件称为小概率事件。小概率原理:小概率事件并不表示不可能发生,但在某一次试验中,是不会

4、发生的。9.变量的分类:?按照取值的特性:X名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 24 页 -数值变量numerical Variable 定量变量:既有顺序的意义,又有间隔的意义,可以认为是连续的;往往有单位;取值间的差异是可以度量的。分类变量categorical Variable 定性变量:取值是是分散、定性的,表现为互不相容的类别和属性。?无序分类unordered categorics:无顺序,无间隔,仅有分类 二项分类 多项分类?有序分类ordered categorics 等级变量:仅有顺序,无单位;取值间的差异是不可度量的?不同分类的互相转化数值变量无序

5、分类变量数值变量有序分类变量有序分类变量无序分类变量信息量只有减少,不可增加统计描述指标,呈现方式可分为两种统计图:直观,但精确度稍差统计报表:能尽量详细,精确,但不够直观统计推断:从样本信息外推到总体,以最终获得对所感兴趣问题的解答参数估计:样本所在总体特征假设检验:该指标可能的影响因素分析频数分布1.频数表编制步骤求极差:R=Xmax-Xmin选定适当的组段数后估计组距:组段数的选取以能反映资料的分布特征为宜,一般取 8 12组列出组段:组段的含义:包括组段的下限而不含组段的上限。如:3.2 等价于 3.2,3.5)。划记归组获得频数求频率,完成频数表:相应的频数除以总数即为频率,各组段的

6、频率总和为1 或者 100%。2.频数分布所提供的信息?频数分布图用以表示数据的分布规律。?观察有无可疑值。?考察分布的类型。对称分布非对称分布(偏态分布)?左偏态(负偏态):指分布的长尾在峰的左侧。名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 24 页 -?右偏态(正偏态):指分布的长尾在峰的右侧。?考察分布的特征集中位置(Central Tendency):描述指标有平均数(算术均数(Mean)、几何均数(Geometric Mean)、中位数(Median)、百分位数(Percentile))。离散趋势(Tendency of Dispersion):描述指标有极差(Ra

7、nge)、四分位数间距(interquartile range)、方差(Variance)、标准差(Standard Deviation)、变异系数(coefficient of variation)。3.平均数应用的注意事项:?同质的资料计算平均数才有意义。?均数适用于:单峰对称分布的资料。?几何均数适用于:对数变换后单峰对称的资料。等比资料、滴度资料、对数正态分布资料。计算几何均数时:变量值中不能有 0 同一组变量值不能同时存在正、负值,若变量值全为负值,可先将负号除去,算出结果后再冠以负号?中位数:理论上可用于任何分布资料,常用于描述偏态资料,开口资料,有不确定值的资料的集中位置。但当资

8、料适合计算均数或几何均数时,不宜用中位数。中位数和百分位数在样本含量较少时不稳定,越靠两端越不稳定;中位数在抗极端值的影响方面,比均数具有较好的稳定性,但不如均数精确。不同质的资料应考虑分别计算平均数。?百分位数:样本含量较少时不宜计算靠近两端的百分位数。?平均数要与变异指标结合使用。4.变异度指标:四分位数间距(inter-quartile range):QU QL P75 P25,即中间一半观察值的极差。方差及标准差:变异系数(coefficient of variation,CV):为标准差和均数的比值,排除了平均水平的影响,并取消了单位。因此变异系数常用于:比较度量衡单位不同的两组或多

9、组资料的变异度比较均数相差悬殊的两组或多组资料的变异度5.变异度的正确应用:?极差不稳定,不灵敏?标准差的基本内容是离均差,它显示一组变量值与其均数的间距,故标准差直接地、总结地、平均地描述了变量值的离散程度。?在同质的前提下,标准差大表示变量值的离散程度大,即变量值的分布分22XN221XXsnNX221XXsn100%sCVX名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 24 页 -散、不整齐、波动较大;反之,标准差小表示变量值的离散程度小,即变量值的分布集中、整齐、波动较小。?变异系数派生于标准差,其应用价值在于排除了平均水平的影响,并消除了单位。6.总结:?每个观察指标

10、均有其特定的变异规律;?描述变异:图形描述统计量描述?平均数:均数、几何均数、中位数和百分位数?变异度:极差、方差、标准差、四分位数间距、变异系数?不同分布的指标,用不同的统计量描述;?用平均数与变异度共同描述。正态分布1.公式:如果随机变量 X的概率密度函数为(-X+)则称 X 服从正态分布,记作 XN(,2),其中,为分布的均数,为分布的标准差。为总体均数,为总体标准差。为圆周率,e 为自然对数的底,X为变量,代表横轴的数值,f(X)为纵轴数值。2.正态分布的特征(重要):单峰分布;高峰在均数处;以均数为中心,均数两侧完全对称。正态分布有两个参数(parameter),即位置参数(均数)和

11、变异度参数(标准差)。有些指标本身不服从正态分布,但经过变换之后可以服从正态分布。正态曲线下的面积分布有一定的规律。X轴与正态曲线所夹面积恒等于1,对称区域面积相等。-1.64+1.64内面积为 90%;-1.96+1.96内面积为 95%;-2.58+2.58内面积为 99%。正态分布曲线下的面积与标准正态分布曲线下的面积对应(以标准正态离差为单位)。Xf Xe22()21()2名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 24 页 -3.标准正态分布:标准正态分布(standard normal distribution)是均数为 0,标准差为 1 的正态分布。记为 N(0

12、,1)。标准正态分布是一条曲线。概率密度函数为:(-u+)正态分布转换为标准正态分布:若XN(,2),作变换:则 u 服从标准正态分布,u 称为标准正态离差(standard normal deviation)4.正态分布的应用:估计频数分布、质量控制、确定临床参考值范围参考值范围:1.参考值范围(reference interval):是绝大多数正常人的某观察指标所在的范围,绝大多数:90%,95%,99%等等。确定参考值范围的意义:用于判断正常与异常。“正常人”的定义:排除了影响所研究的指标的疾病和有关因素的同质的人群。2.参考值范围确定的原则:选定足够例数的同质的正常人作为研究对象:例数

13、过少,代表性差;例数过多增加成本,且易导致正常标准把握不严,影响数据的可靠性控制检测误差判断是否分组(性别,年龄组)单、双侧问题(one sided or two sided)选择百分界值(90%,95%)确定可疑范围3.参考值范围的估计方法:正态分布法、百分位数法抽样误差1概念:由于个体变异的存在,在抽样研究中产生样本统计量和总体参数之间的差异,称为抽样误差(sampling error)。抽样误差的表现:样本均数和总体均数间的差别、样本均数和样本均数间的差别。2.中心极限定理(central limit theorem):?从均数为 ,标准差为 的正态总体中随机抽样,样本均数服从均数为,标

14、准差为的正态分布。?从均数为 ,标准差为 的任意总体中随机抽样,当样本含量足够大时,样本均数近似服从均数为,标准差为的正态分布。3.标准误(standard error):用样本统计量的标准差来反映抽样误差的大小,又称标准误。221()2uueXunnXnXssn名师资料总结-精品资料欢迎下载-名师精心整理-第 5 页,共 24 页 -其中,为总体标准差,n为抽样的样本例数在研究工作时,由于总体标准差常常未知,可以利用样本标准差近似估计4.标准误的意义:?反映了样本统计量(样本均数,样本率)分布的离散程度,体现了抽样误差的大小。?标准误越大,说明样本统计量(样本均数,样本率)的离散程度越大,即

15、用样本统计量来直接估计总体参数越不可靠。?标准误的大小与标准差有关,在例数 n 一定时,从标准差大的总体中抽样,标准误较大;而当总体一定时,样本例数越多,标准误越小。说明我们可以通过增加样本含量来减少抽样误差的大小。t 分布1.根据中心极限定理的内容,当样本含量足够大时,对从均数为,标准差为 的任意总体中随机抽样所得的样本均数进行标准化变换,有2.由于总体标准差往往是未知的,此时往往用样本标准差代替总体标准差:这里,为自由度,取值为n-1 3.t 分布的性质:?t 分布为一簇单峰分布曲线,高峰在0 的位置上,说明从正态总体中随机抽样所得样本计算出的t 值接近 0 的可能性较大。?t 分布以 0

16、 为中心,左右对称。?分布的高峰位置比u 分布低,尾部高。?t 分布与自由度有关,自由度越小,t 分布的峰越低,而两侧尾部翘得越高;自由度逐渐增大时,t 分布逐渐逼近标准正态分布;当自由度为无穷大时,t 分布就是标准正态分布。?每一自由度下的 t 分布曲线都有其自身分布规律。t 界值表。可信区间1.统计推断(statistical inference):是指如何抽样,以及如何用样本性质推断总体特征,分为参数估计(parameter estimation)、假设检验(hypothesis testing)。2.参数估计:点估计(Point Estimation):用样本统计量作为总体参数的估计。

17、区间估计(Interval Estimation):3.可信区间定义:按一定的概率或可信度(1-)用一个区间来估计总体参数所在的范围,该范围通常称为参数的可信区间或者置信区间(confidence interval,CI),预先给定的概率(1-)称为可信度或者置信度(confidence level),常取 95%或 99%。可信区间(CL,CU)是一开区间CL、CU 称为可信限。4.可信区间的计算:样本含量较小时(n100):下限:上限:(0,1)XNnXttsn,XXts,XXts名师资料总结-精品资料欢迎下载-名师精心整理-第 6 页,共 24 页 -样本含量较大时(n100):下限:上

18、限:5.均数之差可信区间的计算:均数之差”与“均数之差的标准误”之比,服从自由度=n1+n2-2 的 t 分布。样本含量较大时,服从标准正态分布。合并方差:均数之差的标准误:6.可信区间的两个要素:?可信度(Confidence):准确性,可靠性,即 1-。一般取 90%,95,可人为控制。?精确性(Precision):区间的大小,越小越好。?必须二者兼顾7.可信区间的宽度:?可信度越大,可信区间越宽,说明用该区间来估计总体参数(总体均数)越可靠。?标准差越小,可信区间就越窄,意味着如果总体内变异程度较小时,在相同的可信度下,只需要一个比较窄的可信区间就可以估计总体均数。?随着样本含量的增加

19、,可信区间逐渐变窄。8.正确理解可信区间:?可信度为 95%的 CI的涵义:每 100 个样本,按同样方法计算95%的 CI,平均有 95%的 CI包含了总体参数。?这里的 95%,指的是方法本身!而不是某个区间!?总体参数虽未知,但却是固定的值,而不是随机变量值。假设检验1.假设检验的目的:基本目的就是分辨两个样本是否属一个总体或两个不同的总体,并对总体作出适当的结论。2.假设检验的一般步骤:步骤 1:建立假设,在假设的前提下有规律可寻零假设(null hypothesis),记为 H0,表示目前的差异是由于抽样误差引起的。备择假设(alternative hypothesis),记为 H1

20、,表示目前的差异是主要由于本质上的差别引起。步骤 2:确立检验水准 (significance level),用于确定何时拒绝H0,一般取0.05。步骤 3:计算检验统计量和P 值计算检验统计量,即计算样本与所假设总体的偏离;样本均数与总体均数0间的差别可以用统计量t 来表示统计量 t 表示,在标准误的尺度下,样本均数与总体均数0 的偏离。XXu sXXu s1212122 nnXXXXtts1212 (0,1)XXXXtNs222112212(1)(1)2Cnsnssnn1221211()CXXssnnnsXt0名师资料总结-精品资料欢迎下载-名师精心整理-第 7 页,共 24 页 -这种偏

21、离称为标准t 离差(standard t deviation)。根据抽样误差理论,在 H0的假设前提下,统计量 t 服从自由度为n-1的 t 分布,即t 值在 0 的附近的可能性大,远离0 的可能性小,离 0 越远可能性越小。步骤 5:界定 P值并作结论3.假设检验应用的注意事项:A.I 型错误和 II 型错误:第一类错误(Type I Error):拒绝了实际上是成立的H0;第二类错误(Type II Error):不拒绝实际上是不成立的H0。B.检验水准的选择:检验水准有单双侧之分。选择要有专业背景。检验水准大小的选择要慎重。选择要在计算检验统计量之前。C.双侧检验与单侧检验:在相同的检验

22、水准下,正确地选择单侧检验将比双侧检验得到更多的检验效能。D.P和的涵义:P值意义:从H0 总体中随机获得等于或大于现有统计量值的概率。拒绝H0时所冒的风险。的意义:犯第一类错误的概率;在假设检验之前人为规定;说明拒绝H0所冒的风险不可超过。E.正确对待统计结论和专业结论专业上有差别,假设检验拒绝H0:结果有效,可以下专业结论;专业上无差别,假设检验不拒绝H0:下无差别的结论;专业上有差别,假设检验不拒绝H0:增大样本含量,减少二类误差;专业上无差别,假设检验拒绝H0:改进试验,减少误差。F.Significant 的意义4.假设检验和可信区间的区别:在相同的 之下,若假设检验拒绝 H0(p

23、),那么可信度为(1-)的可信区间必然不包括总体参数;反之成立。可信区间和假设检验是对同一问题所作的不同结论,效果等价。t 检验1.成组设计计量资料比较的t 检验:合并方差(方差的加权平均):均数之差的标准误:自由度=n1+n2-2 2.两组资料比较的u 检验:当随机抽样的样本例数足够大时,t 检验统计量的自由度逐渐增大,t 分布1212XXXXts222112212(1)(1)2Cnsnssnn1221211()CXXssnn名师资料总结-精品资料欢迎下载-名师精心整理-第 8 页,共 24 页 -逐渐逼近于标准正态分布,可以利用近似正态分布的原理进行u 检验。3.配对计量资料的t 检验:配

24、对 t 检验的实质就是检验样本差值的总体均数是否为0。4.均数的假设检验应用条件:独立性、正态性、方差齐性与应用条件有关的一些内容:正态性检验、方差齐性检验、方差不齐时的近似t 检验、大样本时,均数比较的u 检验5.两个方差的齐性检验:Levene 法:从同一总体随机抽取的样本之两方差,其方差比(大方差/小方差)的分布服从F 分布:6.方差不齐时两样本均数比较的近似t 检验:7.大样本时均数比较的u 检验:?单样本 u 检验?两样本 u 检验方差分析(ANOVA)Analysis of Variance t 检验的局限性单因素两水平1.因素和水平:?因素(factors):将试验对象随机分为若

25、干个组,加以不同的干预,称为处理因素。方差分析中所要检验的对象。?在相同的因素下的不同干预,称为不同的水平(level)。方差分析中因素的不同表现。2.假如每次 t 检验犯第一类错误的概率是0.05,那么要完全地进行比较,犯第一类错误的概率是 1(1)k。此为多组间不能进行t 检验的原因。3.单因素方差分析:研究的是一个处理因素的不同水平间效应的差别。4.完全随机设计资料的方差分析:完全随机设计是医学科研中最为常用的一种实验设计方法,它是将受试者随机地分配到各实验组(可包括对照组)中,进行实验并观察实验效应。该设计适用面广,可用于两组或多组实验研究,且各组的样本含量可不相等。22ABABABX

26、XAABBXXXXussnsn1221(,)22()()sFFs大小12221212XXtssnn0(0,1)XuNsn12221212(0,1)XXuNssnn222ijiiijiijiijXXnXXXX名师资料总结-精品资料欢迎下载-名师精心整理-第 9 页,共 24 页 -证明:5.随机区组(配伍组)设计的方差分析(两因素多个样本均数的比较):概念:随机区组设计又称配伍组设计,是配对设计的扩展,也可看作1:X 的配对设计。它是将几个条件相同的受试者划为一个区组(block)或配伍组,然后再按随机的原则,将同一区组的受试者随机分配到各实验组中。实质:两因素方差分析。变异分解,N 为总样本含

27、量,k 为水平数,n 为区组数;6.多个样本均数的两两比较:又叫多重比较,Multiple Comparison;分类:事先计划好的多个试验组与一个对照组之间的比较,多个组与一个特定组间的比较或者特定组间的比较;(Planned Multiple Comparison)方差分析得到有差别的结论后多个组之间的相互比较的探索性研究(Post Hoc);?Student-Newman-Keuls法(SNK法)2222222ijijiiijijijiiijiiiiijiiiijiiijjXXXXXXXXXXXnXXXXXXnX1SSkMSSSFMSSSSSnk组间组间组间组间组内组内组内组内12(,)

28、BetweenWithinMSFFMS212121,knijijkniijknjijSSXXNSSXXkSSXXnSSSSSSSS总总=1处理处理=1配伍配伍=1处理总配伍误差处理总配伍误差-1-1-1MSSSFMSSSMSSSFMSSS处理处理处理处理误差误差误差配伍配伍配伍配伍误差误差误差名师资料总结-精品资料欢迎下载-名师精心整理-第 10 页,共 24 页 -?LSD法?Dunnet 法:7.两两比较的注意事项:?对于方差分析后的两两比较均应以方差分析拒绝相应的H0为前提,且结论均不应与方差分析的结论相悖;?出现模糊结论,下结论应该谨慎;?方差分析拒绝H0,但两两比较得不出有差异的结论

29、,因为方差分析效率高。两种错误的说法:X2所来自的总体位于X1所来自的总体和 X3所来自的总体之间;X1和 X2来自同一总体,X2和 X3来自同一总体。只能说明无法判断样本2 来自于何总体!?不能用 t 检验代替方差分析,也不能用t 检验代替两两比较。?无论是 SNK法还是 Dunnett 法,用于两组比较时,结果与t 检验等价。8.方差分析的要求:?独 立 随 机 抽 样(Independence);正 态 性(Normality);方 差 齐 性(Homoscedascity)9.方差齐性检验:?两个方差的齐性检验:Levene法?多个方差的齐性检验:Bartlett 法10.方差分析小结

30、:A.均数、方差的比较?样本均数与总体均数的比较(t 检验)?配对设计样本均数的比较(配对 t 检验)?两样本均数的比较(t 检验,u 检验,F 检验,SNK,Dunnett)多样本均数的比较(F 检验,ANOVA)各组间的比较(SNK法);各试验组与某一对照组间的比较用(Dunnett 法)两个方差的比较(F 检验)B.两个方差的比较(Bartlett 检验)?分析单因素多水平间的比较或多个因素对结果的影响;?要求数据满足正态性、独立性、方差齐性?单因素方差分析两因素方差分析?两两比较?变量变换?方差分析应用于两组资料的比较时,等价于t 检验。11.变量变换(Variable Transfo

31、rmation)?方差齐性是一个很strong 的假设,如果不齐,就一般不能直接进行方差分析;222121111122,1,1,sFnnsss名师资料总结-精品资料欢迎下载-名师精心整理-第 11 页,共 24 页 -?变量变换:目的:方差齐性化,正态化,线性化常用方法:对数变换、平方根变换、倒数变换、平方根反正弦变换分类资料的统计描述statistical description for categorical data 1.常用的相对数:作用:第一,表示事物出现的频度。第二,便于比较。率:说明某现象发生的频率与强度构成比:说明某一事物内部各组成部分所占比例。比:说明 A 是 B的多少倍,或

32、百分之几。2相对数应用的注意事项:计算相对数时,分母不宜太小对两个或多个相对数指标进行比较时,要考虑抽样误差,进行假设检验,并不能凭相对数的数值大小轻易做出结论。区分构成比和率合计率的计算不是直接求率的平均两合计率的比较需注意两者的内部构成是否相同3.标准化率标准化法就是用统一的标准对内部构成不同的各组频率进行调整和对比的方法。不同的标准,所得标准化率不同;标准化率是相对的,其作用仅在于比较,而不表示实际水平;标准化率不代表总率,也不能完全代替分组比较。二项分布及其应用Binomial distribution and its application:1.概率分布:随机变量的概率分布:离散分布

33、和连续分布,依赖于相应的随机变量是离散的还是连续的。2.概念:令 x 为 n 次试验中的二项随机变量,成功的概率P(成功)p,则 x 的取值为 0,l,2,n,其联合概率分布为二项分布。3.二项分布的概率设事件 A 出现的概率为。则在 n 次独立试验中,事件 A恰好出现k 次的概率为:100%(单位时间内)实际发生某现象的观察单位数率(单位时间内)可能发生某现象的观察单位数100%某一组成部分的观察单位数构成比同一事物各组成部分的观察单位数名师资料总结-精品资料欢迎下载-名师精心整理-第 12 页,共 24 页 -4.二项分布的均数和方差如果 XB(n,),则若均数与标准差不用绝对数而用率表示

34、时,二项分布的累计概率:5.二项分布的图形:当=0.5,分布对称;当0.5,分布呈偏态;当0.5 时分布呈负偏态;特别是当n 值不是很大时,偏离 0.5 愈远,分布愈偏。随着 n 的增大,二项分布逐渐逼近正态分布。一般地说,如果n或 n(1-)大于 5 时,常可用正态近似原理处理二项分布问题。6.二项分布的应用条件:各观察单位只能有互相对立的一种结果,如阳性或阴性,生存或死亡等。已知发生某一结果(如阴性)的概率不变,其对立结果(如阳性)的概率则为 1-。n 次试验在相同条件下进行,且各观察单位的结果互相独立。7.二项分布的应用率的抽样分布及其性质总体率的可信区间估计两总体率之差1-2的区间估计

35、两样本率的比较样本率与总体率的比较011110(1)(1)(1)(1)(1)(1)nnnkknknnnnCnLL2(1)(1)XXXnnn2(1)/(1)pppnnkkPPPXPkXP0)(.)1()0()()()(11)1(XPXXnXP名师资料总结-精品资料欢迎下载-名师精心整理-第 13 页,共 24 页 -7.1 率的抽样分布及其性质(P37)在 n 足够大时,样本率p 的分布近似正态分布。率的均数和方差XB(n,p),p=X/n样本率的均数:样本率的标准差:(率的标准误)7.2 总体率的可信区间估计查表法n50正态近似法np5 n(1-p)5 puasp当样本例数 n 足够大,且样本

36、率p 和(1-p)都不太小时,即np 和 n(1-p)均大于 5 时,样本率 p 的抽样分布近似正态分布.率的 95%的 CI:7.3 两总体率之差1-2的区间估计设 p1=r1/n1,p2=r2/n2是两个样本率,p1p2是它们的差。如果 n1p1,n1(1-p1),n1p1,n2(1-p2)均大于 5,则正态近似的方法可用于求总体率之差的可信区间:7.4 两样本率的比较(n 较大时)(page73)7.5 样本率与总体率的比较(n 较小时)(1)ppppsn(1.96,1.96)pppsps96.1)(,96.1)(21212121ppppsppspp222111)1()1(21nppnp

37、pspp121212120.6790.8301.8740.080611(1)()0.0806ppppccppussppnn名师资料总结-精品资料欢迎下载-名师精心整理-第 14 页,共 24 页 -2检验一、两个率的比较1.卡方四格表根据检验假设 H0计算出来的数称作理论频数(theoretical frequency)T。2.2检验的基本思想:如果H0假设成立,则实际频数与理论频数应该比较接近。差值属于随机误差,用2统计量表示:H0成立时,实际数与理论数的差别不会很大,出现较大2 值概率很小。若P,则拒绝 H0;若 P,则尚无理由拒绝它。3.2检验的步骤:(1)假设两总体率相等H0:两组总体

38、存活率相同,即1=2;H1:两组总体存活率不同,即1 2;0.05。(2)实际数与理论数的差值服从2分布(3)查 2分布界值表确定 P值并作出推论4.卡方总结:4.1 比较两个样本率所代表的总体率是否有差别,实质是考察现有的样本频数分布是否与假设下的理论频数分布间差异到底是否包含了本质上的差异。2统计量代表了实际数与理论数吻合的程度。AT222()ATT分布名师资料总结-精品资料欢迎下载-名师精心整理-第 15 页,共 24 页 -4.22检验相关问题自由度4.32检验相关问题四格表专用公式:4.4.2检验相关问题 2值的校正:2分布是连续性分布;定性资料;实际数过小,增加了第一类错误。校正公

39、式:4.5.2检验相关问题应用条件:n 40,T 5,用2检验;N40,但 1 T 5,用校正2。n 40,或 T 5,用2;n 40,但 1 T 5,用校正2。n 40,或 T 40;20b+c40 用校正2。b+c10或 n2-n1 10时相同秩次多时校正4.配对设计样本比较的秩和检验:Wilcoxon 符号秩和检验计算等级之差值,对差值进行编秩,按差值的绝对值从小到大编秩,差值为 0 则舍去,绝对值相等则取平均秩次,最后求秩和并冠以差值的符号。查 T 界值表,或用近似u 检验,计算P 值;界定 P 值,作出结论。4.1 步骤:H0:差值的总体中位数为0;H1:差值的总体中位数不为0。12

40、/)1(5.02/)1(211NnnNnTu21nnNcuuc/331()()jjCttNN名师资料总结-精品资料欢迎下载-名师精心整理-第 18 页,共 24 页 -=0.05。当 n50 时,查界值表当 n50 时,用 u 近似4.2 符号秩和检验的基本思想:总秩和为 TN(N+1)/2 如 H0成立,则正负各半,T+与 T均接近 N(N+1)/4。如果相差太大,超出了事先规定的界值,则 H0不成立。5.秩和检验的正确应用主要对等级资料进行分析;秩和检验可用于任意分布(distribution free)的资料;秩和检验用于定量资料:极度偏态资料,如 L型分布,或或个别数值偏离过大而不属于

41、过失误差者各组离散度相差悬殊,即使经过变换也难以达到方差齐性。资料中某一端或两端含有不确定值分布型尚未确知时可以先用秩和检验法进行分析兼有等级和定量性质的资料成组设计两样本比较:如资料满足t 检验的条件,应该用 t 检验进行分析。此时,如果对这类资料用 Wilcoxon 秩和检验,实际上是将观察单位的具体数值舍弃不用,只保留了秩次的信息,使检验功效降低;尤其样本含量较小时,降低更加明显。如资料不满足t 检验的条件,而用了t 检验,同样降低了检验效能。6.参数检验和非参数检验参数检验(Parametric Test):针对的是总体参数,需要原始资料的总体分布信息t 检验,u 检验,F检验非参数检

42、验(Non Parametric Test,Distribution Free Test):无法获知原始总体的情况;或者,不需要对原始总体的情况进行假定;检验的对象并非总体参数。卡方检验秩和检验方差齐性的卡方检验属于?大样本含量的秩和检验属于?相关分析 Correlation Analysis 1.相关概念:当两个数值变量之间出现如下情况:当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,也就是有相关关系。若两个变量同时增加或减少,变化趋势是同向的,则两变量之间的关系为正24/)12)(1(5.04/)1(nnnnnTu名师资料总结-精品资料欢迎下载-名师精心整理-第 19 页

43、,共 24 页 -相关(positive correlation);若一个变量增加时,另一个变量减少,变化趋势是反向的,则称为负相关(negative correlation)。直线相关(linear correlation),又称简单相关,用以描述两个呈正态分布的变量之间的线性共变关系,常简称为相关。用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标,称为相关系数(correlation coefficient),又称为积差相关系数(coefficient of product-moment correlation),Pearson相关系数。总体相关系数用希腊字母表示,而样本

44、相关系数用r 表示,取值范围均为-1,1。直线相关系数的计算:2.相关系数的确定及假设检验步骤:(1)画散点图,判断是否有线性趋势(2)计算样本相关系数r(3)对 r 进行假设检验:H0:0,两变量间无直线相关的关系;H1:0。(4)查表,求得 P值,作出推论3.总体相关系数的区间估计从相关系数等于 0 的总体中抽样,样本相关系数的分布是对称的。但是从相关系数不等于 0 的总体中抽样,样本相关系数的分布是偏态的。Fisher(1921)的 z 变换,使其趋于正态分布:z 近似服从均数为标准差为的正态分布。将 r 变换为 z;根据 z 服从正态分布,估计 z 的可信区间;再将 z 变换回 r。4

45、.两个相关系数的比较步骤:(1)画散点图(2)分别计算两样本r(3)分别对两相关系数进行假设检验H0:12;H1:12。=0.05。22XYXX YYXXYYlrllXXYY20,212rrrtnsrn1111ln2122zzeerrrz)1/()1(ln21rr3/1n31nuzsuzz名师资料总结-精品资料欢迎下载-名师精心整理-第 20 页,共 24 页 -(4)求两者 z 并计算检验统计量 u,按标准正态分布进行推论(5)查界值表求得 P,作出推论。5.相关的注意事项:相关是共变,而非因果。充分利用散点图:判断线性趋势、判断离群值排除资料的间杂性谨防多个变量间的相关性所带来的虚假关系对

46、资料本身的要求:双变量正态分布线性回归 Linear regression 1.直线回归方程的建立最小二乘法“hat”表示估计值,给定x 时 y 的条件均数。2.回归系数和回归方程的意义及性质:b 的意义:称为斜率(slope),表示自变量增加一个单位时,应变量的平均改变量。b 的单位为(Y的单位/X 的单位)a 的意义:称为截距(intercept,constant),为 X=0 时,Y的估计值;a 的单位与 Y值相同。当 X可能取 0 时,a 才有实际意义。的意义:给定 X时 Y的平均值的估计。的意义:代表残差(residual),是 Y 的观察值与对应的估计值之差,点到直线的纵向距离。的

47、意义:是所有剩余之平方和,称残差平方和(residual sum of squares),综合表示点距直线的距离。在所有的直线中,回归直线的残差平方和是最小的。(最小二乘)3.直线回归系数的t 检验:回归系数也有抽样误差!检验方法:针对回归系数 b 的检验:t 检验针对回归方程的检验:F检验回归系数的假设检验:总体回归系数=0,则回归关系不存在。H0:总体回归系数为0,=0;H1:总体回归系数不为0,0;=0.05。21s21zzzzu31312121nnszz?YabXXXXYllXXYYXXb2)()(XbYa?Y?YY2?(YY)XXXYYYlllYY22?名师资料总结-精品资料欢迎下载

48、-名师精心整理-第 21 页,共 24 页 -回归系数与相关系数的假设检验结果等价4因变量总变异的分解5.回归方程的方差分析直线回归中三种假设检验间的关系在直线回归中,相关系数的假设检验,回归系数的假设检验,以及回归方程的方差分析结果等价。6.剩余标准差:Y的剩余标准差 扣除 X的影响(即回归所能解释的部分)后Y本身的变异程度;引进回归方程后,Y方面的变异。7.与直线回归有关的区间估计均数的可信区间:均数 界值标准误20nsbtbb,2?2.nYYslssXYXXXYbrbttSS/SS/MSFMS回归回归回归剩余剩余剩余Fttbr名师资料总结-精品资料欢迎下载-名师精心整理-第 22 页,共

49、 24 页 -个体的容许区间(参考值范围):均数 界值标准差8.直线回归与直线相关的区别与联系联系:均表示线性关系;符号相同:共变方向一致;假设检验结果相同:换算关系如下:相关系数用回归解释相关区别:?r 没有单位,b 有单位;所以,相关系数与单位无关,回归系数与单位有关;?相关表示相互关系;回归表示依存关系;?对资料的要求不同:当 X和 Y都是随机的,可以进行相关和回归分析;当 Y是随机的(X 是控制的),理论上只能作回归而不能作相关分析;I 型回归:X是精确控制的;II 型回归:X是随机的。由 X推算 Y:由 Y推算 X:9.决定系数10回归分析的正确应用?要有实际意义;?充分利用散点图,判断:?(1)线性趋势?(2)离群值?回归关系可以内插,不宜外延;?回归系数是有单位的,不能根据b 的大小判断回归关系的密切程度。?应用条件(LINE):?(1)线性(linear)?(2)独立(independent)YYXXbrll222XYXXXYYYXXYYSSlllrSSlll回归总YbaXXbaYYXYXXYXY.?名师资料总结-精品资料欢迎下载-名师精心整理-第 23 页,共 24 页 -?(3)给定 X时,Y正态分布(normal)名师资料总结-精品资料欢迎下载-名师精心整理-第 24 页,共 24 页 -

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 技术总结

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁