《2022年研究生医学统计学考点总结.docx》由会员分享,可在线阅读,更多相关《2022年研究生医学统计学考点总结.docx(25页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、基本概念:医学统计学1. 医学统计学 Statistics:医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理和方法,讨论医学资料的搜集、整理、分析和推断的一门科学;2. 同质和异质:具有相同性质的事物称为同质homogeneous;否就称为异质的或者间杂的 heterogeneous;不同质的个体不能笼统地混在一起分析,同质和异质是相对的概念;3. 变异:同质事物之间的差别称为变异 variation ,亦称个体变异;变异的两个方面:个体与个体间的差别同一个体重复测量值间的差别结果是随机的,不行猜测的;一种或多种不行控因素 已知的或未知的 作用下的综合表现; 个体变异是普遍存在的;
2、个体变异是有规律的;没有个体变异,就没有统计学;4. 总体和样本:总体population:依据讨论目的所确定的同质观看单位的全体;分为有限总体和无限总体;个体individual:是构成总体的最基本观看单位;样本sample:是从总体中依据肯定的目的随机抽取的一部分具有代表性的个体集合;样本含量 sample size: 5.参数和统计量:样本中包含的个体个数;.总体参数 parameter:描述某总体特点的指标,简称参数,一般用希腊字母表示,如:、 、 ;.统计量 statistic:描述某样本特点的指标,一般用拉丁字X母表示,如:、s、p ;.在总体被确定之后, 总体参数就是一个常数,
3、是不会变化的, 不管你是否准确知其大小;而统计量是几乎总是随着样本而变的;6. 随机random:是指机会均等,目的是保证样本对总体的代表性、牢靠性;7. 概率和频率:频率 relative frequency :在 n 次随机试验中, 大事 A 发生了 m 次,就比值 m/n称为大事 A 在这 n 次试验中显现的频率;概率probability :是随机大事发生可能性大小的一个度量,是一种参数,常用P表示, 0P 1;8. 小概率大事和小概率原理:小概率大事:医学讨论中,将概率小于等于 0.05 或 0.01 的大事称为小概率大事;小概率原理:小概率大事并不表示不行能发生,但在某一次试验中,
4、是不会发生的;9. 变量的分类:.依据取值的特性:数值变量numerical Variable 定量变量: 既有次序的意义, 又有间隔的意义,可以认为是连续的 ;往往有单位;取值间的差异是可以度量的;分类变量categorical Variable 定性变量: 取值是是分散、 定性的, 表现为互不相容的类别和属性;.无序分类 unordered categorics: 无次序, 无间隔, 仅有分类 二项分类 多项分类.有序分类 ordered categorics 等级变量 :仅有次序,无单位;取值间的差异是不行度量的.不同分类的相互转化数值变量无序分类变量数值变量有序分类变量有序分类变量无序
5、分类变量信息量只有削减,不行增加统计描述指标,出现方式可分为两种统计图:直观,但精确度稍差统计报表:能尽量具体,精确,但不够直观统计推断:从样本信息外推到总体,以最终获得对所感爱好问题的解答参数估量:样本所在总体特点假设检验:该指标可能的影响因素分析频数分布1. 频数表编制步骤求极差: R=Xmax-Xmin选定适当的组段数后估量组距:组段数的选取以能反映资料的分布特点为宜, 一般取 8 12组列出组段:组段的含义 :包括组段的下限而不含组段的上限;如: 3.2等价于 3.2, 3.5;划记归组获得频数求频率,完成频数表 :相应的频数除以总数即为频率,各组段的频率总和为1 或者 100%;2.
6、 频数分布所供应的信息.频数分布图用以表示数据的分布规律;.观看有无可疑值;.考察分布的类型;对称分布非对称分布 偏态分布 .左偏态负偏态 :指分布的长尾在峰的左侧;.右偏态正偏态 :指分布的长尾在峰的右侧;.考察分布的特点集中位置Central Tendency:描述指标有平均数(算术均数Mean、几何均数 Geometric Mean 、中位数 Median、百分位数Percentile );离散趋势Tendency of Dispersion: 描述指标有极差 Range、四分位数间距 interquartilerange 、方差 Variance 、标准差 Standard Devia
7、tion 、变异系数 coefficient of variation ;3. 平均数应用的留意事项:.同质的资料运算平均数才有意义;.均数适用于:单峰对称分布的资料;.几何均数适用于:对数变换后单峰对称的资料;等比资料、滴度资料、对数正态分布资料;运算几何均数时:变量值中不能有 0同一组变量值不能同时存在正、 负值, 如变量值全为负值, 可先将负号除去,算出结果后再冠以负号.中位数:理论上可用于任何分布资料,常用于描述偏态资料,开口资料,有不确定值的资料的集中位置; 但当资料适合运算均数或几何均数时, 不宜用中位数;中位数和百分位数在样本含量较少时不稳固,越靠两端越不稳固;中位数在抗极端值的
8、影响方面, 比均数具有较好的稳固性, 但不如均数精确;不同质的资料应考虑分别运算平均数;.百分位数:样本含量较少时不宜运算靠近两端的百分位数;.平均数要与变异指标结合使用;4. 变异度指标:四分位数间距 inter-quartile range:QU QL P75 P25,即中间一半观看值的极差;222XXXs222XXXsN方差及标准差:n1Nn1变异系数 coefficient of variation, CV:为标准差和均数的比值, 排除了平均水平的影响, 并取消了单位; 因此变异系数常用于:比较度量衡单位不同的两组或多组资料的变异度比较均数相差悬殊的两组或多组资料的变异度sCV100%
9、 X5. 变异度的正确应用:.极差不稳固,不灵敏.标准差的基本内容是离均差, 它显示一组变量值与其均数的间距, 故标准差直接地、总结地、平均地描述了变量值的离散程度;.在同质的前提下, 标准差大表示变量值的离散程度大, 即变量值的分布分散、不整齐、波动较大;反之,标准差小表示变量值的离散程度小,即变量值的分布集中、整齐、波动较小;.变异系数派生于标准差, 其应用价值在于排除了平均水平的影响, 并排除了单位;6. 总结:.每个观看指标均有其特定的变异规律;.描述变异:图形描述 统计量描述.平均数:均数、几何均数、中位数和百分位数.变异度:极差、方差、标准差、四分位数间距、变异系数.不同分布的指标
10、,用不同的统计量描述;.用平均数与变异度共同描述;正态分布1. 公式:假如随机变量 X的概率密度函数为+f X X212e22- X 就称 X 听从正态分布 ,记作 XN , 2,其中,为分布的均数,为分布的标准差;为总体均数,为总体标准差;为圆周率, e 为自然对数的底, X 为变量,代表横轴的数值, fX为纵轴数值;2. 正态分布的特点(重要) :单峰分布;高峰在均数处;以均数为中心,均数两侧完全对称;正态分布有两个参数 parameter,即位置参数 均数和变异度参数 标准差;有些指标本身不听从正态分布,但经过变换之后可以听从正态分布;正态曲线下的面积分布有肯定的规律;X轴与正态曲线所夹
11、面积恒等于1 ,对称区域面积相等;-1.64+1.64内面积为 90%;-1.96+1.96内面积为 95%;-2.58+2.58内面积为 99%;正态分布曲线下的面积与标准正态分布曲线下的面积对应以标准正态离差为单位 ;3. 标准正态分布:标准正态分布 standard normal distribution 是均数为 0,标准差为 1 的正态分布;记为 N0,1;标准正态分布是一条曲线;概率密度函数为:u 1e u 2 22- u +正态分布转换为标准正态分布:如X N , 2,作变换: uX就 u 听从标准正态分布, u 称为标准正态离差 standard normal deviatio
12、n 4.正态分布的应用:估量频数分布、质量掌握、确定临床参考值范畴参考值范畴 :1. 参考值范畴 reference interval:是绝大多数正常人的某观看指标所在的范畴,绝大多数: 90%, 95%,99%等等;确定参考值范畴的意义:用于判定正常与反常;“正常人 ”的定义:排除了影响所讨论的指标的疾病和有关因素的同质的人群;2. 参考值范畴确定的原就:选定足够例数的同质的正常人作为讨论对象:例数过少, 代表性差; 例数过多增加成本,且易导致正常标准把握不严,影响数据的牢靠性掌握检测误差判定是否分组 性别,年龄组 单、双侧问题one sided or two sided挑选百分界值 90%
13、,95%确定可疑范畴3. 参考值范畴的估量方法:正态分布法、百分位数法抽样误差1. 概念:由于个体变异的存在,在抽样讨论中产生样本统计量和总体参数之间的差异,称为抽样误差( sampling error);抽样误差的表现:样本均数和总体均数间的差别、 样本均数和样本均数间的差别;2. 中心极限定理central limit theorem :.从均数为 ,标准差为 的正态总体中随机抽样,样本均数听从均数为,标准差为n的正态分布; Xn.从均数为 ,标准差为 的任意总体中随机抽样,当样本含量足够大时,样本均数近似听从均数为 ,标准差为n的正态分布;3. 标准误 standard error:用样
14、本统计量的标准差来反映抽样误差的大小,又称s标准误;sXn其中, 为总体标准差, n 为抽样的样本例数在讨论工作时,由于总体标准差经常未知,可以利用样本标准差近似估量4. 标准误的意义:.反映了样本统计量(样本均数,样本率)分布的离散程度,表达了抽样误差的大小;.标准误越大,说明样本统计量(样本均数,样本率)的离散程度越大,即用样本统计量来直接估量总体参数越不行靠;.标准误的大小与标准差有关, 在例数 n 肯定时,从标准差大的总体中抽样, 标准误较大;而当总体肯定时,样本例数越多,标准误越小;说明我们可 以通过增加样本含量来削减抽样误差的大小;t 分布1. 依据中心极限定理的内容,当样本含量足
15、够大时,对从均数为,标准差为 的任意总体中随机抽样所得的样本均数进行标准化变换,有X N 0,1n2. 由于总体标准差往往是未知的,此时往往用样本标准差代替总体标准差:t3. t 分布的性质:X ts n这里, 为自由度,取值为 n-1.t 分布为一簇单峰分布曲线,高峰在0 的位置上,说明从正态总体中随机抽样所得样本运算出的t 值接近 0 的可能性较大;.t 分布以 0 为中心,左右对称;.分布的高峰位置比 u 分布低,尾部高;.t 分布与自由度有关,自由度越小, t 分布的峰越低,而两侧尾部翘得越高;自由度逐步增大时, t 分布逐步靠近标准正态分布;当自由度为无穷大时, t 分布就是标准正态
16、分布;.每一自由度下的 t 分布曲线都有其自身分布规律;t 界值表 ;可信区间1. 统计推断 statistical inference:是指如何抽样,以及如何用样本性质推断总体特点,分为参数估量 parameter estimation、假设检验 hypothesis testing;2.参数估量:点估量( Point Estimation:用样本统计量作为总体参数的估量;区间估量 Interval Estimation:3. 可信区间定义: 按肯定的概率或可信度 1-用一个区间来估量总体参数所在的范畴,该范畴通常称为参数的可信区间或者置信区间confidence interval , CI
17、,预先给定的概率 1-称为可信度或者置信度 confidence level,常取 95%或 99%; 可信区间 CL, CU 是一开区间CL、CU 称为可信限;4. 可信区间的运算:样本含量较小时n100:下限: Xt, sX上限:Xt , sX样本含量较大时n100:下限: 5.均数之差可信区间的运算:Xu sX上限: Xu sX均数之差”与“均数之差的标准误”之比,听从自由度= n1+n2 -2 的 t 分布;X 1X 2ttn1n2 212sXX样本含量较大时,听从标准正态分布;X 1X2t sX 1 X 2N 0,1 n1s2 n1 s211CC合并方差:s2112 2均数之差的标准
18、误:s s2 n1n22X 1 X 2n1n26. 可信区间的两个要素:.可信度( Confidence:精确性,牢靠性,即1-;一般取90%,95 ,可人为掌握;.精确性 Precision:区间的大小,越小越好;必需二者兼顾7. 可信区间的宽度:.可信度越大,可信区间越宽,说明用该区间来估量总体参数(总体均数) 越牢靠;.标准差越小, 可信区间就越窄, 意味着假如总体内变异程度较小时, 在相同的可信度下,只需要一个比较窄的可信区间就可以估量总体均数;.随着样本含量的增加,可信区间逐步变窄;8. 正确懂得可信区间:.可信度为 95%的 CI 的涵义:每 100 个样本,按同样方法运算 95%
19、的 CI, 平均有 95%的 CI 包含了总体参数;.这里的 95%,指的是方法本身!而不是某个区间!.总体参数虽未知,但却是固定的值,而不是随机变量值;假设检验1. 假设检验的目的: 基本目的就是辨论两个样本是否属一个总体或两个不同的总体,并对总体作出适当的结论;2. 假设检验的一般步骤:步骤 1:建立假设,在假设的前提下有规律可寻零假设 null hypothesis,记为 H0 ,表示目前的差异是由于抽样误差引起的;备择假设 alternative hypothesis,记为 H1 ,表示目前的差异是主要由于本质上的差别引起;步骤 2:确立检验水准 ( significance leve
20、l ,用于确定何时拒绝 H0 ,一般取0.05;步骤 3:运算检验统计量和 P 值运算检验统计量, 即运算样本与所假设总体的偏离; 样本均数与总体均数0 间的差别可以用统计量t 来表示t X0sn统计量 t 表示,在标准误的尺度下, 样本均数与总体均数0 的偏离;这种偏离称为标准 t 离差standard t deviation;依据抽样误差理论, 在 H0 的假设前提下, 统计量 t 听从自由度为 n-1 的 t 分布,即 t 值在 0 的邻近的可能性大,远离 0 的可能性小,离 0 越远可能性越小;步骤 5:界定 P 值并作结论3. 假设检验应用的留意事项:A.I 型错误和 II 型错误:
21、第一类错误( Type I Error):拒绝了实际上是成立的 H0; 其次类错误( Type II Error):不拒绝实际上是不成立的 H0;B.检验水准的挑选:检验水准有单双侧之分;挑选要有专业背景;检验水准大小的挑选要谨慎;挑选要在运算检验统计量之前;C.双侧检验与单侧检验:在相同的检验水准下, 正确地挑选单侧检验将比双侧检验得到更多的检验效能;D.P和的涵义:P 值意义:从 H0 总体中随机获得等于或大于现有统计量值的概率;拒绝H0 时所冒的风险;的意义:犯第一类错误的概率;在假设检验之前人为规定;说明拒绝H0 所冒的风险不行超过;E.正确对待统计结论和专业结论专业上有差别,假设检验
22、拒绝 H0:结果有效,可以下专业结论; 专业上无差别,假设检验不拒绝H0:下无差别的结论;专业上有差别,假设检验不拒绝H0:增大样本含量,削减二类误差;专业上无差别,假设检验拒绝 H0:改进试验,削减误差;F.Significant 的意义4. 假设检验和可信区间的区分:在相同的 之下, 如假设检验拒绝 H0p ,那么可信度为 1- 的可信区间必定不包括总体参数;反之成立;可信区间和假设检验是对同一问题所作的不同结论,成效等价;t 检验1. 成组设计计量资料比较的 t 检验:X 1X 2合并方差 方差的加权平均 : n1) s2n1s2Cts21122sXX12ss2 11 n1n22C均数之
23、差的标准误:X 1 X 2n1n2自由度= n1+n2 -22. 两组资料比较的 u 检验:当随机抽样的样本例数足够大时,t 检验统计量的自由度逐步增大, t 分布逐步靠近于标准正态分布,可以利用近似正态分布的原理进行u 检验;X AXBuX AX BsXXs2 ns2nAB3. 配对计量资料的 t 检验:AABB配对 t 检验的实质就是检验样本差值的总体均数是否为0;4. 均数的假设检验应用条件: 独立性、正态性、方差齐性与应用条件有关的一些内容: 正态性检验、 方差齐性检验、 方差不齐时的近似t 检验、大样本时,均数比较的u 检验5. 两个方差的齐性检验:Levene 法:从同一总体随机抽
24、取的样本之两方差,其方差比大方差 / 小方差2的分布听从 F 分布: Fs1 大2s2 小 F ,1 , 2 tX 1X 26. 方差不齐时两样本均数比较的近似t 检验:s2s2127. 大样本时均数比较的 u 检验:n1n2.单样本 u 检验.两样本 u 检验uX0 snN 0,1uX 1s2X2 N 0,1s212n1n2方差分析 ANOVAAnalysis of Variancet 检验的局限性单因素两水平1. 因素和水平 :.因素factors:将试验对象随机分为如干个组,加以不同的干预,称为处理因素;方差分析中所要检验的对象;.在相同的因素下的不同干预,称为不同的水平level;方差
25、分析中因素的不同表现;2. 假如每次 t 检验犯第一类错误的概率是 0.05,那么要完全地进行比较,犯第一类错误的概率是 1 1 k;此为多组间不能进行t 检验的缘由;3. 单因素方差分析:讨论的是一个处理因素的不同水平间效应的差别;4. 完全随机设计资料的方差分析:完全随机设计是医学科研中最为常用的一种试验设计方法,它是将受试者随机地安排到各试验组 可包括对比组 中,进行试验并观看试验效应;该设计适用面广,可用于两组或多组试验讨论,且各组的样本含量可不相等;2XijX2niXiX2XijXiijiij证明:2X ijXX ijXi2X iXijijX ij2X i2X ijX iX iXij
26、ij2nXXiii22X ijX iijniX iXiFMS组间SS组间组间SS组间 k1FMS BetweenMS F1 , 2 MS组内SS组内组内SS组内 nkWithin5. 随机区组(配伍组)设计的方差分析(两因素多个样本均数的比较):概念:随机区组设计又称配伍组设计,是配对设计的扩展,也可看作1:X 的配对设计;它是将几个条件相同的受试者划为一个区组block或配伍组,然后再按随机的原就,将同一区组的受试者随机安排到各试验组中;实质:两因素方差分析;变异分解, N 为总样本含量, k 为水平数, n 为区组数;knSS总Xij2X, 总N -1i =1 j 1knSS处理Xi2X,
27、 处理k-1F处理MS处理MS误差SS处理处理SS误差误差i =1 j 1knSS配伍X j2X, 配伍n-1F配伍MS配伍MS误差SS配伍配伍SS误差误差i =1 j 1SS总SS处理SS配伍SS误差总处理配伍误差6. 多个样本均数的两两比较:又叫多重比较, Multiple Comparison;分类:事先方案好的多个试验组与一个对比组之间的比较,多个组与一个特定组间的比较或者特定组间的比较; (Planned Multiple Comparison)方差分析得到有差别的结论后多个组之间的相互比较的探干脆讨论(Post Hoc);.Student-Newman-Keuls法SNK法.LSD
28、法.Dunnet 法:7. 两两比较的留意事项:.对于方差分析后的两两比较均应以方差分析拒绝相应的H0 为前提,且结论均不应与方差分析的结论相悖;.显现模糊结论,下结论应当谨慎;.方差分析拒绝H0,但两两比较得不出有差异的结论,由于方差分析效率高;两种错误的说法:X2 所来自的总体位于 X1 所来自的总体和 X3 所来自的总体之间; X1 和 X2 来自同一总体, X2 和 X3 来自同一总体;只能说明无法判定样本2 来自于何总体!.不能用 t 检验代替方差分析,也不能用 t 检验代替两两比较;.无论是 SNK法仍是 Dunnett 法,用于两组比较时,结果与 t 检验等价;8. 方差分析的要
29、求:.独 立 随 机 抽 样 Independence ; 正 态 性 Normality ; 方 差 齐 性s222Homoscedascity 9.方差齐性检验:s.两个方差的齐性检验: Levene法F1,n1,n1,ss.多个方差的齐性检验: Bartlett 法10. 方差分析小结: A.均数、方差的比较.样本均数与总体均数的比较 t 检验.配对设计样本均数的比较 配对 t 检验.两样本均数的比较21111122 t 检验, u 检验, F 检验, SNK, Dunnett多样本均数的比较 F 检验, ANOVA各组间的比较 SNK法;各试验组与某一对比组间的比较用 Dunnett
30、法 两个方差的比较 F 检验B.两个方差的比较 Bartlett检验.分析单因素多水平间的比较或多个因素对结果的影响;.要求数据满意正态性、独立性、方差齐性.单因素方差分析两因素方差分析.两两比较.变量变换.方差分析应用于两组资料的比较时,等价于t 检验;11. 变量变换 Variable Transformation.方差齐性是一个很 strong 的假设,假如不齐, 就一般不能直接进行方差分析;.变量变换:目的:方差齐性化,正态化,线性化常用方法:对数变换、平方根变换、倒数变换、平方根反正弦变换分类资料的统计描述statistical description for categorical
31、 data1.常用的相对数:作用:第一,表示事物显现的频度;其次,便于比较;率:说明某现象发生的频率与强度单位时间内实际发生某现象的观看单位数率 单位时间内可能发生某现象的观看单位数100%构成比:说明某一事物内部各组成部分所占比例;比:说明 A 是 B 的多少倍,或百分之几;2相对数应用的留意事项:运算相对数时,分母不宜太小构成比某一组成部分的观看单位数 同一事物各组成部分的观看单位数100%对两个或多个相对数指标进行比较时,要考虑抽样误差,进行假设检验, 并不能凭相对数的数值大小轻易做出结论;区分构成比和率合计率的运算不是直接求率的平均两合计率的比较需留意两者的内部构成是否相同3.标准化率
32、标准化法就是用统一的标准对内部构成不同的各组频率进行调整和对比的方法;不同的标准,所得标准化率不同;标准化率是相对的,其作用仅在于比较,而不表示实际水平; 标准化率不代表总率,也不能完全代替分组比较;二项分布及其应用 Binomial distribution and its application :1. 概率分布:随机变量的概率分布:离散分布和连续分布,依靠于相应的随机变量是离散的仍是连续的;2. 概念: 令 x 为 n 次试验中的二项随机变量,胜利的概率P胜利p,就 x 的取值为 0,l, 2,n,其联合概率分布为二项分布;3. 二项分布的概率设大事 A 显现的概率为;就在 n 次独立试
33、验中, 大事 A 恰好显现 k 次的概率为:n10 1nn1 1n 1LC kk 1 n knLnn111n 104. 二项分布的均数和方差假如 XBn,就XnnX21Xn1如均数与标准差不用肯定数而用率表示时,二项分布的累计概率 :p2p1 / np1nP Xkk0P XP X 1) nP 0XP1P X .P kX115. 二项分布的图形 :当 =0.5,分布对称;当0.5,分布呈偏态;当 0.5 时分布呈负偏态;特殊是当 n 值不是很大时, 偏离 0.5 愈远,分布愈偏;随着 n 的增大,二项分布逐步靠近正态分布;一般地说,假如 n或 n1- 大于 5 时,常可用正态近似原理处理二项分布
34、问题;6. 二项分布的应用条件 : 各观看单位只能有相互对立的一种结果,如阳性或阴性,生存或死亡等; 已知发生某一结果 如阴性的概率不变,其对立结果 如阳性的概率就为 1- ; n 次试验在相同条件下进行,且各观看单位的结果相互独立;7.二项分布的应用率的抽样分布及其性质总体率的可信区间估量两总体率之差1- 2 的区间估量两样本率的比较样本率与总体率的比较7.1 率的抽样分布及其性质 P37在 n 足够大时,样本率 p 的分布近似正态分布;率的均数和方差XBn, p, p=X/ n样本率的均数:p样本率的标准差: sp率的标准误 p1p n7.2 总体率的可信区间估量查表法n 50正态近似法n
35、p5n1-p5puasp当样本例数 n 足够大,且样本率 p 和1-p都不太小时,即 np 和 n1-p均大于 5 时,样本率 p 的抽样分布近似正态分布 .率的 95%的 CI: p1.96sp,p1.96sp 7.3 两总体率之差1- 2 的区间估量设 p1=r1/ n1,p2=r2/ n2 是两个样本率, p1p2 是它们的差;假如 n1p1,n11-p1,n1p1,n21-p2均大于 5,就正态近似的方法可用于求总体率之差的可信区间: p1p 2 1.96s p1p 2 , p1p 2 1.96s p1p 2sp1p2p1 1n1p1 p 2 1n2p2 7.4 两样本率的比较 n 较
36、大时 page73p1p20.6790.830spp0.0806u1.874spp1212pc 1pc 11n1n20.08067.5 样本率与总体率的比较 n 较小时2 检验一、两个率的比较1. 卡方四格表依据检验假设 H0 运算出来的数称作理论频数 theoretical frequencyT;2. 2 检验的基本思想:假如 H0 假设成立,就实际频数与理论频数应当比较接近;AT差值属于随机误差,用2 统计量表示:2 AT 2T2分布H0 成立时,实际数与理论数的差别不会很大,显现较大 2 值概率很小;如 P,就拒绝 H0;如 P ,就尚无理由拒绝它;3. 2 检验的步骤:(1) )假设两
37、总体率相等H0:两组总体存活率相同,即 1=2;H1:两组总体存活率不同,即 12; 0.05;(2) )实际数与理论数的差值听从 2 分布(3) ) 查 2 分布界值表确定 P 值并作出推论 4.卡方总结:4.1 比较两个样本率所代表的总体率是否有差别, 实质是考察现有的样本频数分布是否与假设下的理论频数分布间差异究竟是否包含了本质上的差异;2 统计量代表了实际数与理论数吻合的程度;4.2. 2 检验相关问题自由度 行数1列数 14.3. 2 检验相关问题四格表专用公式:4.4. 2 检验相关问题 2 值的校正:2 分布是连续性分布; 定性资料;实际数过小,增加了第一类错误;校正公式:2 A
38、T0.5 22C adbcn / 2 2 nCTab cd ac bd 4.5. 2 检验相关问题应用条件:n 40,T 5,用2 检验; N40,但 1 T 5 ,用校正 2;n 40,或 T 5,用2;但 1 T 5,用校正 2;n 40,或 T 40;20b+c 40用校正 2 ;b+c20,二项分布直接运算概率;RC表的分析方法挑选条件:理论数不能小于 1;理论数大于等于 1 小于 5 的格子数不超过总格子数的 1/5;否就用 Fisher 准确概率;或似然比检验 likelihood ratio test假如以上条件不能满意,可采纳:.增加样本含量.删去某行或某列.合理地合并部分行或列.Fisher 精确概率法.多个率或构成比比较的 2 检验,结论为拒绝 H0 时,仅表示几组有差别,并非任 2 组之间都有差别;如要明白之