《中医药统计学与软件应用笔记重点.pdf》由会员分享,可在线阅读,更多相关《中医药统计学与软件应用笔记重点.pdf(53页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 中医药统计学与软件应用笔记重点-作者:_ -日期:_ 中医药统计学与软件应用笔记重点 绪论 统计学家 C.R.劳先生在统计与真理怎样运用偶然性中指出:在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的基础上,所有的判断都是统计学。一、统计学的概念、发展简史及主要内容 1.统计学:是以概率论和数理统计为基础,对研究对象的数据进行搜集、整理和分析,揭示事物总体特征和规律的方法论科学。2.中医统计学:是以概率论和数理统计的原理和方法为基础,以中医理论与实践为主体,通过对数据的搜集、整理和分析,达到探讨中医理论与方法内在规律的目的。3.统计学的发展趋势:依赖数学。与计算机技
2、术结合。与实质性学科、统计软件、现代信息相结合,所发挥的功效日益增强。从描述事物现状、反映事物规律,向抽样推断、预测未来变化方向发展。4.统计学的主要内容 研究设计:专业设计、统计学设计 统计学的基本概念、原理和思维方法 统计描述:统计指标、统计图表 统计推断:参数估计、假设检验 二、统计工作的基本步骤和特点 1.统计工作的基本步骤 (1)统计学设计(2)搜集资料:常规保存的记录;现场调查记录;实验/试验记录;医学文献/网络信息。(3)整理资料:检查;审核;计算机检查;分组。(4)分析资料 2.统计学认识现象的特点(1)数量性:(2)群体性:(3)具体性:(4)概率性:三、统计学中常用的概念
3、1总体(population):是根据研究目的确定的同质观察单位的集合。例 河北省 18 岁男性的身高和体重分布 某性红地 2005年健康成年男细胞数 河北省 18 岁身高在 170-175cm 男性的体重分布 有限总体:指总体限定于特定的空间、时间范围内有限个观察单位。无限总体:指没有空间和时间范围限制的总体。2样本(sample):从总体中随机抽取的有代表性的一部分观察单位的集合。样本的可靠性:指总体确定后,样本中的每一个观察单位确属预先规定的同质总体。样本的代表性:即样本能够充分反映总体的真实情况。3随机(random):即在抽样、分组、安排试验顺序时,让总体中每个受试者或观察单位都有同
4、等的机会被抽中、被分配或被安排,而不受研究者的主观意愿驱使。不能将随机理解为随便。4事件(event):指事物发生某种情况或在调查、观察和实验中获得的某种结果。确定性事件是可预言在一定条件下必然发生的事件,发生的概率为 1。随机事件:指一定条件下可能发生也可能不发生的不确定性事件,发生的概率介于 01之间。模糊事件:事物本身的含义不确定的现象。5频率(frequency):对于随机事件,在相同的条件下进行了 n 次实验,事件发生的次数为,比值/n 为频率,记为 fn(A);概率(probability):描述某随机事件发生的可能性大小,统计符号为,01,记为 P(A)。当 时,频率 fn(A)
5、概率 P(A)。小概率事件:表示某事件发生的可能性很小,在医学研究中,习惯上把 P0.05或 P0.01的事件称为小概率事件。6变异(variation):总体中各个体之间的差异性。同质是相对的,研究对象只是在某一方面是性质相同的,同类的观察对象之间往往也存在着变异。变异是绝对的、客观存在的。7误差(error):指测量值与真值之差。过失误差:也叫粗差。观测者粗心大意造成的误差。系统误差:由于仪器未校准、试剂未标定、观测标准未统一等固定原因造成的误差。测量误差:由事先难于预料的实验或观察条件的随机波动造成的误差。抽样误差:由抽样引起的样本指标(统计量)与总体指标(参数)的差别。8统计量(sta
6、tistical):是反映样本特征的统计指标。统计符号为小写的英文字母。如样本均数 、样本标准差 s、样本率 p 等。9参数(parameter):是描述总体特征的统计指标。统计符号为小写的希腊字母。如总体均数、总体标准差、总体率 等。10.统计资料的类型 根据研究目的,对研究对象的某些特征进行观测,将这些观测指标或项目称为变量。变量的具体数值(变量值)构成了统计数据或统计资料。统计资料分为两类:值变量(numerical variable):亦称定量资料。是指对每个观察单位用计量方法测得某项 数值大小所获得的资料。特点为其变量值大多有度量衡单位,其具体取值通常是正实数(零、正整数和小数)。如
7、身高 1.75m、体重 68kg、血压 9.6kPa、血糖 6.8mmol/L。分类变量(categorical variable):又称定性资料。指对每个观察单位按某一方面的特征、性质或等级分组计数而得到的资料。特点是变量值表现为互不相容的属性或类别,无度量衡单位。分类变量又可分为两类:序分类变量:又称为名义资料。具体取值通常是具有某种属性或特征的个数。特点是可在非数字中取值,各类之间具有性质上的差异。可分为二分变量和多分变量。二分变量是按互不相容的属性分成两类的资料。多分变量是按某种属性或特征分成两类以上的资料。序分类变量:亦称等级资料或半定量资料。具体取值也是具有某种属性或特征的个数,但
8、不同取值之间有半定量的关系。特点是其各类别间有等级、程度或量的差异,即可按数量的相对大小或程度的高低排出顺序。四、学习中医统计学的目的 1.顺应中医药学的发展趋势。2.强化中医科研的计划性和科学性。3.拓宽研究思路。4.学会正确地运用统计方法和合理地解释统计结果。五、学习中医统计学的注意事项 1理解和领会基本概念和原理,切忌死记硬背。2不追究公式的来源和推导,但要掌握其应用条件。3重视分析问题和解决问题能力的培养。4学会使用统计软件。数值变量资料的统计描述 统计描述概念:即利用原始数据,选择适宜的统计指标及统计图表,简明准确地探察数据的分布类型和数量特征的基本统计方法。目的:是根据样本中所包含
9、的信息,客观、正确地推论出其总体规律。第一节 频数分布 x 频数:相同观察值或观察结果出现的次数。分布:指随着随机变量取值的变化,其相应的概率变化的规律性。频数分布:观察值(变量值)按大小分组,各个组段内观察值个数(频数)的分布,是了解数据分布形态特征与规律的基础。一、频数分布的特征 1.集中趋势:指一组变量值的集中倾向或中心位置。2.离散趋势:即一组变量值的离散倾向。二、频数分布的类型 1.对称分布:指集中位置居中、左右两侧的 2.非对称分布:亦称偏态分布,是集中位置 频数分布基本对称的频数分布。偏倚、两侧频数的分布不对分为正态分布和非正态分布两 称的频 数分布,可分为正 种类型。偏态和负偏
10、态分布。三、频数分布表/图的作用 1.直观地揭示数据的分布类型和特征。2.便于发现资料中某些远离群体的特大或特小的可疑值。3.描述频数分布的集中趋势与离散趋势。4.便于进一步计算统计指标。四、频数表 概念:频数分布表的简称。指观察值或某些类别及其相应的频数按一定顺序排列的表格。例题:随机抽取某地 120例正常人,测得血清铜的含量(mol/L)如下表,试编制频数表。13.84 12.53 13.70 14.89 17.53 13.19 18.82 14.73 17.44 13.99 14.10 12.29 12.61 14.78 14.59 14.71 18.62 19.04 10.95 13.
11、81 10.53 13.56 11.48 13.07 16.88 17.04 17.98 12.67 11.03 9.23 15.04 14.09 15.90 11.48 14.64 13.64 14.39 15.74 13.99 11.31 17.61 16.26 13.53 11.68 13.25 11.88 14.21 15.21 15.29 13.70 14.45 11.23 19.84 13.11 15.15 11.70 频数表的编制方法:1.找极值:Xmax 19.84,X min 9.23 2.求全距:XmaxX min,19.849.2310.61 3.定组数:K=815。4.
12、求组距:i=/(K1)(i 为组距,k为组段数,R 为全距)i=10.61/(11-1)=1.0611 5.确定各组段的上下限:6.归纳计数:某地 120名正常成年人血清铜含量频数表 组段 频数 频率()()9.00 3 2.5 3 2.5 10.00 4 3.3 7 5.8 11.00 12 10.0 19 15.8 12.00 13 10.8 32 26.6 13.00 17 14.2 49 40.8 14.00 22 18.3 71 59.1 15.00 18 15.0 89 74.1 16.00 13 10.8 102 84.9 17.00 11 9.2 113 94.1 18.00
13、5 4.2 118 98.3 19.00 2 1.7 120 100.0 合 计 120 100.0 五、频数图 概念:亦称直方图,是以直方的宽度代表组距,以直方的面积大小表示频数的多少、以直方面积在总面积中的比例表示频率大小的图形。等距分组以横轴表示变量,以纵轴表示频数。不等距分组以横轴表示变量,但纵轴是频数除以组距 。第二节 数值变量资料集中趋势的描述 集中趋势:是度量变量值集中位置和平均水平的数量指标,其代表值为平均数。平均数:是描述一组观测值平均水平的指标,是对同质基础上的样本或总体一般特征的表达指标。算术平均数、几何平均数、中位数、众数 一、算术平均数 1.定义:算术平均数简称均数。
14、是一组观察值的和与观察值个数之商。是数量上的平均。用于说明一组观测值的趋中位置或平均水平。表示样本均数,表示总体均数。2.适用条件:正态或近似正态分布的资料。如生理指标。3.计算方法:直接法:有 n个观察值,分别为 X1,X2,Xn,式中 是求和的符号。例题:10名 12岁男孩身高(cm)分别为 125.5,126.0,127.0,128.5,147.0,131.0,132.0,141.5,122.5,140.0。求平均数。加权法:用于观察值中相同数据较多或频数表资料。1737.00/12014.48(mol/L)二、几何均数 1.定义:个数值连乘积的次方根。是比例或倍数上的平均。统计符号。2
15、.应用条件:等比数列资料。如抗体滴度。3.计算方法:例题:6 份血清抗体滴度为 1:2,1:4,1:8,1:8,1:16,1:32,求平均数。平均滴度为 1:8。三、中位数 1.定义:将一组观察值按由小到大的顺序排列,位次居中的数值即中位数。是位次上的平均。统计符号。2.应用条件:不拘分布、分布类型不明或一端无界的资料。如潜伏期、治愈时间和发病年龄。3.计算方法:n 为奇数时 n为偶数时 式中 、及 均为下标,表示有序数列中观察值的位次。例题:某医院用大黄粉治疗胃热血瘀型血证病人 9 例,其大便转阴天数分别为1、1、2、2、3、4、5、7、10,求其中位数。本例 n=9,M=X5=3(天)。如
16、果本例 n=10,第 10 个数值为 16 天,则 M=(3+4)/2=3.5(天)。数表法 用于观察值例数较多或频数表资料。为所在组段的下限;i 为该组段的组距;m 为该组段的;n 为总例数;fL 为小于的各组段的。例题:905 例男性银屑病病人的发病年龄 年龄 频数 f 累计频数 f 累计频率 p()10 54 54 5.97 10 252 306(f)33.81 20 346(f)652 72.04 30 128 780 86.19 40 84 864 95.47 50 29 893 98.67 60 5 898 99.23 70 7 905(n)100.00 20(10/346)(90
17、5/2306)24.23(岁)第三节 数值变量资料的离散趋势描述 离散趋势:亦称变异性,是描述一组同质观察值的变异程度大小的指标。不但反映研究指标数值的稳定性和均匀性,而且反映集中性指标的代表性。极差、四分位数间距、方差、标准差、变异系数。变异指标示意(两个学生五门成绩分布)学生 科 目 变异指标 S S CV 78 79 80 81 82 80 4 2.5 1.58 1.98 60 70 80 90 100 80 40 250 15.81 19.76、两个学生五门课程成绩的均数都是 80,但各科成绩分布情况却不相同。较集中,变异较小;较分散,变异较大。一、全距()概念:亦称极差,是一组观察值
18、中最小值与最大值之差,反映个体差异的范围。优点:1.意义明确、计算简便。2.稳定性较差。3.受 n 大小的影响。4.可应用于任何分布。二、百分位数和四分位间距 1.百分位数:是把一组观察值从小到大排列,分为 100 等份,与位次所对的数值即为第百分之位数。以x 表示。一个x 将全部观察值分为两部分,理论上有的观察值比它小,有(100)的观察值比它大。是一种位置指标。M 即。2.四分位数间距:是上四分位数 Q()与下四分位数 Q()之差,符号为 QR。是中间 50观察值的极差。QRQQ 用途:常用来描述偏态分布资料分布以及分布的一端或两端无确切数值资料的离散程度。表示参考值范围 百分位数的另一个
19、重要用途是表示偏态分布资料的参考值范围。例题:905 例男性银屑病病人的发病年龄(同前)计算方法:10(10/252)(9050.2554)16.84(岁)30(10/128)(9050.75652)32.09(岁)QR32.0916.8415.25(岁)三、方差 概念:方差即离均差平方和的均值。总体方差的符号为,样本方差符号为2。优点:由于2 利用了每个观察值的信息,反映一批数据变异程度的稳定性和精确性好。缺点:但在运算时需将各个离均差平方,使原度量单位变成平方单位,不便于进行比较。应用条件:要求资料服从正态或近似正态分布。四、标准差 概念:方差的平方根。除了具有方差的优点外,还克服了度量单
20、位被平方的不足,运用较方便。总体标准差的符号为,样本标准差的符号为;英文缩写为 SD。例题:A学生:n=5,X78+79+80+81+82=400;X2782+792+802+812+82232010 B学生:n=5,X=400;X233000 用途:表示正态或近似正态分布的离散程度。描述数值变量的频数分布特征()。制定医学参考值范围。与均数结合计算变异系数。与样本含量结合计算标准误。五、变异系数 概念:一组观察值的标准差与均数的百分比。是相对离散量,无单位。统计符号 CV 用途:比较度量单位不同或均数相差悬殊时几组样本资料的离散性。比较实验指标的稳定性及测定方法的精密度。例题:(1)某单位测
21、得 28 例成年脾虚病人的红细胞数为 3.10 土 0.861012L;血红蛋白值为 87.2 土 33.3gL,试比较该两项指标的变异程度。CVRBC(0.863.10)10027.74;CVHb(33.387.2)10038.19 可认为 Hb 的变异程度比 RBC 大。(2)某单位测得大鼠的血清谷丙转氨酶(ALT)为 29.4土 1.4,家兔的ALT 为 52.8 土 1.5,试比较两种实验动物 ALT指标的实验稳定性。CV 大鼠(1.429.4)1004.76;CV 家兔(1.552.8)1002.84 可认为家兔 ALT的实验稳定性较好,应优先考虑以家兔为实验对象进行ALT 的有关研
22、究。由该例可知,CV 对于改进实验方法,选择最佳实验对象、指标等,都具有一定的实际意义。变异指标:1.极差较粗,适用于任何分布;2.标准差与均数单位相同,最常用,适用于正态及近似正态分布的统计描述;3.集中指标和离散指标分别反映资料的特征,常配套使用:正态分布:算术平均数 标准差 偏态分布:中位数 四分位数间距 等比资料:G 正态分布及其应用 第一节 正态分布 某地 120例正常人血清铜含量的直方图。设想观察人数逐渐增多组、距不断细分,作直方图。将各直方顶端的中点连接,形成一条光滑的曲线,该曲线即频数曲线或频率曲线,近似于数学上的正态分布曲线。一、正态分布:又称 Gauss 分布或常态分布,是
23、一种最重要的连续型分布。正态分布曲线:是高峰位于中央,两侧逐渐下降,左右对称,永远不与横轴相交的曲线。二、正态分布的密度函数(x)f(x)为与 x 对应的正态曲线的纵坐标高度;为总体均数;为总体标准差;为圆周率,即 3.14159;e 为自然对数的底,即2.71828。三、正态分布的特征 1.在 X轴上方,均数所在处最高。2.集中性、对称性和均匀变动性。3.正态分布有两个参数 和。四、标准正态分布 由于不同的正态分布有不同的 和,用公式计算的随机变量 x 落在某个区间内的概率显得非常麻烦。为寻求一个通用的方法,进行标准正态变换(即 u变换):u(x-)/。此变换实质上是作了一个坐标轴的平移和尺
24、度变换,使原来的正态分布变换为 0、1的标准正态分布(亦称 u分布),记为(0,1)。五、标准正态分布的密度函数 (u)式中(u)为标准正态分布的密度函数,即纵坐标高度。六、正态曲线下面积分布的规律:七、正态分布的应用 1.统计分析方法的基础:很多抽样分布,如卡方分布、t 分布都是建立在正态分布的基础上。2.质量控制:为了控制检测误差,常以 2作为上下警戒线;3作为上下控制。3.估计医学参考值范围。4.进行参数估计和假设检验。第二节正态分布的应用 一、可根据正态分布的规律估计观察值的频数分布范围。例题 已知某地 120名正常人血浆铜含量(mol/L)的均数14.48、2.27,估计该地 120
25、名正常人血浆铜含量在 14.2015.60(mol/L)范围内的人数。1.计算 u 值 当 和 未知时,u(x)/s。x114.20,u1(14.2014.48)/2.27-0.12 x215.60,u2(15.6014.48)/2.270.49 2.查表 -0.12左侧的面积就是 0.12 右侧的面积。当 u0.12 时,在表的左侧找到 0.1,在表的上方找到 0.02,二者相交处为 0.5478,(-0.12)10.54780.4522,即标准正态变量 u值小于-0.12的概率为 0.4522;当 u0.49 时,(0.49)0.6879,即 u 值小于 0.49 的概率为 0.6879。
26、3.确定概率 u 值在-0.120.49 范围内的面积为:(0.49)(-0.12)0.68790.45220.2357,即血浆铜含量在 14.2015.60(mol/L)范围内的概率为 23.57。4.估计区间内人数 120名正常人血清铜含量在 14.2015.60(mol/L)范围的人数为 12023.5728 人 二、制定医学参考值范围 1、医学参考值的意义 1医学参考值:是指包括绝大多数正常人的解剖、生理、生化、免疫、组织或排泄物中成分的测量值。2医学参考值范围虑到变异的影响,提高参考值作为判定正常或异常的可靠性所确定的绝大多数正常人医学参考值的波动范围。3使用“参考值范围”的目的:个
27、体临床上划分正常人与异常人的参考。人群制订不同性别、年龄儿童某项发育指标的等级标准,用来评价儿童的发育水平等。2、制定参考值范围的步骤 1选定健康人作为调查对象。2控制测量误差。3.确定样本含量。4根据实际意义分组。5.决定取单侧还是双侧界限。6选定适当的百分界限。常用 95、80 、90、99等。7制定医学参考值范围。3、制定参考值范围的常用方法 1正态分布法 适用于正态或近似正态分布的资料。表达式为,为正态曲线下单侧或双侧尾部的面积,u为 相应的标准正态离差。双侧 95的界限值为:单侧 95的上限值为:单侧 95的下限值为:例题:某地调查正常成年男子 144 人的红细胞数,得均数 5.38
28、(1012/L),标准差 0.44(1012/L),试估计该地成年男子红细胞数的 95%参考值范围。因红细胞数过多或过少均为异常,用双侧界值。下限:-1.96s=5.38-1.96 0.44=4.52 上限:+1.96s=5.38+1.960.44=6.24 该地成年男子红细胞数的 95%参考值范围(4.526.24)1012/L。2百分位数法:是利用两个百分位数作为双侧参考值范围的上、下限,或者用一个百分位数作为参考值的上限或下限。适用于非正态分布或分布未知的资料。1)双侧 95参考值范围:P2.5P97.5 2)单侧 95参考值范围上限值:P95 3)单侧 95参考值范围下限值:P5 总体
29、均数的估计 参数估计:是通过样本信息估计其总体相应指标的数值及数值范围的统计分析方法,即用统计量估计总体参数的方法,是统计推断的一个重要方面。第一节 抽样分布与抽样误差 医学科研的常用方法是抽样研究。由于个体差异的存在,测算的样本指标值很难恰好等于总体指标值。这种由个体差异和抽样造成的样本与总体、样本与样本相应统计指标之间的差异即抽样误差。一、样本均数的抽样分布与标准误 1.样本均数的抽样分布:指某种统计量的频数分布。用样本统计量作为该样本的代表值,这些个样本代表值的大小就形成了一个抽样分布。2.抽样分布的特点:(1)各统计量间存在差异,统计量不一定等于参数。(2)统计量的变异范围比原变量的变
30、异范围大大缩小。(3)随着 n增加,样本均数的变异程度减小。(4)如果原始变量服从正态分布,则统计量也服从正态分布。如果原始变量不服从正态分布,若 n较大,则统计量服从正态分布;若 n较小,则统计量为非正态分布。3抽样误差:是因抽样产生的样本与样本、样本与总体相应统计指标之间的差异。由于存在个体差异,且样本又未包含总体的全部信息,因此抽样误差是无法避免的。抽样误差的大小主要取决于样本含量的多少和研究指标的变异程度。4.标准误:表示样本指标值在抽样分布中的变异情况。SE越小,说明抽样误差越小,用统计量来估计参数时的可靠程度越大;反之,SE越大,说明抽样误差越大,用统计量来估计参数时越不可靠。均数
31、的标准误:样本均数的标准差也称均数的标准误。反映样本均数间的离散程度,反映样本均数与相应总体均数间的差异,说明均数抽样误差的大小。估计标准误:由于 往往未知,常以 S 替代,算得的标准误称估计标准误。其统计符号。由于标准误与抽样误差成正比,与样本均数的代表性成反比,故在实际工作中可将标准误作为描述统计指标可靠性的依据。5.标准差与标准误的比较 标准差 均属标准误 意义 描述个体观察值之间的离散性(变异程度)描述同一总体中随机抽出样本含量相同的多个样本均数间的离散性 公式 与 n 的关系 随着 n 的增大逐渐趋于稳定 随着 n 的增大逐渐减小,与n 的平方根成反比。用途 表示观察值得变异大小;结
32、合样本均数描述正态分布的特征;在正态分布时做参考值范围的估计;计算变异系数和均数的标准误 表示样本均数抽样误差的大小;描述样本均数的可靠性;结合样本均数估计总体均数的 CI;进行均数间差别的假设检验 例题:已知某样本资料的2.27(mol/L),120,求其标准误。代入公式得:二、t 分布及其应用 1.t 分布:若对正态分布总体多次重复抽取若干样本含量相同的样本,样本均数围绕总体均数 呈现正态分布。若将所有样本均数按公式进行数学变换,可得 u 围绕 0的标准正态分布。由于总体标准差未知,只能求出标准误的估计值,变换公式求t 值,可得到若干 t 值。将这些 t 值绘成直方图,若样本无限多,可绘成
33、一条光滑的曲线t 分布曲线,此时所得的 t 值围绕 0 呈现的就是 t 分布。2.t 分布的特征:(1)是一簇单峰分布曲线,以 0为中心,左右对称。(2)其形态变化与自由度 的大小有关 越小,则 t 值越分散,t 分布曲线越低平,t 分布的峰部越矮而尾部翘得越高;越大,t 分布越逼近正态分布。(3)t 分布的单侧概率和双侧概率 在 t 界值表中,横标目为自由度,纵标目为概率(或)。一侧尾部面积称为单侧概率或单尾概率;两侧尾部面积之和称为双侧概率或双尾概率。表中数字表示当 和 确定时,对应的 t 的界值,其中与单尾概率相对应的t 界值用表示,与双尾概率相对应的 t 界值用 表示。查 t 界值表注
34、意:由于 t 分布是以 0 为中心的对称分布,故附表 2只列出正值,查表时,不管 t 值正负,均可用其绝对值t查表得概率值。1相同自由度时,t值增大,概率减小;2在相同t值时,双尾概率是单尾概率的两倍。如双尾 单尾 1.812 3.t 分布的用途:总体均数的区间估计;t 检验。第二节 总体均数的估计 是根据样本分布的特点,由样本均数推测总体均数的大小及其范围。总体均数估计的方法有点估计和区间估计两种。一、总体均数的点估计 点估计 概念:用样本确定的统计量的值来直接估计总体参数的数值。方法:以样本统计量及其标准误作为被估计参数的点估计值,一般是以统计量加减标准误的方式给出参数的点估计值。优点:方
35、法简单。缺点:未考虑抽样误差的影响。二、区间估计根据抽样分布原理,按预先给定的概率水准,给出被估计参数可能的数值 范围。统计学称这一范围为被估计参数的可信区间(CI)。称预先给定的概率水准为可信度或 可信系数,符号为 1-,常取 95或 99。称按 95或 99水准确定的 CI为 95CI或 99CI。1 大样本资料均数的可信区间 样本例数足够大(100)时,可按正态分布原理,用以下公式估计总体均数 的CI。95CI 99CI 例题:测得某地 296例成年男性发锌的均数为 200.0ppm,标准差为 21.8ppm。试估计该地成年男性发锌总体均数的 95CI。本例296,200,21.8,1.
36、27。95CI200.01.961.27(197.51,202.49)该地成年男性发锌总体均数的95CI为 197.51202.4ppm。2.小样本资料均数的可信区间 当较小(100)时,一般按 t 分布原理,用以下公式估计总体均数 的 CI。95CI 99CI 式中t0.05/2,与t0.01/2,为 t0.05 与 t0.01 的双侧界值。例题:测得某地 12例肾虚失钠型哮喘病人甲皱微循环管袢长度的均数为208.33,标准差为 67.07。试估计该地肾虚失钠型哮喘病人甲皱微循环管袢长度总体均数的 95CI。本例12,208.33,67.07,19.36 112111。查 t 界值表得t0.
37、05/2,112.201,按公式求得:95CI208.332.20119.36(165.72,250.94)该地肾虚失钠型哮喘病人甲皱微循环管袢长度总体均数的95CI为 165.72250.94 3.可信区间的要素(1)准确度:是 CI包含总体参数的概率大小,用可信度的大小1-表示。可信度越接近 1,可信程度越高,准确度越高。如可信度99比95可信程度高。(2)精密度:是对总体参数的估计范围或长度的度量,反映在CI即长度愈小愈精密。每一次估计间的差异越小,CI愈小,即 CI的长度越小,其估计的精密度越高。4.可信区间的特点(1)当确定后,CI范围的大小与可信度1-的高低呈正比,与估计结果的精密
38、度呈反比。(2)当可信度1-确定后,的大小与CI范围的大小呈反比;与估计结果的精密度呈正比。因为增加样本例数会减小标准误,使CI的范围缩小。CI的范围越小,真实值靠近点估计值的可能性越大,靠近CI边缘的可能性越小,估计的精确度也随之提高,其统计效力就越大。5.可信区间与可信限的关系 CI为某一整体内的一个分段,是以上、下可信限为界的开区间(不包含界值在内)。CU与 CL是 CI的上下两个界值。如95CI为(165.6,251.0)。165.6 是 CI的下限(L),251.0 为 CI的上限(U)。6.CI 与参考值范围的比较 (1)可信区间:是参数的估计范围,需用标准误(SE)计算,表示总体
39、指标的可能范围。(2)参考值范围:表示大多数正常人的解剖、生理、生化某项指标的波动范围,需用标准差计算,用于判断观察对象的某项指标正常与否。假设检验 一、假设检验的概念与分类 概念:亦称显著性检验,是利用样本信息,根据一定的概率水准,推断样本指标(统计量)与总体指标(参数)、不同样本指标间的差别有无意义的统计分析方法。(一)参数检验和非参数检验 1.参数检验 概念:依赖总体分布的具体形式的统计方法,简称参数法。常用的参数法有 2 检验、t 检验、检验等。使用条件是抽样总体的分布已知。优点:能充分利用样本信息;检验效率较高。缺点:应用条件限制较多。2.非参数检验 概念:一类不依赖总体分布的具体形
40、式的统计方法。如Ridit 分析、秩和检验、符号检验、中位数检验、序贯试验、等级相关分析等。优点:对总体的分布形式不要求;可用于不能精确测量的资料;易于理解和掌握;计算简便。缺点:不能充分利用资料所提供的信息,使检验效率降低。(二)单因素分析与多因素分析 1.单因素分析亦称一元分析,是在主要的非处理因素相同的条件下,不管影响结果的处理因素(如病人年龄、病情、辩证分型、病理类型、药物剂型、用药途径、疗程等)有多少,每次仅分析一个处理因素与效应之间关系的统计方法。2.多因素分析亦称多变量分析或多元分析,是研究多因素和多指标之间的关系以及具有这些因素的个体之间关系的一种统计分析方法。二、假设检验的基
41、本思想 先假设差别由抽样造成,即总体间本无差异,在此假设成立的前提下做抽样研究,如果该次抽样属小概率事件,则样本信息不支持原假设的成立,拒绝它。三、假设检验的基本步骤 例题:根据大量调查,已知健康成年男子的脉搏均数为72次/分。某医生在某医院随机调查 30名脾虚男子,求得脉搏均数为74.2次/分,标准差为 7.5次/分。脾虚病人的脉搏是正态分布,问脾虚男子的脉搏均数与一般成年男子的脉搏均数是否相等?分析:把一般成年男子的脉搏均数看作一个总体均数,脾虚男子的脉搏均数为样本均数。072,n30,X74.2,s7.5。0 的原因:抽样误差所致。脾虚致两个均数间有本质性差异。1建立假设、确定检验水准
42、无效假设:记为,即样本均数所代表的总体均数 与已知的总体均数0相等。样本均数与0的差异是由抽样误差引起,无统计学意义。备择假设:记为,即样本均数所代表的总体均数 与0不相等,样本均数与0的差异是本质性差异,有统计学意义。假设检验有双侧检验和单侧检验 若目的是推断两总体均数是否不等,应选用双侧检验。H0:0,H1:0 若从专业知识已知不会出现 0(或 0)的情况,则选用单侧检验。H0:0,H1:0(或 0)确定检验水准 检验水准亦称显著性水准,符号为,是事先规定的对假设成立有否作出判断的根据。常取 0.05 或 0.01。2选择检验方法、计算统计量 根据:研究目的,资料的类型和分布,设计方案,统
43、计方法的应用条件,样本含量大小等;选择适宜的统计方法并计算出相应的统计量。3确定值、做出推论 假设检验中的值是指在由无效假设所规定的总体作随机抽样,获得等于及大于(和/或等于及小于)现有统计量的概率。即各样本统计量的差异来自抽样误差的概率,它是判断 H成立与否的依据。确定值的方法主要有两种 查表法 根据检验水准、样本自由度直接查相应的界值表求出值。计算法 用特定的公式直接求出值。推论:若,就没有理由怀疑 H0的真实性,则结论为不拒绝 H0,做出不否定此样本是来自于该总体的结论,也即差别无显著性意义;若,则拒绝 H0,接受 H1,也就是说这些统计量来自不同的总体,其差别不能由抽样误差来解释,下结
44、论为差别有显著性意义。检验 以 t 分布为理论基础,对一个或两个样本的数值变量资料进行假设检验常用的方法,属于参数检验。第二节 单样本 t 检验 概念:亦称样本均数与总体均数比较的t 检验。用于从正态总体中获得含量为n 的样本,算得均数和标准差,判断其总体均数 是否与某个已知总体均数0相同。已知总体均数一般为标准值、理论值或经大量观察得到的较稳定的指标值。一、适用条件:1.对正态分布的数值变量资料,需用检验。2.对于非正态分布的资料,若经过变量变换使成正态分布,可按检验处理;否则,用非参数检验的方法。二、正态性检验的方法 检验假设为总体分布是正态分布,当 P 时,不拒绝,认为样本所来自的总体服
45、从正态分布;而 P 时,拒绝,认为样本所来自的总体不服从正态分布。1.W检验 Shapiro-Wilk检验是基于次序统计量对它们期望值的回归而构成的。所用检验统计量为 W,又称为 W 检验。在样本量 3n50 时使用。2.D 检验 Kolmogorov-Smirnov 检验的统计量为 D,所以也称 D检验,在样本量50n1000时使用。三、计算公式 ,1 式中为样本均数,为总体均数,为样本含量,为样本标准差,为自由度。四、检验步骤 1.建立假设、确定检验水准 H0:0,H1:0 ,0.05 2.选择检验方法、计算统计量 3.确定值、做出推论 =30-1=29,查 t 值表,t0.05/2,29
46、=2.045,今 t=1.607t0.05/2,29,P 0.05。按 0.05水准,不拒绝 H0,根据现有样本信息,不能认为脾虚男子脉搏数与健康人不同 第三节 配对设计资料均数的 t 检验 配对设计将观察单位按照某些特征(如性别、年龄、病情等可疑混杂因素)配成条件相同或相似的对子,每对中的两个观察单位随机分配到两个组,给予不同的处理,观察指标的变化。同一观察单位实验(或治疗)前后的比较;同一样品用两种方法检验结果的比较;配对的两个观察单位分别接受两种处理后的数据比较。配对检验 配对检验又称成对检验,是将对子差数 d 看做变量,先假设两种处理的效应相同,120,无显著性,推断两种处理因素的效果
47、有无差别或某处理因素有无作用。由于此种设计使影响结果的非被试因素相似或相同,因而提高了研究效率。一、适用条件:1.设计类型是配对设计。2.数值变量的对子差值是正态分布。二、计算公式 1,式中为各个对子数值的差数,为差数的平均数,为差数的标准差,为差数的标准误,为对子数。三、检验步骤 例题:对 10名患者分别用湿式热消化-双硫腙法和硝酸-高锰酸钾冷消化法测定尿铅,问两 法测得结果有无差别。用两种方法测定尿铅结果(mol/L)患者号 冷消化法 热消化法 差值 d d2 1 2.41 2.80-0.39 0.1521 2 12.07 11.24 0.83 0.6889 3 2.90 3.04-0.1
48、4 0.0196 4 1.64 1.83-0.19 0.0361 5 2.75 1.88 0.87 0.7569 6 1.06 1.45-0.39 0.1521 7 3.23 3.43-0.20 0.04 8 0.77 0.92-0.15 0.0225 9 3.67 3.81-0.14 0.0196 10 4.49 4.01 0.48 0.2304 合计 0.58 2.118 21.建立假设、确定检验水准 H0:0,H1:0 ,0.05 2.计算统计量 t 值 先计算差值 d 及 d 2(如表),得d=0.58,d2=2.1182 计算差值的标准误 3.确定值、做出推论 =n 1=101=9,
49、查界值表,得双侧 t0.05/2,9=2.262,本例 t t0.05/2,9,P 0.05。按 0.05 水准,不拒绝 H0,不能认为两法测定尿铅结果有差别。第四节独立样本 t 检验与检验 独立样本资料是在两个总体里分别随机抽样,或将同一总体里抽取的观察对象随机分为 两组,采取不同的处理得到的资料。独立样本 t 检验亦称两样本 t 检验或成组 t 检验。与检验均适用于完全随机化设计两独立样本的比较,目的是推断两独立样本均数所代表的未知总体均数1与2是否有差别。一、独立样本的方差齐性检验 方差齐性两个样本均数的假设检验,除了要求样本资料来自正态分布或近似正态分布,还要求两个样本的总体方差相等。
50、(一)应用条件:两个样本均来自正态分布的总体。(二)计算公式:统计量 F 为较大的方差与较小的方差的比值。F=s12/s22,1n11,2n21 (三)检验步骤 例题:某医师要观察自拟中药方“降脂胶囊”对高血脂症的疗效,将诊断为高血脂的 20例 病人随机分为两组,一组用上述中药治疗,另一组用西药治疗,3个月后测量血清胆 固醇含量(mmol/L如下,已知两组血清胆固醇含量均服从正态分布,试比较两药降低 胆固醇的效果有无差别。1.建立检验假设、确定检验水准 H0:两总体方差相等 H1:两总体方差不相等 0.10(较大以减少 II类错误)2.选择检验方法、计算统计量 中药组 S2=0.580;西药组