《医学统计学 复习.pdf》由会员分享,可在线阅读,更多相关《医学统计学 复习.pdf(16页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、-最新资料推荐-1/16 医学统计学 复习 医学统计学复习 第一章 绪论 医学统计学是运用概率论、数理统计的原理和方法,研究医学的科研设计和数据的收集、整理、分析的一门学科。一、医学研究的类型 调查性研究:对实际已发生或存在的情况进行调查观察。调查性研究 实验性研究:将一些随机抽取的实验对象随机分配到各处理组,观察比较各处理组的效应。(人为给予)实验三要素:处理因素、受试对象、实验效应。统计工作的基本步骤 设计:包括调查设计和实验设计 收集资料:收集资料要求:及时、准确、完整 医学统计资料的来源:1 统计报表:出生死亡报告、疫情报表、医院工作报表等。2 报告卡:病历、健康检查记录等。3 日常工
2、作记录 资料的系统积累就是科研 4 专题调查或实验研究。整理资料:核 查、分 组、设 计 整 理 表、归 纳 汇 总 分 析 资 料:统计描述 统计分析 参数估计 统 计 推 断 假 设 检 验 数值变量(计量资料)二项分类变量 统计资料 无 序 分 类 变 量(计 数 资 料)分类变量 多项分类变量 有序分类变量(等级资料)1.数值变量资料 计量资料 定义:对每个观察单位用定量的方法测定某项指标的数值大小所得的资料。这类资料常用平均数、标准差等指标,用检验、方差分析、直线相关与回归等方法进行统计分析。等方法进行统计分析。(客观存在)描述性研究三间分布(时间、人群间、地区间)分析性研究 病例对
3、照研究队列研究 特点:有度量衡单位;多为连续性资料 2.无序分类变量计数资料 定义:先将观察单位按某项特征进行分组,再清点各组观察单位的个数所得的资料。这类资料常用相对数、卡方检验等指标和方法进行统计分析。特点:观察调查性研究实验性研究将一些随机抽取的实验对象随机分配到各处理组观察比较各处理组的效应人为给予实验三 确完整医学统计资料的来源统计报表出生死亡报告疫情报表医院工作报表等报告卡病历健康检查记录等日工作记录资 数估计统计推断假设检验数值变量计量资料二项分类变量统计资料无序分类变量计数资料分类变量多项分类变量有序-最新资料推荐-3/16 没有度量衡单位;多为间断性资料 3.有序分类变量等级
4、资料 定义:将观察单位按某项特征的等级顺序分组,再清点各组观察单位个数所得的资料。这类资料常用相对数、秩和检验、等级相关等指标和方法进行统计分析。特点:每一个观察单位没有确切值;各组之间有程度上的差别。基本内容 统计描述 统计推断 应用 数值变量(计量资料)频数分布 集中趋势 离散趋势 r b 抽样误差、标准误 t 检验、u 检验 方差分析 直线相关回归 正常值范围 正常区间 分类资料(计数资料+等级资料)频数分布 相对数及其标准化 u 检验、2 检验 秩和检验 疾病统计 人口统计 统计图表 统计图表 一、同质和变异 同质:指性质相同的事物。变异:指同质事物的观察单位在同一指标上的差别。变量:
5、指对有变异事物的观察单位进行测量和观察的某项特征(如身高、体重)。变量的取值称为变量值或观察值,用 X 表示。观察调查性研究实验性研究将一些随机抽取的实验对象随机分配到各处理组观察比较各处理组的效应人为给予实验三 确完整医学统计资料的来源统计报表出生死亡报告疫情报表医院工作报表等报告卡病历健康检查记录等日工作记录资 数估计统计推断假设检验数值变量计量资料二项分类变量统计资料无序分类变量计数资料分类变量多项分类变量有序 二、总体和样本 总体:是根据研究目的确定的同质的所有观察单位某种变量值的集合。样本:是总体中有代表性的一部分,是从总体中随机抽出的一部分个体的某种变量值的集合。样本所包含的观察单
6、位称为样本含量,通常用 n 表示。抽样:从总体中随机抽取一部分个体的过程。抽样的目的:用样本推断总体。随机性随机化原则 随机化包括 3 方面:随机抽取样本 随机分组 对各观察单位的实验顺序随机化 随机抽样的方法 单纯随机抽样(抽签、随机数字表)系统抽样(编号后间隔抽取)整群抽样(抽取若干群体)分层抽样(按某特征分层抽取)抽样误差:整群抽样单纯随机抽样系统抽样分层抽样 随机随便(随意)三、概率和频率 概率表示某随机事件发生的可能性大小。概率通常用 P 表示,在 0 与 1 之间。0P(A)1。A 表示某一事件,叫做事件 A;P(A)表示事件出现的概率。P0.05 的事件称为小概率事件。概率与频率
7、的关系 频率总是在概率附近摆动,随着试验次数 观察调查性研究实验性研究将一些随机抽取的实验对象随机分配到各处理组观察比较各处理组的效应人为给予实验三 确完整医学统计资料的来源统计报表出生死亡报告疫情报表医院工作报表等报告卡病历健康检查记录等日工作记录资 数估计统计推断假设检验数值变量计量资料二项分类变量统计资料无序分类变量计数资料分类变量多项分类变量有序-最新资料推荐-5/16 n 的增加而稳定。n 时,P(A)=lim(K/n)概率=频率的极限值 四、统计量和参数 样本的统计指标为统计量。统计量符号通常用拉丁字母表示。如、S 等。总体的统计指标为参数 参数的符号通常用希腊字母表示。如、等。五
8、、误差 测得值与真值之差称为误差。系统误差 误差 随机测量误差 随机误差 抽样误差(1)系统误差(偏倚)概念:指数据搜集和测量过程中由于仪器不准确、标准不规范等原因,造次观察结果呈倾向性的偏大或偏小。特点:具有倾向性。(2)随机测量误差 概念:由于非人为的偶然因素,对于同一样本多次测定结果不完全一样,结果有时偏大有时偏小。特点:没有倾向性,多次测量计算平均值可以减小随机测量误差。(3)抽样误差 概念:观察调查性研究实验性研究将一些随机抽取的实验对象随机分配到各处理组观察比较各处理组的效应人为给予实验三 确完整医学统计资料的来源统计报表出生死亡报告疫情报表医院工作报表等报告卡病历健康检查记录等日
9、工作记录资 数估计统计推断假设检验数值变量计量资料二项分类变量统计资料无序分类变量计数资料分类变量多项分类变量有序 样本指标与总体指标之间的差别。特点:有抽样,抽样误差就不可避免。统计上可以计算并在一定范围内控制抽样误差。减少抽样误差的方法(1)改进抽样方法,增加样本的代表性;(2)增加样本量;(3)选择变异程度较小的研究指标.X 第三章 频数 f 每个组的个数。频数表(频数分布)表示各组频数的表格。编制频数表的步骤 1.求全距又称极差 R.R=最大值-最小值。2.确定组数 k:通常选择在 8 15 之间 3.确定组距 i:i=R/k 4.确定组段:应符合专业习惯 某组段最大值为组的上限;最小
10、值为组的下限 5.列表划记,对各组段计数:划记或由软件完成 三、频数表的用途:1.陈述资料的形式 2.揭示频数分布特征:集中趋势与离散趋势 3.揭示频数分布类型:对称分布与偏态分布 集中位置偏向小的一侧叫正偏态,反之叫负偏态 4.发现特大值和特小值 计量资料的描述 图形描述 频数分布图直方图 趋势图散点图 分布类型描述 对称分布与偏态分布 分布特征描述 集中位置:观察调查性研究实验性研究将一些随机抽取的实验对象随机分配到各处理组观察比较各处理组的效应人为给予实验三 确完整医学统计资料的来源统计报表出生死亡报告疫情报表医院工作报表等报告卡病历健康检查记录等日工作记录资 数估计统计推断假设检验数值
11、变量计量资料二项分类变量统计资料无序分类变量计数资料分类变量多项分类变量有序-最新资料推荐-7/16 算术均数、几何均数、中位数、百分位数 离散程度:极差、标准差、方差、四分位数间距 平均数是一组性质相同数据的代表值。可以用于度量集中位置(位置指标),故也叫集中趋势的指标。一.算术均数(均数)意义:一组性质相同的观察值在数量上的平均水平。表示:(总体均数)、X(样本均数)计算:直 接 法、加 权 法 直 接 法(30)加权法(30)应用:正态分布或近似正态分布 注意:合理分组,才能求均数,否则没有意义。ffXiX 组中值 i(本组段下限下组段下限)/2。nXX 二.几何均数 意义:N 个数值的
12、乘积开 N 次方即为这 N 个数的几何均数。表示:G 计算:1、直接法(n30)2、加权法(n30)应用:原始数据分布不对称,经对数转换后呈对称分布的资料。几何均数注意事项 1、观察值中不能有 0。观察调查性研究实验性研究将一些随机抽取的实验对象随机分配到各处理组观察比较各处理组的效应人为给予实验三 确完整医学统计资料的来源统计报表出生死亡报告疫情报表医院工作报表等报告卡病历健康检查记录等日工作记录资 数估计统计推断假设检验数值变量计量资料二项分类变量统计资料无序分类变量计数资料分类变量多项分类变量有序 因为 0 不能取对数,不能与其它任何数呈对数关系。2、一组观察值中不能同时有正值和负值。若
13、全是负值,计算时可把负号去掉,得出结果后再加上负号。3、同一组资料求得的均数几何均数。三、中位数和百分位数(一)中位数(M)将一组观察值从小到大按顺序排列,居中心位置的数值即为中位数。中位数的计算:直 接 法(n30)频数表法(n30)(二)百分位数 50%分位数就是中位数 25%,75%分位数称四分位数 L 为组段的下限;ix 为组距;fx 为频数;fL 为 Px 所在组段的前一组段的累积频数。百分位数(PX)的应用 1.描述一组资料在某百分位置的水平)lg(lg1fXfG)lg(lg)lglglg(lg1211nXnXXXGnnnnXMXX(1)/2/2/2 1 n()/2 n 当 为奇数
14、当 为偶数当 为奇数当 为偶数)2(cnfiLMm L 为 M 所在组段的下限、i 为组距、fm 为频数,c 为 M 所在组段的前一组段的累积频数。xxLxiffxnLP%多个百分位数结合使用,如 P25 和 P75 可以描述数据的分散程度,用 P2.5 和 P97.5 计算医学 95%的参考值范围等。观察调查性研究实验性研究将一些随机抽取的实验对象随机分配到各处理组观察比较各处理组的效应人为给予实验三 确完整医学统计资料的来源统计报表出生死亡报告疫情报表医院工作报表等报告卡病历健康检查记录等日工作记录资 数估计统计推断假设检验数值变量计量资料二项分类变量统计资料无序分类变量计数资料分类变量多
15、项分类变量有序-最新资料推荐-9/16 中位数是百分位数的特例。中位数适用任何分布资料,特别适用于描述明显偏态分布、或两端无确定数值数据的平均水平。对称分布的资料,理论上,中位数均数 2、离散趋势:常用 Q。3、参考值范围:常用 P5,P95,应用条件:偏态资料,开口资料 中位数:是百分位数的特殊形式。将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。运用平均数的注意事项 1、同质事物或现象才能求平均数 2、根 据 资 料 分 布 特 点 选 择 平 均 数 常用平均数 平均数 意义 应用条件 均数()平均数量水平 对称分布特别是正态分布资料 几何均数(G)平均增(减)倍数
16、 等比级数资料 对数正态资料 中位数(M)位次居中的变量值水平 偏态分布资料 分布不明资料 分布末端无确定值资料 第三节 离散趋势的描述 一、R 全距,极差 R=max min 缺点是结果不稳定。二、Q 四分位数间距 Q=P75 P 25 用于衡量明显偏态分布资料的变异程度。三、S 离均差平方和(SS)平均偏差可以不通过取绝对值,而是通过取平方来避免正负抵消,即使用离均差平方和,其计算观察调查性研究实验性研究将一些随机抽取的实验对象随机分配到各处理组观察比较各处理组的效应人为给予实验三 确完整医学统计资料的来源统计报表出生死亡报告疫情报表医院工作报表等报告卡病历健康检查记录等日工作记录资 数估
17、计统计推断假设检验数值变量计量资料二项分类变量统计资料无序分类变量计数资料分类变量多项分类变量有序公式为 SS 通常作为一个中间统计量使用。方差 注意:对于样本资料,分母用的是 n-1,称为自由度。标准差 为总体标准差,为样本标准差 X nXXXXSS222)()(1)(22 nXXS XXsn21 标准差应用条件:当两组观察值单位相同、均数相近时 标准差的意义:标准差愈小,说明该组观察值分布得越集中,变异程度愈小;标准差愈大,说明该组观察值分布得越分散,各变量值的大小参差不齐,变异程度愈大。即(反应变量值 X 的变异程度)计算:直 接 法(n30)加权法(n30)标准差的应用 1、表示一组观
18、察值的变异程度,衡量样本均数对该组观察值的代表性。2、计算变异系数 3、概括地估计观察值的频数分布 4、计算标准误 四、CV 意义:标准差与均数之比用百分数表示。计算:无单位 应用:单位不同的多组数据比较;均数相差悬殊的多组数据比较 标准差和变异系数的相同点:都是表示观察值变异程度的指标。标准差和变异系数在应用中有何区别?1)应用条件不同;2)观察调查性研究实验性研究将一些随机抽取的实验对象随机分配到各处理组观察比较各处理组的效应人为给予实验三 确完整医学统计资料的来源统计报表出生死亡报告疫情报表医院工作报表等报告卡病历健康检查记录等日工作记录资 数估计统计推断假设检验数值变量计量资料二项分类
19、变量统计资料无序分类变量计数资料分类变量多项分类变量有序-最新资料推荐-11/16 标准差有单位,而变异系数没有单位,是一种相对比。1/)(22 nnXXs1/)(22 fffXifXis%100 XsCVnssX%100 XsCV平均数与变异度 正态分布资料:均数标准差 偏态分布资料:中位数四分位数间距 第四节 正态分布及应用 一、概念:正态分布是以均数为中心,两侧逐渐减少并完全对称的频数分布。正态分布有两个参数:和,分别表示均数和标准差。正态分布特点 中间高,以为中心;两侧逐渐降低,左右对称;两端永不与横轴相交。正态分布曲线下面积集中在 附近,离 越远面积越小。正态曲线下面积分布有一定的规
20、律。若以正态曲线下总面积为 100 计算,则曲线下 1.96 的面积占总面积的 95;2.58 的面积占总面积的 99。标准正态分布(Z 分布)标准正态分布 U 分布 均数 0,标准差为 1,记为 N(0,1)。医学参考值范围的估计 参考值范围又称正常值范围。是绝大多数正常人的某观察指标所在的范围。绝大多数:90%,95%,99%等等。观察调查性研究实验性研究将一些随机抽取的实验对象随机分配到各处理组观察比较各处理组的效应人为给予实验三 确完整医学统计资料的来源统计报表出生死亡报告疫情报表医院工作报表等报告卡病历健康检查记录等日工作记录资 数估计统计推断假设检验数值变量计量资料二项分类变量统计
21、资料无序分类变量计数资料分类变量多项分类变量有序 最常用的是 95%参考值范围。三)估计参考值范围的方法 参考值范围估计主要有百分位数法和正态分布法。(偏态资料,百分位数法)百分范围(%)单 侧 双 侧 下限(过低异常)上限(过高异常)下限 上限 95 P5 P95 P2.5 P97.5 99 P1 P99 P0.5 P99.5(正态资料,正态分布法)百分范围(%)单侧 双侧 下限(过低异常)上限(过高异常)下限 上限 95 99 正态分布应用:估计频数分布、确定医学参考值范围、质量控制 1 计量资料的分布特征有 _集中趋势 _和 _ 离散趋势 _。2 描述计量资料集中趋势的常用指标有 均数、
22、几何均数和 中 位 数-4-3-2-1012345671 2 3 321-5-4-3-2-101234512 3 321 SX65.1 SX33.2 SX96.1 SX58.2 SX65.1 SX33.2 SX96.1 SX58.2 第四章 总体均数的估计 抽样误差:由抽样引起的样本统计量与总体参数间的差别 原因:个体变异抽样 对于抽样研究,抽样误差不可避免。均数的抽样误差:由抽样造成的样本均数与总体均数的差异。均数的标准误样本均数的标准差。均数的标准误表示样本均数的变异度。观察调查性研究实验性研究将一些随机抽取的实验对象随机分配到各处理组观察比较各处理组的效应人为给予实验三 确完整医学统计资
23、料的来源统计报表出生死亡报告疫情报表医院工作报表等报告卡病历健康检查记录等日工作记录资 数估计统计推断假设检验数值变量计量资料二项分类变量统计资料无序分类变量计数资料分类变量多项分类变量有序-最新资料推荐-13/16 均数的标准误 标准误是表示抽样误差大小的指标,即表示样本统计量与总体参数的接近程度。常用于表达样本均数抽样误差大小,说明样本均数的变异情况。越小,说明样本均数的抽样误差越小,样本均数越接近于总体均数;越大,说明样本均数的抽样误差越大,样本均数离总体均数越远。标准差与标准误的相同点:1 标准差和标准误都是变异指标。Xs 2 都有单位。标准差与标准误的不同点:标准差表示个体值的变异程
24、度。标准误表示样本均数的变异程度。任何一个样本统计量均有其分布规律。均数的抽样误差之特点 各样本均数未必等于总体均数;样本均数间存在差异;样本均数的分布很有规律,围绕总体均数,中间多两边少,左右基本对称;样本均数的变异范围较之原变量的变异范围大大缩小;随着样本含量的增加,样本均数的变异范围逐渐缩小。t 分布 t 分布有如下性质:t 分布是一簇分布,与自由度有关。观察调查性研究实验性研究将一些随机抽取的实验对象随机分配到各处理组观察比较各处理组的效应人为给予实验三 确完整医学统计资料的来源统计报表出生死亡报告疫情报表医院工作报表等报告卡病历健康检查记录等日工作记录资 数估计统计推断假设检验数值变
25、量计量资料二项分类变量统计资料无序分类变量计数资料分类变量多项分类变量有序 1.t 分布曲线以零为中心、左右对称;2.t 分布在 t 0 处,纵高值最大;3.t 分布曲线随自由度不同而异;4.当时,t 分布愈来愈接近标准正态分布(u 分布)。t 值表 横坐标:自由度,纵坐标:概率,P,即曲线下阴影部分的面积;表中的数字:相应的|t|界值。t 值表规律:(1)自由度()一定时,P 越小,t 越大;(2)概率(P)一定时,越大,t 越小;统计推断包括:总体参数的估计、假设检验 均数的可信区间:均数界值标准误 参考值范围:均数界值标准差 xn 第五章 t 检验 不同资料的假设检验方法 数值变量资料:
26、均数,标准差,t 检验,方差分析 分类变量资料:无序分类:率,构成比,2 检验 有序分类:平均等级,秩和检验(等级资料)t 检验 和 u 检验 是用于计量资料两组资料比较的最常用假设检验方法 造成两个均数不等,有以下两种可能:1、两均数差别仅仅是由于抽样误差所致.从根本上说,两均数观察调查性研究实验性研究将一些随机抽取的实验对象随机分配到各处理组观察比较各处理组的效应人为给予实验三 确完整医学统计资料的来源统计报表出生死亡报告疫情报表医院工作报表等报告卡病历健康检查记录等日工作记录资 数估计统计推断假设检验数值变量计量资料二项分类变量统计资料无序分类变量计数资料分类变量多项分类变量有序-最新资
27、料推荐-15/16 应该是一样的。【那么,仅仅是由于抽样误差所致的两均数之间差别,在统计学上称没有统计意义】2、样本来自不同总体,两均数差别主要是由于总体不同所造成。【那么,主要是由于总体不同所造成的两个均数不等,在统计学上称有统计意义】为了对两均数之间的差别有没有统计意义作出正确估计,我们就要做假设检验。t 检验、u 检验判断标准 t 检验判断标准:t t0.05,v P 0.05 差别无统计意义 tt0.05,v P 0.05 差别有统计意义 tt0.01,v P 0.01 差别有高度统计意义 u 检验判断标准:u 1.96(u0.05)P 0.05 差别无统计意义 u1.96(u0.05
28、)P 0.05 差别有统计意义 u2.58(u0.01)P 0.01 差别有高度统计意义 配对设计处理分配方式主要有三种情况:异体配对:两个同质受试对象分别接受两种处理。自身对比同一受试对象或同一标本的两个部分,随机分配接受两种不同处理;自身对比(self-contrast)。即将同一受试对象处理(实验或治疗)前后的结果进行比较。两样本均数比较方法的选择 方差齐 方差不齐 小样本 t 检验 t 检验 大样本 u 检验 u 检验 t 检验需注意观察调查性研究实验性研究将一些随机抽取的实验对象随机分配到各处理组观察比较各处理组的效应人为给予实验三 确完整医学统计资料的来源统计报表出生死亡报告疫情报
29、表医院工作报表等报告卡病历健康检查记录等日工作记录资 数估计统计推断假设检验数值变量计量资料二项分类变量统计资料无序分类变量计数资料分类变量多项分类变量有序的问题 1.要有严密的抽样研究设计 2.检验方法的选用及其适用条件,应根据分析目的、研究设计、资料类型、样本量大小等选用适当的检验方法。3.一般应选用双侧检验。4.假设检验的结论不能绝对化 当 P 接近临界值时,下结论应慎重。5.正确理解 P 值的统计意义 P 值指由抽样误差造成现有两均数差别的可能性。5.正确理解 P 值的统计意义(1)显著性水平的高低并不代表实际差别的多少。(2)检验本身并不能对研究内容作出专业方面的评价。第七章 分类变
30、量资料的统计描述 相对数:指在同一基础上两个有联系事物的指标之比。绝对数-是研究事物现象的基本资料 相对数-比较分析现象间的关系和发展 常用相对数有率、构成比、相对比和动态数列等。率(某现象实际发生例数/可能发生该现象总例数)比例基数 构成比(事物内部某一构成部分的例数/事物各构成部分例数的总和)100 相对比甲指标/乙指标(或 100)观察调查性研究实验性研究将一些随机抽取的实验对象随机分配到各处理组观察比较各处理组的效应人为给予实验三 确完整医学统计资料的来源统计报表出生死亡报告疫情报表医院工作报表等报告卡病历健康检查记录等日工作记录资 数估计统计推断假设检验数值变量计量资料二项分类变量统计资料无序分类变量计数资料分类变量多项分类变量有序