《医药数理统计课程软件.ppt》由会员分享,可在线阅读,更多相关《医药数理统计课程软件.ppt(87页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、医药数理统计,教师:吕 靖 联系方式: 电话:13789089073 邮箱: QQ号:76756940 办公室:公教楼123,第一章.事件与概率,第二章.随机变量的概率与数字特征,第三章.实验设计,第四章.抽样分布,第五章.参数估计,第六章.假设检验,第八章.线性相关与回归分析,第九章.正交设计,概率规律,统计方法,主要内容,第七章.方差分析,第十章.均匀设计,实验设计,确定性现象:结果确定 不确定性现象:结果不确定,自然界与社会生活中的两类现象,抛出的物体会掉落到地上 明天天气状况 买了彩票会中奖 抛硬币出现正(反)面,事件与概率,一次抛掷硬币试验 (出现正面朝上),多次抛掷硬币实验 (出现
2、正面朝上的次数),不确定,近半数(规律),这种在个别实验中其结果呈现出不确定性,在大量重复试验中其结果又具有统计规律性的现象,称为随机现象。,概率论与数理统计是研究和揭示随机现象规律性的一门数学学科。,事件与概率,第一节 随机事件及其运算 一、随机事件 随机试验:对随机现象的观察(试验) 抛一枚硬币,观察 抛一颗骰子,观察 记录某城市120急救电话台一昼夜接到的呼叫次数 观察某一电子元件的寿命 将一枚硬币连抛三次,考虑正(反)面出现的情况 具有以上三个特点的试验成为随机试验,简称试验(E)。,1、可以在相同条件下重复; 2、每次试验的结果可能不止一个,并且能事先明确试验的所有可能结果; 3、进
3、行一次试验之前不能确定哪一个结果会出现。,事件与概率,样本空间:试验所有的结果的集合() 抛硬币:正面,反面 抛一颗骰子:1,2,3,4,5,6 记录某城市120急救电话台一昼夜接到的呼叫次数:1,2,3,4, 观察某一电子元件的寿命: R+ 将三枚硬币:正正正,正正反,正反反,反反反 随机事件:随机试验的结果(样本空间的子集)(A,B.) 基本事件:不能分解成其它事件的最简单的随机事件. 必然事件:每次试验必然发生() 不可能事件:每次试验都不会发生(),二、事件间的关系与运算,事件的包含:如果事件A发生必然导致B发生 则称事件B包含事件A 或称事件A包含于事件B 或称A是B的子事件 记作B
4、A或AB,说明:AB属于A的每一个样本点一定也属于B 对任意事件A 易知A,事件的相等:如果事件A包含事件B 事件B也包含事件A 则称事件A与B相等(或等价) 记作AB,说明:相等的两个事件总是同时发生或同时不发生,事件与概率,事件的并(或和) “事件A与B至少有一个发生”这一事件称 作事件A与B的并(或和) 记作AB或AB 例.在投掷一枚骰子的试验中 记A“点数为奇数” B“点数小于5” 则 AB?,事件的交(或积) “事件A和B都发生”这一事件称为事件A与B的交(或积) 记作AB(或AB),说明:两个事件的并与交可以推广到有限个或可数个事件的并与交,例.在投掷一枚骰子的试验中 记A“点数为
5、奇数” B“点数小于5” 则AB ?,事件与概率,事件的差 “事件A发生而B不发生”这一事件称为事件A与B的差 记作AB 例.在投掷一枚骰子的试验中 记A“点数为奇数” B“点数小于5” 则 AB ?,互不相容事件 若事件A与B不可能同时发生 也就是说 AB是不可能事件 即AB 则称事件A与B是互不相容事件,事件与概率,完备事件组:设A1 A2 An是两两互不相容的事件 并且和为,称A1 A2 An是一个完备事件组,例.考察某一位同学在一次数学考试中的成绩 分别用A B C D P F表示下列各事件(括号中表示成绩所处的范围) A优秀(90 100) D及格(60 70) B良好(80 90)
6、 P通过(60 100) C中等(70 80) F未通过(0 60) 则:A B C D F是两两不相容事件 P与F是互为对立的事件 即有PF A B C D均为P的子事件 且有PABCD,对立事件:“事件A不发生” 这一事件称为事件A的对立事件 记作A 如:在投掷一枚骰子的试验中 “点数小于3”和“点数大于4”这两个事件是互不相容事件 说明:在一次试验中 如果A发生 则A一定不发生 如果A不发生 则A一定发生 因而有AA AA,问:对立事件与互不相容事件之间的关系?,事件与概率,三、随机事件的运算律 1 关于求和运算 (1) ABBA (交换律) (2) (AB )CA(BC )ABC (结
7、合律) 2 关于求交运算 (1) ABB A (交换律) (2) (AB )CA(B C )AB C (结合律) 3 关于求和与求交运算的混合 (1) A(BC )(AB )(AC ) (第一分配律) (2) A(BC )(AB )(AC ) (第二分配律) 4 关于求对立事件的运算 5 德摩根律,事件与概率,频 率 稳 定 值 概率,概率的统计定义 频率:在相同条件下进行n次试验,事件发生的次数m称为事件 发生的频数。称 为发生的频率。记作 定义:当n足够大时,频率的稳定值p(注意概率与频率的区别),性质:,第二节 事件的概率,注:概率是一个随机事件所固有的属性,与试验次数以及每一次试验结果
8、无关。,频率的性质,事件发生的频繁程度,事件发生的可能性的大小,概率的统计定义,事件与概率,一、概率的定义,概率的古典定义 前提:试验样本空间只包含有限个元素;每个基本事件发生等可能性。 定义:已知样本空间 中基本事件总数为n,若事件A 包含 k 个基本事件,则有 例:将一枚硬币抛三次,求(1)事件A=恰有一次出现正面(2)事件B=至少有一次出现正面? 例:某学习小组有10名同学,其中7名男生,3名女生,从中任选3人去参加社会 活动,则3人全为男生的概率为?,补充:排列与组合 排列定义:从m个元素中,取出n(nm)个元素按一定顺序排成一列。记为 组合定义:从n个元素中,任取k个为一组,得出的不
9、同的组数,称为组合数。 记作,1.互斥事件加法定理(有限可加性) 若事件A、B互斥,则有P(A+B)=P(A)+P(B) 推广:若 为两两互斥事件,则 例 .药房有包装相同的六味地黄丸100盒,其中5盒为去年产品,95盒为今年产品。现随机发出4盒,求:有1盒或2盒陈药的概率。 2. 一般加法定理 对任意两事件A、B,有P(A+B)=P(A)+P(B)P(AB) 推广:对任意三事件A、B、C,有P(A+B+C)=P(A)+P(B)+P(C)P(AB)P(AC) P(BC)+P(ABC) 3.减法定理 对任意的A、B,有P(A-B)=P(A)P(AB),二、概率的运算,4.条件概率与乘法定理 条件
10、概率:在事件B已经发生的条件下,A发生的概率称为A的条件概率,记 性质: 一般情况下, 例. 袋中有2个白球,8个黑球,现让两个人去抽球(无放回)。若已知第一个人抽到白球,则第二个人也抽到白球的概率是多少? 乘法定理: 推广公式:,4.独立事件及其乘法定理 独立事件:若 或 或 则称时间A、B相互独立。 定理:若A与B,A与 , 与B, 与 中有一对相互独立,则另外三对也相互独立。 推广:若任意三事件A、B、C两两独立,且P(ABC)=P(A)P(B)P(C),则称A、B、C相互独立。 多事件相互独立 多事件两两独立 例如:抛一枚硬币两次,记A=第一次为正面,B=第二次为反面,C=两次都为同一
11、面。分析知,A、B、C两两独立,但不相互独立。 独立事件的乘法定理:若 相互独立,则 注意:具有非零概率的两事件,互斥就不独立,独立就不互斥。 例.若每人血清中有肝炎病毒的概率为0.4%,今混合100人的血清,求混合血清无肝炎病毒的概率。,1.全概率公式:若 构成互斥完备群,则对任意事件B,有 全概率公式的意义:在较复杂情况下直接计算P(B)不易,借助于一个完备事件组,将复杂事件分解成若干个互不相容的简单事件的和,再利用概率的加法公式求出复杂事件概率。 例12.设药房的某种药品由三个不同的厂家生产。其中第一家药厂生产的药品占1/2,第二、三家分别占1/4,已知第一、二家药厂生产的药品有2%的次
12、品,第三家药品有4%的次品。试求:现从药房任取一份,问拿到次品的概率?,第四节 全概率公式和逆概率公式,实际工作中还会遇到与全概率问题相逆的问题。 如例12改成:设药房的某种药品由三个不同的厂家生产。其中第一家药厂生产的 药品占1/2,第二、三家分别占1/4,已知第一、二家药厂生产的药品有2%的次品,第三家药品有4%的次品。试求:拿到的药品是次品时,该次品由各家药厂生产的可能性为多大? 2.逆概率公式(贝叶斯公式):设 是互斥完备群,则对任意事件B, 有,随机变量的概率分布与数字特征,第一节 随机变量与离散型随机变量的概率分布 引入随机变量使得随机事件可用随机变量的关系式表示,从而使对随机现象
13、研究进一步深入、更数学化。 1.随机变量 对于随机试验,若其试验结果可用一个取值带有随机性的变量来表示,且变量取这些可能值的概率是确定的,则称这种变量是随机变量。 注意:随机变量常用X,Y,Z表示,而表示随机变量所取的值通常用x,y,z表示。 例如,从某一学校随机选一学生,测量他的身高。我们可把可能的身高看作随机变量X,然后提出关于X的各种问题。如P(X1.7)=?P(X1.5)=? P(1.5X1.7)=?一旦我们实际选定了一个学生并量了他的身高之后,我们就得到X的一个具体的值,记作x。这时,要么x1.7米,要么x 1.7米,再去求P(x1.7米)就没有什么意义。 性质1:随机变量取任何值的
14、概率均为非负。 性质2:随机变量取所有可能值的概率之和为1。,2.离散型随机变量 如果随机变量只能取有限个或无限可列个数值,则称它为离散型随机变量。 例如:小白鼠存活的只数,引体向上次数等。 3.连续型随机变量 如果随机变量的可能取值为某一区间的所有实数,无法一一列举,则称他为连续型随机变量。 例如:身高、体重等。,4.离散型随机变量的概率函数 设离散型随机变量X的所有可能取值为xi (i=1,2,),相应的概率P(X=xi)=pi称为离散型随机变量X的概率函数或分布律。 通常X的分布律可用表格表示: 概率函数有如下性质性质: 例.某篮球运动员投中篮圈概率是0.9,求他两次独立投篮投中次数X的
15、概率分布。,5.离散型随机变量的分布函数 设X是一个随机变量(可以是离散型,也可以是连续型),x是任意实数,则函数 F(x)=P(Xx)称为随机变量X的分布函数。 性质:(1) F(x)为非减函数; (2)0F(x)1 (-x+); (3)F(-)=0, F(+)=1; (4)F(x) 右连续,即 例. 给青蛙按每单位体重注射一定数量的洋地黄,由以往的实验知,致死的概率 为0.6,存活的概率为0.4,现给两只青蛙注射,求死亡只数的概率函数和分布函 数。,第二节 常用的离散型随机变量的概率分布 1.二项分布 伯努利试验:许多试验只有两种互斥的结果,为了找到这些试验结果的规律性, 需要在相同条件下
16、做n次独立重复试验,称为n重伯努利试验,简称伯努利试验。 二项分布 若在一次伯努利实验中成功(事件A发生)的概率为p(0p1),独立重复进行n次, 这n次中实验成功的次数(事件A发生的次数)X的分布列为: 称X所服从的分布为二项分布.记为XB (n, p). 例.某射手在相同条件下独立地进行5次射击,每次击中目标的概率是0.6,求击中 目标次数X的概率分布.,在二项分布中,X取不同值k(k=0, 1, 2, n)的概率是不同的, 是P(X=k)取最大值的k(记为k0)称为二项分布的最可能值。当k在(n+1)p附近时,P (X=k)达到最大值。即: 若(n+1)p为整数,则k0为(n+1)p和(
17、n+1)p-1; 若(n+1)p为非整数时,则k0为int (n+1)p 例4. 设某种老鼠正常情况下,受某种病毒感染的概率为20%,试求正常情况下, 25只健康老鼠受感染的最可能只数是多少? 2.泊松分布(稀有事件模型) 如果随机变量X的概率函数为 其中,0,则称X服从参数为的泊松分布,记为XP ()。 许多稀有事件都服从或近似服从泊松分布。 =np。,例5.已知某地区人群中患某种病的概率为0.001,试求在检查的5000人中至少有2 人患此病的概率。 解:由于n=5000较大,p=0.001较小,取=np=5,设X=患此病人数, 则XP(5) 若精确计算,则XB(5000,0.001),第
18、3节 连续型随机变量的概率分布 1.连续型随机变量的概率密度 若对于随机变量X的分布函数F(x),存在非负函数f (x), 使得对于任意实数x,有: 则称X为连续型随机变量,其中被积函数f(x)称为X的概率密度函数(简称概率 密度) 性质: f (x) 0; 对于任意实数a,b(ab) 若f(x)在点x处连续,则 注意:连续型随机变量X的分布函数F(x)是连续函数. 连续型随机变量 X 取任一常数 a 的概率为0 ,2.正态分布 定义:若随机变量X的概率密度函数为 其中 , ( 0)为常数 ,则称X服从参数为 ,2的正态分布(或高斯分布) ,记为XN(, 2). 特点:曲线f(x)呈钟形,关于
19、直线x=对称,在(-,上递增,在,+) 上递减。 在x=处,f(x)取最大值 在x=处有拐点,且以x轴水平渐近线。,当固定时,改变,则f(x)图形的形状不变,只改变其位置,确定图形的 中心位置,称位置参数,增大,曲线向右移。 当固定时,越小图形越陡峭,确定图形峰的陡峭形状,故称形状参数。,标准正态分布 参数=0,=1的正态分布为标准正态分布,记为XN(0,1)。 标准正态分布的重要性在于,任何一个正态分布都可以通过线性变换转化为标准正态分布。它的依据是下面的定理: 根据定理,只要将标准正态分布的分布函数制成表,就可以解决一般正态分布的概 率计算问题。,正态分布是自然界及工程技术中最常见的分布之
20、一,大量的随机现象都是服从或 近似服从正态分布的正态分布是概率论中最重要的分布。 均匀分布、对数正态分布等分布不做要求。,第4节 随机变量的数字特征 随机变量数字特征,分两类: 表示集中程度、平均水平 数学期望、分位数、中位数、众数等; 表示离散程度、变异大小 方差、标准差、变异系数等。 1.均数(数学期望) 定义1:设离散型随机变量X的分布律为PX=xi=pi, k=1,2,3. ,则规定X 的均数 定义2:设连续型随机变量X的概率密度函数f(x),则规定X的均数为 性质:(1) E(c)=c, c为常数 (2)E(cX)=c*E(x) (3)E(XY)=E(X)E(Y) (4)E(XY)=
21、EX*EY,X与Y独立,常见分布的数学期望 二项分布: 泊松分布: 正态分布:E(X)= 2.方差和标准差 方差:设X是一个随机变量,则称E(X-EX)2为X的方差,记作DX, 为标准差。 注:随机变量的方差反映了它的取值与其数学期望的偏离程度,它是衡量取值离 散程度的一个尺度。 对于离散型随机变量: 对于连续型随机变量: 性质:(1) D(c)=0,c为常数 (2) D(cX)=c2*D(X) (3) D(XY)=DX+DY,X与Y相互独立,常见分布的方差 二项分布: 泊松分布: 正态分布: 例7:设XP(2),则下列结论中正确的是( ) A.EX=0.5,DX=0.5B.EX=0.5,DX
22、=0.25 C.EX=2,DX=4 D.EX=2,DX=2 例8:相互独立的随机变量X和Y的方差分别为4和2,则随机变量3X-2Y的方差是? 3.变异系数 比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。,第5节 三种重要分布的渐进关系(略) 当n,二项分布B (k; n, p)以泊松分布P (k; )为极限分布; 当n,二项分布B (k; n, p)以正态分布N (np, npq )为极限分布; 当n,泊松分布P (k; ) 以正态分布N(; )为极限分布。 例:,第3讲 随机抽样、抽样分布和总体的参数估计 第1节 随机抽样 1.总体与样本 总体:研究对象的全体,组成总体的每个
23、单元称为个体。 样本:在一个总体X中抽取n个个体X1,X2Xn,这n个个体组成的集合称为总体 X的一个样本。样本中含有个体的数目称为样本容量,也称样本的大小。 简单随机抽样 是指在抽取样本单位时,总体的每一个可能的样本被抽中的概率相同。 简单随机样本 样本X1,X2Xn相互独立且与总体X有相同的分布函数,这样的样本称为简单随 机样本。,第2节 样本的数字特征 统计量:设X1, X2Xn为总体X的一个样本,g(X1,X2Xn)为一个样本函数,如 果g中不含有任何未知参数,则称g为一个统计量。 特点:(1)统计量是样本中n个随机变量X1 ,X2 ,Xn的函数,它是完全由样本决 定的量,仍是一个随机
24、变量。 (2)统计量不包含任何未知参数。 例如: 几种常见统计量 样本均数,样本方差、标准差、变异系数(相对标准差) 注意:分母为n-1。由于样本方差中的均数是样本的,是总体的一部分,其离差平 方和一定变小,所以若以n为分母,S2一般比总体方差小(有偏估计)。而分母改 为n-1后,经数学证明,S2总在总体方差周围波动(无偏估计),另外,S2 的自 由度正好是n-1。 样本的标准误 SD与SE的区别:SD是描述个体观察值变异程度的大小,样本标准差越小,样本均 数对一组样本观察值的代表性就越好;SE是描述样本均数变异程 度和抽样误差的大小,样本标准误越小,用样本均数估计总体均 数可靠性就越高。,在
25、实际中,一般用样本标准差与样本均数结合,用于描述样本观察值的分布范 围;样本标准误与样本均数结合,用于估计总体均数可能出现的范围。 第3节 抽样分布 统计量是样本随机变量的函数,也是一个随机变量,因而也有自己的概率分布, 这种统计量的分布叫做抽样分布。 以下介绍几种在已知总体为正态分布条件下,常见统计量的抽样分布。 1.样本均数的u分布 这说明样本均数的期望与总体的期望相等,而方差为总体方差的1/n倍。可见,用 样本均值估计总体均值无系统偏差,且n越大越精确。,样本均值分布的应用: 其标准化随机变量u主要用于单正态总体、方差已知、小样本条件下数学期望的u检验。,2.2分布(卡方分布) 设X1,
26、X2,Xn相互独立,都服从N(0,1),则称随机变量: 所服从的分布为自由度为n的2分布,记为22(n)。 自由度:指统计量中独立变量的个数。计算公式为df=n-k,n为样本容量,k为约 束条件个数。如统计量 ,变量独立无约束条件,所以自由 度为n。而样本方差 ,其中有n个变量 ,但 这说明变量间有一个约束条件,所以其自由度为n-1. 性质:(1)一种非对称分布。当n较大时,曲线近似对称,趋于正态分布。 (2)一个以自由度n为参数的分布族, 自由度n决定了分布的形状,对于 不同的n有不同的分布。 (3)均值为n,方差为2n。,定理:若X1,X2Xn为正态总体 的一个样本,则有 3.t分布 设X
27、N(0,1),Y2(n),且X与Y相互独立,则称随机变量 所服从的分 布为自由度为n的t分布,记为tt(n)。 性质:(1) t分布是对称分布,与标准正态分布相比,t分布的中心部分较低,2个尾部较高。 (2)均值为0, 方差为n/(n-2)。 (3)当样本容量n较小时,t分布的方差大于1;当n逐渐增大时,t分布的方差就接近1,t分布也就趋近于标准正态分布。,t分布是统计学中十分重要的分布,应用最为广泛,其应用的依据是下面2个定理: (1) 设X1,X2Xn为正态总体 的一个样本,则 (2) 设X1,X2Xn1和Y1,Y2Yn2分别是从同方差的总体 和 中所抽取的样本,它们是相互独立,则 其中,
28、 S1和S2分别是这两个样本的标准差。,4.F分布 设X 2(n1), Y2(n2), X与Y相互独立,则称统计量 为服从自由度 n1和n2的F分布,记为FF(n1,n2)。 n1为分子随机变量X的自由度,称为分子自由度,n2为分母随机变量Y的自由度,称为分母自由度。 性质:(1) 非对称偏左侧的分布;当n较大时,曲线近似对称,趋于正态分布。 (2)是以自由度n1和n2为参数的分布族,不同自由度决定了F 分布的形状。 概率分布的拟合及其应用不做要求。,第4节 总体的参数估计 统计推断:用样本的信息去推断总体的信息。 参数估计:用样本统计量去估计总体参数的大小。 假设检验:用样本统计量大小去推断
29、总体参数是否有差异。,1.参数点估计(略) 直接用样本统计量大小代替总体参数。同一总体参数可用多个统计量来估计,衡 量其好坏的指标有三个:无偏性、有效性、一致性。(易出选择题或填空题) 缺陷:(1)点估计值不一定是参数的真值,即使与真值相等也无法肯定这种相等 (总体参数本身是未知的)。 (2)点估计值只是未知参数的一个近似值,没有给出它与真值之间的误差范 围(可靠程度),把握不大。 实例:估计全省18岁女孩的平均身高。若根据实际样本,通过点估计法可能得到 女孩的平均身高估计值为162cm。而实际上,女孩的平均身高可能大于或小 于162cm。若能给出一区间,能以较大概率相信这个区间包含身高的真值
30、, 将会更有价值。,2、区间估计 在给定可靠程度1-下,用样本值通过合适统计量,估计总体参数所在区间的 方法。 置信区间与置信度 设是总体的未知参数,若由样本X1,X2,Xn 确定的两个统计量: 对给定(01),满足 则称 是在置信度(置信水平、置信概率)1-下的置信区间(CI)。 注意:置信区间的长度反映了估计的精度,长度越小,估计的精度越高。置信度 则反映了估计的可靠程度,置信度越大,估计的可靠性越大。 置信度与精确度是一对矛盾,如何处理? 两者矛盾时,应在保证可靠度条件下尽 可能提高精度。,3.正态总体期望值的区间估计 已知 设X1, X2,Xn是取自正态总体N(,2)的样本,且2已知,
31、求参数的置信 度为1-的置信区间。 解:(1)选的点估计 (2)取函数 (3)对给定的置信度1-,查正态分布表得U/2, (4)变形 所以在置信度1-的置信区间为: 简记为 常取值0.05,而,例1.设正态总体XN(,1),从中抽取样本容量为16的样本,且样本均数为5.20,求的置信度为95%和99%的置信区间。 解:由题意易得n=16,=1(总体方差已知) 当1-=0.95时,=0.05;查表得 u0.05/2=1.96 当1-=0.99时,=0.01, 查表得,u0.01/2=2.58 则置信度为95%的置信区间为 既为(4.71,5.69)。同样计算方法可得 99%的置信区间为(4.56
32、,5.85)。 可以看到,99%的置信区间要比95%的置信区间宽, 虽然可靠性更强,但是精确度更低。,未知 设X1,Xn是取自N(,2) 的样本,且2未知,求参数的置信度为1-的置信区间。 思考:应选择何种分布函数? 解:(1)选的点估计 (2)取函数 (3)对给定的置信度1-, (4) 所以在置信度1-的置信区间为: 简记为,例2.随机抽取6只猫,静脉注射麻醉后,收集支气管内分泌物,分泌量为4.8,7.92, 1.2, 12.72, 9.6, 13.68,若分泌量服从正态分布,求该批猫支气管内平均分泌 量的95%的置信区间。 解:n=6,df=5,总体方差未知。当1-=0.95时,=0.05
33、,查表得t0.05/2(5)=2.571 95%的置信区间为 ,既为(3.33, 13.31)。 注意:在大样本下,t/2(n-1)u/2,即t分布近似于标准正态分布,这时, 的置信水平1-的置信区间为 大样本:50 正态总体总体均数之差的区间估计、正态总体方差的区间估计(略)。 离散型总体参数的区间估计不作要求。,第4讲 总体参数的假设检验,第1节 假设检验的基本思想 问题的提出 从吸烟人群和非吸烟人群中各抽取n=100的样本,分别记为A样本和B样本。A样本 收缩压为150mmHg,B样本为130mmHg。 原因有两种可能:(1) 两个总体均数不相同 (2) 抽样误差(两个总体均数相同) 假
34、设检验的基本思想 (1)反证法 (2)小概率原理:认为小概率事件在一次抽样中是不可能发生的。 先假定一个假设H0:1=2成立,如果由此导出一个不合理现象的发生(即出现 一个小概率事件),就拒绝这个假设;如果没有导出不合理的现象发生,就不能 拒绝这个假设。,假设检验的基本步骤 (1)建立假设 H0:1= 2 (原假设) H1:12 (备择假设) 注意:假设是针对总体,而不是样本 (2)确定检验水准 显著性水准,判定差别有无统计学意义的概率水准,确定了小概率事件的标准。 通常取=0.05。P - 小概率事件 (3)选定检验方法,计算检验统计量 根据研究目的、资料类型选用合适的检验方法; 统计量都是
35、在H0成立的前提下算出来的! (4)确定P值 根据检验统计量确定P值。,P值:H0成立的概率 如果P0.05,即H0成立的概率小于0.05,可以认为H0成立是小概率事件,发生的 可能性很小,就有理由怀疑H0不成立! (5)做出推断结论 推断的结论统计学结论专业结论 P0.05,按=0.05检验水准,不拒绝H0,差异无统计学意义,还不能认为 不同或不等。 P0.05 ,按=0.05检验水准,拒绝H0,接受H1,差异有统计学意义,可以认为 不同或不等。 下结论时,对H0只能说拒绝/不拒绝;对H1只能说接受! 不拒绝H0 接受H0,第2节 单个正态总体的参数检验 2已知时正态总体均值的u检验 设总体
36、XN(,2),X1,X2,Xn为抽自总体X的样本,方差2已知,则 例1.某药厂正常情况下生产的某药膏含甘草酸量XN(4.45,0.1082).现随机抽 查了5支药膏,其含甘草酸量分别为:4.40 4.25 4.21 4.33 4.46,若方 差不变,问此时药膏的平均含甘草酸量是否有显著变化?(=0.05) 解:H0:=0,H1:0;=0.05 根据显著水平=0.05,查正态分布双侧 临界值,得u0.05/2=1.96 |u|=2.485u0.05/2 ,所以拒绝H0,接受H1。 可以认为此药膏的平均含甘草酸量有显著性变化。,2未知时正态总体均值的u检验 设总体XN(,2),X1,X2,Xn为抽
37、自总体X的样本,方差2未知,则 例2.正常人的脉搏平均为72(次/min),现测得20例慢性四乙基铅中毒患者的脉 搏(次/min)的均值是63.50,标准差是5.60,若四乙基铅中毒患者的脉搏服从正态 分布,问四乙基铅中毒患者的脉搏是否与正常人不同?(=0.05) 解: H0:=0,H1:0 =0.05 查t分布临界值表得: |t|=6.7882.093,所以拒绝H0,接受H1 可认为四乙基铅中毒者的脉搏与正常人不同。,第3节 两个正态总体的参数检验 1.两个正态总体的方差齐性检验(略) 2.配对比较两个正态总体均数的检验(略) 3.成组比较两个正态总体均数的检验(略) 第4节 方差分析 在多
38、组总体均数比较时如采用t检验会增大犯第一类错误概率。如三组之间的两两 t检验,三组之间的两两t检验做完三次t检验,总的显著性水平变为1-(1-0.05)3 =0.14,要大于设定的=0.05。而方差分析是将三组数据放在一起做一次比较,犯 一类错误的概率仍为=0.05。 基本概念 试验指标:衡量试验结果好坏的标准。 因素:在试验过程中,影响试验结果的条件。 水平:因素在试验中可能处的状态。,总体1. N(1 ,12)- 样本1( n1 , ,S1 ) 总体2. N(2 ,22)- 样本2( n2 , ,S2 ) 总体3. N(3 ,32)- 样本3( n3 , ,S3 ) 已知:12=22=32
39、,问:1=2=3 ?,总离差平方和(SS),所有观察值之间的差异,组内离差平方和(SSe),在因素的同一水平(同一个总体)内,样本的各观察值之间的差异,组间利差平方和(SSA),在因素的不同水平(不同总体)下,各水平的均值之间的差异,组间变异(不同药物效应引起 + 随机误差引起) 总变异 组内变异(随机误差引起) 如不同药物的作用相同(H0:均值相等),则:F=组间变异/ 组内变异 =1 在H0条件下,F虽不会正好等于1 (抽样误差),但应当和1相差不大。 F越大,其概率越小,当F以致其对应的概率P0.05,则可认为不同药物的作用 是不相同的。即样本均数之间的差异有统计学意义。,方差分析的基本
40、步骤 (1)提出假设 H0:三种药物对小白鼠镇咳作用相同 H1:三种药物镇咳作用不完全相同 (2)确定检验水准 =0.05 (3)计算统计量 SSe的自由度为N-k,即40-3=37,组内方差Se2=SSe/(N-k) SSA的自由度为k-1,即3-1=2,组间方差SA2=SSA/(k-1) 统计量F=组间方差SA2 /组内方差Se2 ,将结果整理为方差分析表,(4)确定P值 (5)作出推断结论 在=0.05水平上,拒绝H0,接受H1,认为三种药物平均推迟咳嗽时间不全相同。 方差齐是方差分析的前提条件之一,因此先进行方差齐性检验(略)。 方差分析中如果拒绝HO,接受H1,仅能认为多个水平间均数
41、不全相等,但是哪些 水平间差异显著,哪些不显著,方差分析不能作结论。因此需要进行两两间多重 比较的检验法(略)。 两因素试验的方差分析不作要求。 第5节 离散型变量总体参数的假设检验 单个总体率的假设检验(略) 两个总体率的假设检验(略),第6节 列联表中独立性检验 22列联表(四格表)中的独立性检验 原理及步骤 (1)建立假设 H0:两种药物治疗消化道溃疡的疗效相同 H1:两种药物治疗消化道溃疡的疗效不同 (2)确立检验水准 =0.05 (3)计算统计量 在H0成立的前提下, 假设1=2=PC(合计率),计算理论频数T,两种药物治疗消化道溃疡4周后疗效 处 理 愈合 未愈合 合计 愈合率(%
42、) 洛赛克 64(E11) 21(E12) 85 75.29 雷尼替丁 51(E21) 33(E22) 84 60.71 合 计 115 54 169 68.05,合计愈合率=115/169,合计未愈合率=54/169,各个格子理论频数应为: E11=85* 115/169,E12=85* 54/169,E21=84 * 115/169,E22=84* 54/169 统计学家Pearson提出对RC列联表使用统计量 它服从自由度为f的2分布,其中f=(R-1)*(C-1)。 (4)确定P值。20.05,1=3.84,得P 0.05。 (5)做出推断结论 按=0.05水准,拒绝H0,接受H1,差
43、异有统计学意义。可以认为洛赛克的 愈合率高于雷尼替丁。,配对四格表的独立性检验、四格表的确切概率法不做要求。 RC列联表(四格表)中的独立性检验(略) 参照单位法 Ridit分析 注意:等级资料应采用Ridit分析,不能采用2检验。 用置信区间作显著性检验不作要求。,第5讲 相关与回归 在某一现象(过程)中变量间的关系可能是确定性关系,也可能是非确定关系。 就两个变量而言,如果对于一个变量的可能取值,另一个变量都有完全确定的值 与之对应,则称这两个变量之间存在着函数关系。然而,像人的年龄与血压,身 高与体重之间,显然不是函数关系。因为对于年龄相同的一个人群其血压有高有 低乃是一个随机变量。我们
44、称这类非确定性关系为相关关系。 相关与回归分析的基本内容就是运用数学手段,在大量统计资料中找出这种相关 性,并作定量分析。 第1节 相关 散点图 简单直观研究两变量间相关关系的方法,是将试验或观察得到的n对(x,y)的样 本数据:(x1,y1)、(x2,y2)、(xn,yn),作为平面直角坐标系上点的 坐标,将它们在方格坐标纸上描出,得到散点图,直观地说明直线相关的性质。,相关系数 总体相关系数 如果变量X,Y的方差DX,DY存在且EX=x,EY=y,则定义 为总体相关系数,分子称为X和Y的协方差。具有以下性质: (1)-1 1 (2)如果X和Y存在着线性相关关系,则|=1 (3)如果X和Y独
45、立,则=0。 注:性质(3)不可逆,当=0时,应称X和Y是不线性相关的。,样本相关系数 设(x1,y1), (x2,y2), ,(xn,yn)是成对出现的变量X和Y的n对样本值,则定义 为X和Y的样本相关系数,简称相关系数,其中 r与性质相同,是的点估计。相关系数没有单位,取值范围为1r1。r 的符号表示相关方向,r0称为正相关,r0称为负相关。r的绝对值表示两个 变量间直线关系的密切程度,r的绝对值为1表示完全相关。相关系数的绝对值 接近1,表示两个变量间的直线关系愈密切。相关系数愈接近0,直线关系愈不 密切。r0称为零相关,是指非线性相关或无相关,并不一定表示两个变量间 不存在其他关系。,
46、相关系数的假设检验 判断x和y是否线性相关,需要检验r是否来自0的总体,称为相关系数的假设 检验。 总体相关系数0,表示总体中两变量x和y无直线相关关系。因是一 个客观存在的理论值,一般无法获得,在实际问题中,常用r推断变量x和y有无直 线相关关系。当r0时,因为存在抽样误差,不能认为0,所以,判断x和y是 否线性相关,需要检验r是否来自0的总体.,方法1:可直接用r作检验统计量,用自由度dfn2查相关系数r界值表,若 r临界值r,则P,可按检验水准拒绝H0,认为x与y之间有直线相关 关系,0。反之,若rr,则P,不能按检验水准拒绝H0,从而 认为x、y之间无直线相关关系。 方法2:在H0:0
47、假设下,可用t检验判断样本相关系数r是否来自0的总体 ,即t 服从自由度dfn2的t分布。 第2节 线性回归方程 一元线性模型 对普通变量X的值x1,x2,xn,设随机变量Y相应的观察值为y1,y2,yn且诸点 (x1,y1), (x2,y2), ,(xn,yn)排布成 一条直线或接近一条直线,则可假定Y与X 之间有如下关系:Y=a+bx+,其中, a,b为不依赖于X的位置参数, 为随 机误差且N(0, 2 )。,由正态分布的性质有YN(a+bx, 2 )。在X取某固定值x的前提下,Y的值并不 固定,而是形成一个分布,称为X等于x时的条件分布。显然,条件分布的均数y 为一确定值,并且随着X的取
48、值x不同而不同,所以我们可以把y看成是x的函数 y =a+bx,这个方程就称为Y关于X的回归方程,X叫回归变量,b为回归系数。 为方便起见,将y记为 ( 为y的预测值),于是 =a+bx。 线性回归方程 回归分析就是要确定变量a和b的大小,可采用最小二乘法。 设给定n个点(x1,y1), (x2,y2), ,(xn,yn),那么,对于平面上任意一条直线L :y = a + bx;用数量yi-(a+bxi)2来刻划散点到直线L的远近程度。显然,这个 量是a,b的二元函数,记为Q(a,b)= yi-(a+bxi)2 。问题归结为求Q(a,b)的极小 值。,根据多元微分学中的极值原理,有: 注:相关系数r与回归系数b的联系。 故回归系数b乘以X和Y变量的标准差之比结果为相关系数r。 即b*x/y=r 例1:在线性相关的条件下,自变量X的均方差(标准差)为2,因变量Y的均方差 (标准差)为5,而相关系数为0.8时,其回归系数为( ) A. 8 B.0.32 C.2 D.12.5 两者的取值范围不一样。,回归方程的显著性检验 前面只说明了寻找回归直线的方法,有该法可知任何一堆毫无相关的散点,都可 找到最“接近”的一条直线,显然有些直线毫无实用价值。因此,必须引入一个数 量性指标来描述两个变量线性关系的密