《专题分组数据的统计分析.ppt》由会员分享,可在线阅读,更多相关《专题分组数据的统计分析.ppt(32页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计学原理专题统计学原理专题专题分组数据的统计分析 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life, there is hope。有生命必有希望。有生命必有希望统计学原理专题统计学原理专题分析方法选择的依据 需要哪种分析方法:描述或推论 拥有哪类样本:概率样本与非概率样本 测量尺度:定距/定比,定序,定类 何种比较:集中趋势,变异性,形状,比例,相关性 结果呈现方式:表,图,统计摘要 分组方式:单组或与已知值对比,两组,多组 分组独立性:独立样本,配对样本 正态性:因变量是否满足正态分布 方差齐性:各组因变量方差是否相同
2、自变量数量:多个自变量的独立影响,偏影响统计学原理专题统计学原理专题统计方法的选择(1)澳David de Vaus著,社会研究中的研究设计,中国人民大学出版社,2008年版,P105卡方检验边缘同质性检验(仅限于两组对比)对每一个预先基于测量的显著性检验推论统计图列联表集中趋势离散趋势分布形态摘要统计比例优比Phi系数克拉默V系数列联系数基于相关测量的卡方Lambda系数古德曼和古鲁斯卡tau系数尤拉Q系数基于相关系数描述统计定类定序离散/连续比较组间的显著差距统计学原理专题统计学原理专题统计方法的选择(2)澳David de Vaus著,社会研究中的研究设计,中国人民大学出版社,2008年
3、版,P105定类图列联表(两个变量类别均不多)摘要统计集中趋势,离散趋势分布形态比例肯德尔Tau系数斯皮尔曼rho系数Gamma系数类别可排序的相关测量lambda系数克拉默V系数类别不可排序的相关测量描述统计卡方检验肯德尔Tau系数斯皮尔曼rho系数Gamma系数任意组数科尔莫哥洛夫-斯米尔诺夫检验(两个独立样本,非参数)沃尔德-活尔福威茨游程检验(两个独立样本,非参数)曼-惠特尼U检验(两个独立样本,非参数两个样本中位数检验两组统计克拉斯卡尔-沃利斯检验(独立样本,三组以上,非参数)K样本中位数检验三组或以上推论统计不相关(独立)组别图列联表摘要统计比例关联性测量描述统计麦克尼马尔检验(仅
4、适用于二分变量)显著性检验威克逊配对组检验两组科克伦Q系数三组或者以上推论统计配对组别定序离散/连续比较组间的显著差距统计学原理专题统计学原理专题统 计 方 法 的 选 择 ( 3 ) 澳 D a v i d d e V a u s 著 , 社 会 研 究 中 的 研 究 设 计 ,中 国 人 民 大 学 出 版 社 , 2 0 0 8 年 版 , P 1 0 5定 类定 序图列 联 表摘 要 统 计描 述 统 计单 一 样 本 的 t检 验推 论 统 计1 个 组( 与 一 个 己 知 对 象 对 比 )偏 态 , 峰 态集 中 趋 势科 尔 莫 哥 洛 夫 -斯 米 尔 诺 夫矩 形 图
5、, 茎 叶 图检 验 正 态 性图列 联 表摘 要 统 计描 述 统 计独 立 样 本 t检 验( 小 样 本 )单 因 素 方 差 分 析 /F 检 验( 大 样 本 )推 论 统 计正 态 分 布 总 体图列 联 表摘 要 统 计描 述 统 计两 个 独 立 样 本 检 验曼 -惠 特 尼 U 检 验克 拉 斯 卡 尔 -沃 利 斯 检 验单 因 素 方 差 分 析( 对 称 但 不 必 须 是 正 态 )推 论 统 计非 正 态 总 体不 相 关 组 别配 对 组 别2 个 组3 个 或 以 上 组离 散 / 连 续比 较 组 间 的 显 著 差 距统计学原理专题统计学原理专题统计方法的
6、选择(4)澳David de Vaus著,社会研究中的研究设计,中国人民大学出版社,2008年版,P1051个组图列联表摘要统计比例描述统计麦克尼马尔检验(非正态总体)显著性检验(非正态总体)配对样本t检验(正态总体)推论统计配对组别不相关组别2个组描述统计多元相关/偏相关推论统计双因素方差分析2个或以上自变量偏态,峰态集中趋势科尔莫哥洛夫-斯米尔诺夫矩形图,茎叶图检验正态性图列联表摘要统计皮尔逊相关系数平方系数关联性测量(正态总体)描述统计单因素方差分析(正态总体)克拉斯卡尔-沃利斯检验(非正态总体)推论统计1个自变量3个或以上组离散/连续定类定序比较组间的显著差距统计学原理专题统计学原理专
7、题检验1:两个相关样本 1.符号检验 对于配对样本,检验两个组的对应样本之差,计算取+号和取-号的频数,进行符号检验。 可以进行双侧检验和单侧检验。统计学原理专题统计学原理专题2、Wilcoxon符号秩检验 符号秩检验与符号检验的原理相同,但增加了对差值大小的检验,因此判断能力更强 考察以下数据 24.3 25.8 25.4 24.8 25.2 25.1 25.0 25.5 能否认为其中位数是25? 建立原假设H0:数据中位数为25统计学原理专题统计学原理专题 计算下表编号数值的秩D的符号124.3-0.70.76225.80.80.87+325.40.40.44+424.8-0.20.22.
8、5525.20.20.22.5+625.10.10.11+725.000825.50.50.55+0MxDiiiDiD计算所有+号的秩和T+=19.5,所有-号的秩和T-=8.5查表得P-level=0.211,不能拒绝原假设,即无法否认中位数为25。统计学原理专题统计学原理专题 在N足够大时 对于两个相关样本的情况,可以计算二者之差,然后建立原假设,检验二者之差的中位数为0,在此基础上进行Wilcoxon符号秩检验。)24) 12)(1(,4) 1(nnnnnNT统计学原理专题统计学原理专题检验2:两个独立样本 1、Mann-Whitney-Wilcoxon检验 译作:曼-惠特尼-威尔克森检
9、验,有时简作“曼-惠特尼 U检验”。 检验目的在于判断两个独立样本是否为同分布。 对于两个独立样本X和Y,假定其样本量分别为m和n,将其进行混合,并进行排列,计算各自的秩和。统计学原理专题统计学原理专题 在一次实验中,获得实验组和对照组结果如下 实验组(X):8,12,18 对照组(Y):6,9,11,13 建立原假设H0:两个独立样本同分布,进行混合排序 计算X和Y的秩和均为14。 构造统计量 在mn10的条件下,可以查表获得其显著性。 M和n均大于10时数据68911121318秩1234567组别YXYYXYX2/ ) 1(mmTUX)12) 1(,2) 1(NmnNmNTX统计学原理专
10、题统计学原理专题2、Wald-Wolfowitz游程检验 H0:两个独立样本同分布,或者二者有相同的中位数。 将两组数据进行混合排列,观察所产生的序列的游程数U。 在原假设成立的情况下,两个样本高度混合,游程数较多。如果游程数偏少,则表明二者的中位数不同。 在m+n20时,U近似服从于正态分布。统计学原理专题统计学原理专题3、两样本的2检验 对于两个定类尺度的样本,假定划分为R个组,则各组的理论频数可以按下列公式计算 构造统计量 若两总体同分布,Q服从于r-1个自由度的卡方分布NfneNfnefffiiiiiii221121,QriiiiriiiieefeefQ1222211211统计学原理专
11、题统计学原理专题4、两样本的Kolmogorov-Smirnov检验 对于两个定序以上尺度的样本,计算 建立原假设H0:两个样本同分布 在假设下,D值应当很小。当D值超过指定的边界值时,拒绝原假设。 )()()(21xSxSMaxDxxpxSiji统计学原理专题统计学原理专题检验3:K个相关样本 1、Cochran Q检验 用于检验K个组的某些定类测量结果是否存在差异。 观察一个口味调查的例子:对18名受访者进行四种饮料(热牛奶,酸奶,果汁,可乐)的偏好调查,得到数据如下统计学原理专题统计学原理专题消费者消费者热牛奶热牛奶酸奶酸奶果汁果汁可乐可乐合计(合计(Y )110012200101300
12、112411002510102601001700011801001901102101110311001011200101131001214110021511002160100117100121800011合计(合计(X )887629统计学原理专题统计学原理专题 建立原假设H0:K个样本间无明显差异 构造统计量 在样本量N比较大时,Q服从于K-1个自由度的卡方分布。2122) 1(iikjjjyykxxkkQ统计学原理专题统计学原理专题2.Friedman检验 检验K个样本是否来自于同一个总体,与Cochran Q检验一样,Friedman检验也要求样本是配对样本,即在K个不同条件下的同一组样
13、本作出的反应。 Friedman检验主要针对定序数据。 构造Q服从于K-1个自由度的卡方分布) 1(3) 1(122knRknkQj统计学原理专题统计学原理专题学生组电视教学课堂讲授课堂讨论11322123323143215213613271238231921310213111321213213123141321512.52.5161231712318123合计( )2540.542.5jR数据:将54名学生分成18个组,每组3名学生,分别接受电视教学、课堂讲授和课堂讨论三种教学方法。学习后进行测试,根据分数计算三种方法的秩如下。计算Q=10.8,2个自由度的卡方值为5.99,拒绝原假设,即认
14、为三种教学方法存在差异性。统计学原理专题统计学原理专题检验4:K个独立样本 1、Kruskol-Wallis检验 译作“克拉夏尔-瓦里斯检验”,也可称为“克氏检验”,是对两个独立样本的Mann- Whitney-Wilcoxon检验的推广。 假设有K个总体,各自的连续累积分布函数分别为Fi(x)。 建立原假设)()()(:210 xFxFxFHk统计学原理专题统计学原理专题 将K个样本进行混合,其秩和为N(N+1)/2,平均每个值的秩为(N+1)/2 考察第J个样本,其实际秩和为Rj,理论秩和为nj(N+1)/2。 在原假设成立的情况下,实际秩和与理论秩和的差异应当很小。构造统计量H服从K-1
15、个自由度的卡方分布。) 1( 3) 1(1221) 1(1222NnRNNnnNRNNHjjjjj统计学原理专题统计学原理专题2.K个样本的2检验 建立原假设H0:K个样本同分布 将K个样本分布为r个组,每组计算期望频数和理论频数。 统计量Q服从于(k-1)(r-1)个自由度的卡方分布rikjijijijeefQ112)(统计学原理专题统计学原理专题检验5:两个样本的相关分析 1、等级相关 计算斯皮尔曼等级相关系数(Spearman coefficient of rank correlation)。 将两个样本按观察数据的顺序进行配对,分别计算每个数据的秩,将两组样本的秩分别记录为U和V。 如
16、果两个测度完全一致,则U与V的差异应当为0。 计算DUV的平方和,该值越大,表明相关性越差。16122nnDRi统计学原理专题统计学原理专题2、Kendall秩相关 对于n个配对样本,先将样本X的秩按自然顺序排列,然后将Y的秩与X的秩相对应,从而得到Y的一个秩排列顺序。 计算Y的秩序情况,得到“一致对”的数量U和“非一致对”的数量V。 利用上述三个公式之一,可以计算出秩相关系数T,取值在-1至+1之间。 K=U-V,T为希腊字母的大写,发音为Tao。1) 1(4nnU) 1(41nnV) 1(2nnK统计学原理专题统计学原理专题 Kendall秩相关中的“一致对”也称协同对(Concordan
17、t),意思为满足下列条件的数对: 协同对的数量减去不协同对的数量得到的K值在大样本条件下有0)(ijijYYXX) 1 , 0()52)(1(18NnnnK统计学原理专题统计学原理专题3.偏秩相关 偏秩相关是检验当存在第三组样本量时,前两组样本之间的相关系数独立于第三组样本的情况。 该相关系数的取值范围也在-1至+1之间,但其抽样分布至今未知,因此难以进行显著性检验。22,11YZXZYZXZXYZXY统计学原理专题统计学原理专题检验6:K个样本的相关分析 1 1、完全秩评定的、完全秩评定的KendallKendall协和系数协和系数 Kendall Coefficient of Concor
18、dance for Complete Rankings。 数据: 3名消费者对6个品牌的电冰箱质量评定的秩如下消费者品牌A品牌B品牌C品牌D品牌E品牌F116325421564233632541秩和(Rj)8141111118统计学原理专题统计学原理专题 各品牌秩和的期望值为k(n+1)/2,在各组呈正相关的情况下,秩和Rj的离散程度较大。特别是,当各组的秩评定严格相等的时候,秩和表现为如下序列:k,2k,3k,jk。 构造统计量 定义Kendall完全秩评定协和系数为 该系数取值为0-1,取值为0时,表示K组秩不相关2121njjnkRS) 1(1222nnkSW统计学原理专题统计学原理专题
19、2.Kendall不完全秩评定协和系数 假定有K个样本,每组含有n个观察值,但每组观察值评定的秩为m,mn,此为不完全秩评定。 考虑评定次数的影响,建立以下平衡关系 构造协和系数) 1() 1(mkmnnnjjnnnmkmRW1222) 1(2) 1(12统计学原理专题统计学原理专题3.Friedman检验和多重比较 Friedman检验:Friedmans Two-way analysis of variance by ranks。用于检验K组秩之间的联系。 例如: 针对同一种疾病的n种处理,建立如下原假设: 其中,j表示第j种处理的平均结果nH210:统计学原理专题统计学原理专题定义列秩和的离散平方和为构造统计量Q服从n-1个自由度的卡方分布212) 1(njjnkRS) 1(12nknSQ