《列联分析 .ppt》由会员分享,可在线阅读,更多相关《列联分析 .ppt(20页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、列联分析列联分析 现在学习的是第1页,共20页第一节 列联分析现在学习的是第2页,共20页二维列联表(二维列联表(contingency table;交叉表:;交叉表:cross table):): 这些变量中每个都有两个或更多的可能取值,这些取值这些变量中每个都有两个或更多的可能取值,这些取值也称为水平;比如收入有三个水平,观点有两个水平。各个也称为水平;比如收入有三个水平,观点有两个水平。各个变量不同水平的交汇处是频数。变量不同水平的交汇处是频数。 更多维的列联表称为高维列联表。更多维的列联表称为高维列联表。现在学习的是第3页,共20页 列联表分析的一个重要内容是看变量之间是否独立,如本列
2、联表分析的一个重要内容是看变量之间是否独立,如本例中的收入和观点是否无关。例中的收入和观点是否无关。原假设和备选假设:原假设和备选假设: H0:(观点和收入)变量之间独立;:(观点和收入)变量之间独立;H1:变量之间相关。:变量之间相关。 所用的检验统计量一般为所用的检验统计量一般为Pearson卡方统计量(也有其卡方统计量(也有其他统计量,如似然比统计量,但他统计量,如似然比统计量,但Pearson卡方统计量最常用),卡方统计量最常用),它在原假设成立的前提下有(大样本时)近似的卡方分布。它在原假设成立的前提下有(大样本时)近似的卡方分布。现在学习的是第4页,共20页。列数行数度在列联分析中
3、,其自由。又称期望概率理论概率类的为第,概率类的实际频率为第其中,理论频数理论频数实际频数统计量:1)1)()(ip)(ipnp)nppn(ft)ftfr(pearsonii2k1ii2iik1ii2ii2现在学习的是第5页,共20页)pn(1)nppn(np)nppn()pn(1)npnpnn(np)nppn()pn(1) )pn(1)pn(1(np)nppn(np)nppn(np)nppn(np)nppn(p1pp1p2k1211121112111211121112112222121121ii2ii1212,此时:,时,当现在学习的是第6页,共20页) 1 ()n)p(1ppp(n)p(1
4、p)pp()p(1np)pp(n)p(1np)nppn()p(1npp)nppn()p(1)nppn()p(1npp)pnnp()p(1)nppn(221111112111121121121111121112111112111211现在学习的是第7页,共20页 既然这个既然这个 2 2统计量是近似的,那么有没有精确的统计量呢统计量是近似的,那么有没有精确的统计量呢?有。这个检验称为?有。这个检验称为FisherFisher精确检验;它不是精确检验;它不是 2 2分布,而是分布,而是超几何分布。超几何分布。 当数目很大时,超几何分布计算相当缓慢(比近似计算会当数目很大时,超几何分布计算相当缓慢(
5、比近似计算会差很多倍的时间);而且在计算机速度不快时,根本无法计算差很多倍的时间);而且在计算机速度不快时,根本无法计算。因此人们多用大样本近似的。因此人们多用大样本近似的 2 2统计量。统计量。现在学习的是第8页,共20页例:收入水平与对待该项政策的态度独立(无关)吗?例:收入水平与对待该项政策的态度独立(无关)吗?现在学习的是第9页,共20页例:收入水平与对待该项政策的态度相关吗?例:收入水平与对待该项政策的态度相关吗?31*12382)31*1238212(40*12382)40*1238225(52*12382)52*1238245(31*12341)31*1234119(40*123
6、41)40*1234115(52*1234152)*12341(7ft)ftfr(123/82)(41/123)(222222k1ii2ii理论频数理论频数实际频数。因此:应为均概率率,“支持”者的理论频均应为概率理论频率中“反对”者的关),则三种收入的人若收入与态度独立(无现在学习的是第10页,共20页 data=read.csv(table7.csv,head=TRUE);attach(data) data1=xtabs(numberopinion+income)#把三维表转化为二维把三维表转化为二维 sum=sum(data1) 理论频率理论频率=c(sum(numberopinion=
7、0)/sum,sum(numberopinion=1)/sum) 理论频数理论频数=cbind(sum(numberincome=1)*理论频率理论频率,sum(numberincome=2)*理论频率理论频率,sum(numberincome=3)*理论频理论频率率) #计算理论频数计算理论频数 实际理论之差实际理论之差=data1-理论频数理论频数 卡方统计量值卡方统计量值=sum(实际理论之差实际理论之差2/理论频数理论频数) 自由度自由度=(2-1)*(3-1) pvalue=1-pchisq(卡方统计量值卡方统计量值,自由度自由度);pvalue1 3.614199e-05现在学习的
8、是第11页,共20页列联检验的软件实现:列联检验的软件实现:SPSS:Analyze(分析分析)Descriptive Statistics(描述统计描述统计)Crosstabs(交叉表交叉表)。R: data=read.csv(table7.csv,head=TRUE);attach(data) data1=xtabs(numberopinion+income)#把三维表转化为二维把三维表转化为二维 chisq.test(data1)或或 fisher.test(data1) #fisher精确检验精确检验现在学习的是第12页,共20页第二节 检验2现在学习的是第13页,共20页分布。统计成
9、绩是否服从正态级学生的概率论与数理院,我们检验一下管理学否服从某一分布。下面是用来检验数据是统计量的另一个用途就理论频数理论频数实际频数统计量:07pearsonnp)nppn(ft)ftfr(pearson22k1ii2iik1ii2ii2现在学习的是第14页,共20页1、看看基本指标、看看基本指标 data=read.csv(概率论与数理统计课程成绩数据概率论与数理统计课程成绩数据.csv,head=TRUE) attach(data);length(课程成绩课程成绩);mean(课程成绩课程成绩);sd(课程成绩课程成绩);range(课程成绩课程成绩)1 147 1 80.57143
10、1 12.61278 1 39 1002、划分区间并计算实际频数、划分区间并计算实际频数 区间区间=quantile(课程成绩课程成绩,prob=seq(0,1,0.1)#把课程成绩分成把课程成绩分成等概率的等概率的10个区间个区间 (即频数为即频数为147*0.1)现在学习的是第15页,共20页 实际频数实际频数=table(cut(课程成绩课程成绩,区间区间,include.lowest=TRUE)#计算成绩落在各区间的频数(并列成绩的存在使各区间频计算成绩落在各区间的频数(并列成绩的存在使各区间频数并不严格相等),数并不严格相等), include.lowest=TRUE选项保证选项保证
11、39分的分的成绩不被漏掉成绩不被漏掉3、计算理论概率、计算理论概率 理论概率理论概率1=pnorm(区间区间,mean(课程成绩课程成绩),sd(课程成绩课程成绩) 理论概率理论概率1=理论概率理论概率1-1 理论概率理论概率=c(理论概率理论概率11,理论概率理论概率12:10-理论概率理论概率11:9) 理论频数理论频数=理论概率理论概率*length(课程成绩课程成绩)现在学习的是第16页,共20页4、计算卡方统计量、计算卡方统计量、p值值 卡方统计量卡方统计量=sum(实际频数实际频数-理论频数理论频数)2/理论频数理论频数) df=10-1 #自由度为自由度为10个区间数个区间数(即
12、卡方统计量中即卡方统计量中sum的项数的项数)-1 pvalue=1-pchisq(卡方统计量卡方统计量,df)卡方统计量卡方统计量;pvalue1 30.63441 0.0003419502现在学习的是第17页,共20页分布的拟合优度的卡方检验的计算机实现:分布的拟合优度的卡方检验的计算机实现:SPSS: Analyze(分析分析)Nonparametric Tests(非参数检验非参数检验)Chi-Square(卡方卡方)。(麻烦:理论频数需要一个一个地输入麻烦:理论频数需要一个一个地输入)现在学习的是第18页,共20页R:#读入数据、划分区间、计算实际频数读入数据、划分区间、计算实际频数
13、 data=read.csv(概率论与数理统计课程成绩数据概率论与数理统计课程成绩数据.csv,head=TRUE) attach(data);n=length(课程成绩课程成绩);mean=mean(课程成绩课程成绩);sd=sd(课程成绩课程成绩);range(课程成绩课程成绩) 区间区间=quantile(课程成绩课程成绩,prob=seq(0,1,0.1)#把课程成绩分成把课程成绩分成等概率的等概率的10个区间个区间 (即频数为即频数为147*0.1) 实际频数实际频数=table(cut(课程成绩课程成绩,区间区间,include.lowest=TRUE) #计算成绩落在各区间的频数
14、计算成绩落在各区间的频数(由于有并列成绩所以各区间频数并不由于有并列成绩所以各区间频数并不严格相等严格相等),include.lowest=TRUE选项保证选项保证39分的成绩不被漏分的成绩不被漏掉掉现在学习的是第19页,共20页#构造概率向量:为了使概率向量的区间数与实际频数相等并构造概率向量:为了使概率向量的区间数与实际频数相等并使概率和为使概率和为1(这是使用这是使用chisq.test命令的前提命令的前提),需要进行修正,需要进行修正 累积理论概率累积理论概率1=pnorm(区间区间,mean,sd) 累积理论概率修正累积理论概率修正1=c(累积理论概率累积理论概率11+累积理论概率累积理论概率12,累积理论概率累积理论概率13:10,1) 理论概率修正理论概率修正1=c(累积理论概率修正累积理论概率修正11,累积理论概率修正累积理论概率修正12:10-累积理论概率修正累积理论概率修正11:9) chisq.test(实际频数实际频数,p=理论概率修正理论概率修正1)现在学习的是第20页,共20页