《分类数据分析.pps》由会员分享,可在线阅读,更多相关《分类数据分析.pps(42页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Analysis of nominal data分类数据分析报 告 人:王光宇指导教师:刘金兰分类数据分析简介n 分类数据也称名义数据,是社会科学研究的组成部分,其数据信息仅代表数据类别。例如种族,1=白种人,2=黄种人,3=黑人。n 根据每个类别的数量,可以分析它们之间的关系。n 分类数据的分析要求研究者应首先决定如何分类。分类数据分析的应用范围n 政治学领域:研究政治立场是否影响政治派别。n 社会学和心理学领域:分析不同类别的人不同的心理特征。n 公共政策分析领域:研究不同政策在不同地区产生的效果。n 文化传播领域:研究人们对媒体的看法。n 分类数据分析是社会科学中最重要的课题之一。一方面
2、因为它的用途广泛,另一方面因为它解决的是基本问题 一些简单概念的解释n 分类:最理想的分类是这些类别相互区别并且没有遗漏。统计过程中都假设分类是有意义的。n 自变量和因变量:区别在于是否引起另外一个变量的变化。n 取样:从总体抽取的简单随机样本。n 符号:I、J 表示表格的行数和列数,X、Y、Z 表示变量。表1:党派和立场间的关系民主党 独立党 共和党革命的33%(193)30%(161)11%(46)400中立的41%(241)37%(199)33%(134)574保守的26%(153)34%(182)56%(229)564100%(587)100%(542)100%(409)1538X:党
3、派Y:立场表2:受党派和地区影响的立场民主党 独立党 共和党革命的 26.8%(62)26.8%(37)10.0%(10)109中立的 40.7%(94)33.3%(46)33.3%(33)173保守的 32.5%(75)39.9%(55)56.6%(56)186100%(231)100%(138)100%(99)468Z:地区=西部X:党派Y:立场民主党 独立党 共和党革命的 36.8%(131)30.7%(124)11.6%(36)291中立的 41.3%(147)37.9%(153)32.6%(101)401保守的 21.9%(78)31.4%(127)55.8%(173)378100%
4、(356)100%(404)100%(310)1070Z:地区=非西部X:党派Y:立场表3:标准IJ 表格X:自变量Y:因变量1 2 j J Totals1 n11n12 n1j n1Jn1+2 n21n22 n2j n2Jn2+i ni1ni2 nij niJni+I nI1nI2 nIj nIJnI+Totals n+1n+2 n+j n+Jn相关程度的测量n 相关程度的测量方法是用一个系数来表示变量间的相关程度。选择何种方法要考虑三个方面:n 测量方法是否对称:是否可以确定自变量和因变量。n 系数如何解释:取决于不同的测量方法制定的标准。n 测量方法的敏感度:尽量使用敏感度较低的方法。表
5、5:完全相关的三种类型X50 0 00 0 500 50 050 50 50 Y TotalsX50 0 050 0 050 50 50150 50 50 Y TotalsX0 50 0 50Y 50 0 0 00 0 50 0Totals 50 50 50 50a 严格完全相关b 隐含完全相关c 弱完全相关干扰因素和解决办法n 边际分布不均匀(如表6):调整数据 将表格标准化 选择对边际总数不敏感的测量方法n 行列不相等:选择可以达到最大值的测量方法。表6:不同边际分布,相同相关程度X Totals60%(60)20%(200)10%(10)270Y 30%(30)60%(600)30%(3
6、0)66010%(10)20%(200)60%(60)270Totals 100%(100)100%(1000)100%(100)1200X Totals60%(180)20%(120)10%(30)330Y 30%(90)60%(360)30%(90)54010%(30)20%(120)60%(180)330Totals 100%(300)100%(600)100%(300)1200(a)(b)22 表格的测量方法1、百分比法2、差额比率法3、Yules Q4、Yules Y5、6、相关系数百分比法n 如果因变量在自变量的一个分类中的百分比发生了变化,那么这两个变量就是相关的;如果不发生变化
7、,就是独立的。n 百分比法的性质:对因变量的边际总数不敏感。需要较大的样本容量。百分比法X0.9(45)0.4(20)Y 0.1(5)0.6(30)1.0(50)1.0(50)0.90.4=0.5差额比率法X:党派民主党 共和党革命的193 46 239保守的153 229 382346 275 621Y:立场差额比率法的性质a b100 50 25 10025 200 200 50125 250 225 150差额比率法的性质a bX X75 15 750 15Y 10 100 Y 100 10085 115 850 115差额比率的性质a bX X200 0 200 0Y 0 200 Y
8、200 200200 200 400 200差额比率的性质n 差额比率的取值范围是从0 到,等于1.0 说明独立,小于1.0 表示消极相关,大于1.0 表示积极相关n 差额比率对边际总数不敏感。n 差额比率是对称的n 差额比率在弱完全相关时就达到了最大值。差额比率的方差 当样本容量大于25时,我们可以计算出差额比率的方差。我们可以计算置信区间Yules QYules Q 是差额比率的一个函数,定义如下:它的方差可以由以下公式计算:Yules Q 的性质n 因为Q 是差额比率的一个函数,因此基本具有和差额比率相同的性质。n Q 的取值范围是从-1.0 到1.0,0说明独立。n Q 在弱完全相关就
9、取到最大值。n Q 是对称的。Yules Y Yules Y 也是差额比率的一个简单函数,定义如下:它的方差可以由以下公式计算:基于 的测量方法定义:性质:取值范围是从0到1.0。0说明独立,只有严格完全相 关时才达到最大值。对边际总数敏感。它是对称的。相关系数相关系数 的性质取值范围是从-1.0 到1.0。0说明独立,在严格 完全相关时取得最大值。平方表示因变量受自变量影响的百分比对边际总数敏感行列交换不改变结果的大小,只改变符号。IJ 表格的测量方法IJ 表格的测量方法大致可以分成三类:n 基于差额比率的方法n 基于 的方法n 错误减少比例方法(PRE)IJ 表格中的差额比率法 IJ 表格
10、包含着t=(I-1)(J-1)个22 表格,对于每一个22 表格都可以计算出 和。差额比率的基本形式是:i=1,2,I-1;j=1,2,J-1是估计值公式,与22 表格中有着相同的解释。基于 的测量方法几种 函数的模型 错误减少比例方法(PRE)n 对于样本个体,我们可以在两种情况下预测:第一种情况,不知道样本在X 中的类别;第二种情况,知道样本在X 中的类别。n PRE 就是比较两种情况下预测错误的比例。PRE 的性质n 取值范围是从0到1.0。0说明独立,1.0说明完全相关。n PRE 是不对称的,即需要区分自变量和因变量。n 在样本高度不均匀时,会出现不独立但是结果为0的情况。Goodm
11、an and Kruskals LambdaXc d TotalsY a 0.3 0.1 0.4b 0.2 0.4 0.6Totals 0.5 0.5 1.0Lambda 方法是PRE 方法的一种,原理是分别计算在两种情况下预测错误的比例,然后进行比较。第一种情况下的错误比例:第二种情况下的错误比例:Goodman and Kruskals Lambda根据PRE 的原理,我们定义:Lambda 的方差其中 的含义是恰好在 这行上的每列最大值之和。根据方差我们可以计算出置信区间:Lambda 的对称形式n 最常见的方法就是将个体随机地对半分给X 和Y。n 第一种情况下,预测Y 的正确率是,预测
12、X 的正确率是,错误率是n 第二种情况下,预测Y 的正确率是,预测X 的正确率是,错误率是 Lambda 的对称形式那么错误降低比例就是:经过整理后:Goodman 和Kruskals TauTau 是另外一种PRE 方法,同样是在两种情况下进行预测。不同的是Tau 中猜测的样本要保持原始数据的分布。公式:表1:党派和立场间的关系民主党 独立党 共和党革命的33%(193)30%(161)11%(46)400中立的41%(241)37%(199)33%(134)574保守的26%(153)34%(182)56%(229)564100%(587)100%(542)100%(409)1538X:党
13、派Y:立场Tau 方法的算例n 第一种情况:1538 人中,一共有574+564=1138 人不是革命派,比例是1138/1538=0.74。因此在400 人中,大约有4000.74=295.97 人是预测错误的。同理,我们可以算出大概有359.78 人在预测中立派时预测错误,357.18 人在预测保守派时预测错误。于是总共的错误数是:295.97+359.73+357.18=1012.93n 第二种情况:对于民主党人士,民主党人士非革命派有241+153=394 人,394/587=0.67,因此应该有193*0.67=129.54 人预测错误。同理计算出中立派和保守派的错误数量分别是142
14、.05 和113.12。于是对于民主党人士预测错误的数量是129.54+142.05+113.12=384.71n 相同的方法计算独立党和共和党n 最后得出第二种情况的总共的错误数量是:384.71+360.00+231.71=976.42 于是根据PRE 的原理我们定义:各种测量方法的总结n 尽管变量间相关程度的测量方法有很多种,但是仍然难以避免各种各样的干扰因素。n 比如表1,表1样本的分布一方面取决于总体真实的分布,但是我们还要考虑到其它因素。n 总的说来,对于变量分类越多,测量结果的值就越大。各种测量方法的总结两条结论:n 因为每种方法都有它的优点和缺点,在我们测量变量间的相关程度时,应该用多种方法测量,综合结果得出结论。n 单独用测量结果解释问题略显不足,应该结合专家的经验和其它相关知识综合评价。谢谢!