《SPSS第十四讲偏相关性分析精讲.ppt》由会员分享,可在线阅读,更多相关《SPSS第十四讲偏相关性分析精讲.ppt(44页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计软件第十四讲 偏相关分析偏相关分析第十四讲 偏相关分析偏相关分析第一部分 Excel与SPSS方式对比第二部分 偏相关分析的概念第三部分 偏相关分析的SPSS过程第四部分 距离分析 相关分析的Excel方式例:一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,管理者希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。下表就是该银行所属的25家分行2002年的有关业务数据。散点图Spss结果比较
2、偏相关分析 在多变量的情况下,变量之间的相关关系是很复杂的。因此,多元相关分析除了要利用上一讲的简单相关系数外,还要计算偏相关系数。在对其他变量的影响进行控制的条件下,衡量多个变量中某两个变量之间的线性相关程度的指标称为偏相关系数。偏相关系数与简单相关系数区别 在计算简单相关系数时:只需要掌握两个变量的观测数据,并不考虑其他变量对这两个变量可能产生的影响。在计算偏相关系数时:需要掌握多个变量的数据,一方面考虑多个变量相互之间可能产生的影响,一方面又采用一定的方法控制其他变量,专门考察两个特定变量的净相关关系。变量1变量2关系关系变量1变量2关系关系变量3控制控制例:在现实经济生活中,由于收入和
3、价格常常都有不断提高的趋势,如果不考虑收入对需求的影响,仅仅利用需求和价格的时间序列数据去计算简单相关系数,就有可能得出价格越高需求越大的错误结论。价格价格需求量需求量收入水平收入水平上升上升未知未知上升还是上升还是下降呢?下降呢?关系?关系?偏相关分析的公式表达在偏相关中,根据固定变量数目的多少,可分为零阶偏相关、一阶偏相关、(p-1)阶偏相关。零阶偏相关就是简单相关。如果用下标 0 代表 Y,下标 1 代表 X1,下标 2 代表X2,则变量Y与变量X1之间的一阶偏相关系数为:r01.2是剔除 X2 的影响之后,Y 与 X1 之间的偏相关程度的度量。r01,r02,r12分别是Y,X1,X2
4、两两之间的相关系数。如果增加变量X3,则变量Y与X1的二阶偏相关系数为:依此类推变量Y与Xi的p-1阶偏相关系数为:第四部分 偏关分析的SPSS过程SPSS中相关分析可以通过Analyze菜单进行(Correlate),Correlate菜单如图所示。选择其中第二个子菜单进入到偏相关分析界面(Partial)第一步:录入数据,打开偏相关分析对话框。第二步:将对话框中左侧的变量列表框中选择两个变量,作为相关变量,移入Variables列表框中;选择一个控制变量移入Controlling for列表框中第三步:选择检验类型。变量窗口变量窗口显著性检验:显著性检验:双尾检验(默认)双尾检验(默认)单
5、尾检验(相关方单尾检验(相关方向明显时)向明显时)显示相关系数时,显显示相关系数时,显示实际的显著性概率示实际的显著性概率相关变量相关变量控制变量控制变量第四步:打开OPTION选项框。均值与标准差,即显示每均值与标准差,即显示每个变量的均值、标准差和个变量的均值、标准差和非缺失值的例数非缺失值的例数显示零阶相关矩阵,即显示零阶相关矩阵,即Pearson相关矩阵相关矩阵仅剔除当前分析的两个仅剔除当前分析的两个变量值是缺失值的个案变量值是缺失值的个案剔除带有缺失值的所有剔除带有缺失值的所有个案个案已知有某河流的一年月平均流量观测数据已知有某河流的一年月平均流量观测数据和该河流所在地区当年的月平均
6、雨量和月和该河流所在地区当年的月平均雨量和月平均温度观测数据,如表所示。试分析温平均温度观测数据,如表所示。试分析温度与河水流量之间的相关关系。度与河水流量之间的相关关系。相关分析的命令语句结果分析一、描述性统计量 表中给出了个变量的均值、标准差和变量的非缺失值例数。相关系数 在月平均雨量作为控制变量的条件下,月平均流量和月平均气温间的偏相关为0.365,概率p值为0.270,在显著性水平为0.05的条件下,月平均流量和月平均气温呈的正相关关系,说明月平均流量和月平均气温的有线性影响但影响有限。解释看上去得到了两个相反的结论,为什么呢?距离分析一、距离分析的概念 距离分析距离分析是对观测量之间
7、或变量之间相似或不相似程度的一种测度,是计算一对变量之间或一对观测量之间的广义的距离。这些相似性或距离测度可以用于其它分析过程,例如因子分析、聚类分析等。在距离分析过程中,主要利用变量间的相似性测度相似性测度(Similarities)和不相似性测不相似性测度度(Dissimilarities)度量两者之间的关系有多像有多像OR有多不像?有多不像?不相似性测度对定距型变量间距离描述的统计量,主要有:欧式距离(Euclidean distance)欧式距离的平方(Squared Euclidean distan-ce)契比雪夫距离(Chebychev)绝对值距离(Block)闵可夫斯基距离(Mi
8、nkowski)等。对定序型变量之间距离的描述,主要有:卡方不相似测度(Chi-Square measure)Phi方不相似测度(Phi-Square measure)对二值变量之间的距离描述,主要有:欧氏距离(Euclidean distance)平方欧氏距离(Squared Euclidean distance)Lane and Williams不相似性测度(Lane and Williams)等。相似性测度两变量之间可以定义相似性测度统计量,用来对两变量之间的相似性进行数量化描述。针对定距型变量,主要有:Peason相关系数夹角余弦距离等。对于二值变量的相似性测度主要包括:简单匹配系数(
9、Simple matching)Jaccard相似性指数(Jaccard)Hamann相似性测度(Hamann)等20余种。相似性或不相似性测度还可用与其它模块,例如:因子分析、聚类分析以及多维尺度分析的进一步分析,以助于分析复合数据集。Kulczynski 1:Kulczynski 型配对系数,分母为总数与配对型配对系数,分母为总数与配对数之差,分子为非配对数,分子与分母的权重相同;数之差,分子为非配对数,分子与分母的权重相同;Kulczynski 2:Kulczynski平均条件概率;平均条件概率;Sokal and Sneath 4:Sokal and Sneath 条件概率;条件概率;
10、Hamann:Hamann概率;概率;Lambda:Goodman-Kruskai相似测量的相似测量的值;值;Anderbergs D:以一个变量状态预测另一个变量状态;:以一个变量状态预测另一个变量状态;Yules Y:Yule综合系数,属于综合系数,属于22四格表的列联比例函数;四格表的列联比例函数;Yules Q:Goodman-Kruskal 值,属于值,属于22四格表的列联比例四格表的列联比例函数。函数。Ochiai:Ochiai二分余弦测量;二分余弦测量;Sokal and Sneath 5:Sokal and Sneath 型相似测量;型相似测量;Phi 4 point corr
11、elation:Pearson相关系数的平方值;相关系数的平方值;Dispersion:Dispersion相似测量。相似测量。二值变量的相似性测度选项二值变量的相似性测度选项Russell and Rao:以二分点乘积为配对系数;:以二分点乘积为配对系数;Simple matching:以配对数与总对数的比例为配对系数;:以配对数与总对数的比例为配对系数;Jaccard:相似比例,分子与分母中的配对数与非配对数给:相似比例,分子与分母中的配对数与非配对数给予相同的权重;予相同的权重;Dice:Dice配对系数,分子与分母中的配对数给予加倍的权配对系数,分子与分母中的配对数给予加倍的权重;重;
12、Rogers and Tanimoto:Rogers and Tanimoto配对系数,配对系数,分母为配对数,分子为非配对数,非配对数给予加倍的权重;分母为配对数,分子为非配对数,非配对数给予加倍的权重;Sokal and Sneath 1:Sokal and Sneath 型配对系数,型配对系数,分母为配对数,分子为非配对数,配对数给予加倍的权重;分母为配对数,分子为非配对数,配对数给予加倍的权重;Sokal and Sneath 2:Sokal and Sneath 型配对系数,型配对系数,分子与分母均为非配对数,但分子给予加倍的权重;分子与分母均为非配对数,但分子给予加倍的权重;Sok
13、al and Sneath 3:Sokal and Sneath 型配对系数,型配对系数,分母为配对数,分子为非配对数,分子与分母的权重相同;分母为配对数,分子为非配对数,分子与分母的权重相同;已知有我国六城市2004年各月的日照时数数据如表所示。请分析各城市日照数是否近似。执行执行【AnalyzeAnalyze】/【CorrelateCorrelate】/【DistancesDistances】命令命令,弹出弹出【DistancesDistances】对话框对话框 变量列表变量列表选择变量选择变量个案(观测量)标识个案(观测量)标识变量变量计算距离选项:计算距离选项:个案距离,计算个案个案距
14、离,计算个案间的距离;间的距离;变量距离,计算变量变量距离,计算变量之间的距离之间的距离度量方式等距间隔数据选项等距间隔数据选项计数数据选项计数数据选项二值数值选项二值数值选项转换转换选项转换转换选项转换测度选项转换测度选项结果解读取值越大说明近似程度取值越大说明近似程度越低,反之亦然越低,反之亦然例:测得30名13岁男童的身高、体重、肺活量的数据。对身高、体重和肺活量进行变量距离分析。编号编号身高身高体重体重肺活量肺活量1 1135.1135.13232157015702 2139.9139.930.430.4200020003 3163.6163.646.246.2275027504 41
15、46.5146.533.533.5250025005 5156.2156.237.137.1275027506 6156.4156.435.535.5200020007 7167.8167.841.541.5275027508 8149.7149.7313115001500编号编号身高身高体重体重肺活量肺活量9 91451453333250025001010148.5148.537.237.2225022501111165.5165.549.549.530003000121213513527.627.6125012501313153.3153.3414127502750141415215232
16、32175017501515160.5160.547.247.222502250161615315347.247.217501750距离分析命令语句PROXIMITIES 身高 体重 肺活量 /VIEW=VARIABLE /MEASURE=CORRELATION /STANDARDIZE=NONE.结果分析 距离分析的相似性矩阵,也就是距离分析的相似性矩阵,也就是Pearson相关系数相关系数矩阵。从表中可以看出,矩阵。从表中可以看出,3个变量之间,身高和体重的个变量之间,身高和体重的相关系数最大,为相关系数最大,为0.735,体现出两者之间具有更紧密,体现出两者之间具有更紧密的关系。比较而言
17、,身高和肺活量之间的的关系。比较而言,身高和肺活量之间的Pearson相关相关系数最小,两者之间的相似性测度也最小,体现出两系数最小,两者之间的相似性测度也最小,体现出两者之间关系更远一些。者之间关系更远一些。实例二 对飞机叶片的个案距离分析利用三种不同的仪器对飞机的10只叶片半径分别进行了测量,下表给出了测试结果。现对10只叶片进行距离分析。10只叶片的3次测量数据第一次测量38.3238.1638.1937.9438.2237.7337.5737.6338.0738.47第二次测量38.4438.0737.9838.1637.8837.9437.8837.8238.2538.13第三次测量
18、37.7638.2837.8537.8238.3237.5437.5137.8837.9838.63步骤将三次测量变量移入变量列表,选择“Bewteen cases”其余选择默认值。命令语句为:PROXIMITIES第一次 第二次 第三次/VIEW=CASE/MEASURE=EUCLID/STANDARDIZE=NONE.距离分析的相似性矩阵上表是个案距离分析的不相似矩阵。由于操作中利用默认选项选择距离统计量,所以这里的距离测度为Euclidean距离,是一种不相似距离测度,数值越大,表示两个个案的不相似性越大,两叶片差距也就越大。从表中可以看出,在给定的10只叶片中,第7只叶片和第10只叶片
19、的距离最大;第6、7叶片距离最小。表示这两只叶片半径测量数据最接近。第九次实验内容两变量的相关分析(Bivariate过程)某地区10名健康儿童头发和全血中的硒含量(1000ppm)如下,试作发硒与血硒的相关分析。编号发硒血硒编号发硒血硒123456789107466886991736696587313101311169714510第十次实验内容1.偏相关分析(Partial 过程)某地29名13岁男童身高(cm)、体重(kg)和肺活量(ml)的数据如下表,试对该资料作控制体重影响作用的身高与肺活量相关分析。编号身体重肺活量编号身高体重肺活量123456789101112131415135.1
20、139.9163.6146.5156.2156.4167.8149.7145.0148.5165.5135.0153.3152.0160.532.030.446.233.537.135.541.531.033.037.249.527.641.032.047.21750200027502500275020002750150025002250300012502750175022501617181920212223242526272829153.0147.6157.5155.1160.5143.0149.4160.8159.0158.2150.0144.5154.6156.547.240.543.3
21、44.737.531.533.940.438.537.536.034.739.532.0175020002250275020001750225027502500200017502250250017502.距离分析(Distances过程)某医师对10份标准血红蛋白样品作三次平行检测,结果如下,问检测结果是否一致?样品号12345678第一次第二次第三次12.3612.4012.1812.1412.2012.2212.3112.2812.3512.3212.2512.2112.1212.2212.1012.2812.3412.2512.2412.3112.2012.4112.3012.46感谢您的关注每个人都有一定的理想,这种理想决定着他每个人都有一定的理想,这种理想决定着他的努力和判断的方向。在这个意义上,我从的努力和判断的方向。在这个意义上,我从来不把安逸和快乐看作是生活目的本身来不把安逸和快乐看作是生活目的本身这种伦理基础这种伦理基础,我叫它猪栏式的理想。照亮,我叫它猪栏式的理想。照亮我的道路,并且不断地给我新的勇气去愉快我的道路,并且不断地给我新的勇气去愉快地正视生活的理想,是善、美和真。地正视生活的理想,是善、美和真。爱因斯坦爱因斯坦