《第三章-单变量描述统计分析讲-解优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第三章-单变量描述统计分析讲-解优秀PPT.ppt(53页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第八章第八章 相关分析和线性回来分析相关分析和线性回来分析28.1 概述n函数关系:两变量之间一一对应的关系,即当x取确定值,另一变量y会依据函数取唯一确定的值。例如:n统计关系:两变量之间的确存在的相互依存关系,但变量间的数量依存关系的具体关系值不是固定的。例如:身高和体重,子代身高与父代身高。n相关分析和回来分析是以不同的方式测度变量间统计关系的特别有效的工具。38.2 相关关系n相关关系的种类:线性相关和非线性相关(形态),正线性相关和负线性相关(方向),强线性相关和弱线性相关(程度)。n相关分析的两种有效方式:n一散点图:它将数据以点的形式画在直角平面上,通过视察散点图能够直观地发觉变
2、量间地统计关系以及它们的强弱程度和数据的可能走向。n二相关系数:以数值的方式精确的反映了两变量间线性关系的强弱程度。4散点图 Graphs Scatter/Dot简洁散点图简洁散点图矩阵散点图矩阵散点图重叠散点图重叠散点图三维散点图三维散点图简洁的点图简洁的点图n简洁散点图:表示一对变量间统计关系的散点图。n重叠散点图:表示多对变量间统计关系的散点图。n矩阵散点图:以矩阵的形式在多个坐标轴上分别显示多对变量间的统计关系。n三维散点图:以立体图的形式展示三对变量间的统计关系。56Y Y轴变量轴变量X X轴变量轴变量分组变量分组变量标记变量标记变量7将标签值写在样本点的旁边将标签值写在样本点的旁边
3、简洁散点图8作为标签的变量在该点的取值作为标签的变量在该点的取值矩阵散点图9留意:在矩阵散点图中,选择变量的先后依次确定了矩阵对角线上变量的排列依次。横轴、纵轴的代表变量见边框旁的标识。三维散点图10重叠散点图11n评价:各种散点图虽然能够简洁直观呈现变量之间的统计关系,但并不精确。1213相关系数n相关系数r的取值在11之间。nr0表示两变量存在正的相关关系;r0.8表示两变量之间具有较强的线性关系;/r/0.3表示两变量之间的线性相关关系较弱。nAnalyze Correlate Bivariate相关系数的种类nPearson简洁相关系数:用来度量两定距型变量间的线性关系,如收入与储蓄,
4、身高与体重等。n在X和Y的Pearson相关系数是无量纲的,故可以进行不同对变量之间的比较。nPearson相关系数度量的是统计关系而不是函数关系,更不是因果关系。nPearson相关系数用来度量两变量之间的线性关系的亲密程度,但它并不是度量非线性关系的有效工具。nPearson相关系数中的两变量具有对称性。14nSpearman等级相关系数:用来度量定序变量间的线性相关关系。该统计量的设计思想与Pearson简洁相关系数完全相同,只是利用数据的秩代替原始数据计算Pearson相关系数。例如:对商品的偏好与价格。n该方法属于非参数方法。nSpearman等级相关系数对数据的要求是两变量中有一个
5、或两个定序变量,或两个变量是定距的但母体分布不清晰或严峻偏离二元正态,等级相关比Pearson相关更适合描述两变量间的相关关系。15n秩:设有样本X1,X2,X3,Xn,把它们从小到大排列,若Xi在这个次序中占第Ri个位置,则称Xi的秩为Ri。n例如:某样本为 8,3,5,9,12,6,9 则它的秩依次为4,1,2,5.5,7,3,5.516nKendall s tau-b偏秩相关:用来度量定序变量间的线性相关关系,它利用变量秩,通过计算“一样对数目”和“非一样对数目”获得系数。n该方法属于非参数方法。n与交叉列联表中两定序变量类中的Kendall s tau-b统计量是一样的。n与Spear
6、man等级相关系数相比,当样本数量较少时用Kendall s tau-b较为合适。17相关分析n步骤:一,计算样本相关系数;二,对样原来自的总体是否存在显著的线性关系进行推断。n缘由:由于存在抽样的随机性和样本数量较少等缘由,通常样本的相关系数不能干脆用来说明样原来自的两总体是否具有显著的线性相关性,而须要通过假设检验的方式对样原来自的总体是否存在显著线性相关进行统计推断。n检验规则:pa,认为两总体零相关。1819选中时表示相关分析结果中,除显示统计检验的相伴概率值选中时表示相关分析结果中,除显示统计检验的相伴概率值p p以外,而且还以以外,而且还以(*)(*)表示:表示:*:a=0.05a
7、=0.05,且伴随概率,且伴随概率p p值值0.050.05,故在故在0.050.05下有显著性意义的相关系数;下有显著性意义的相关系数;*:a=0.01a=0.01,且伴随概率,且伴随概率p p值值0.010.01,故在故在0.010.01下有显著性意义的相关系数;下有显著性意义的相关系数;Pearson相关系数相关系数定距变量定距变量Kendalls偏秩相关系数偏秩相关系数定类变量定类变量 Spearman秩相关系数秩相关系数定序变量定序变量20显示每一个变量的均值与标准差显示每一个变量的均值与标准差每一对变量的叉集离差积与协方差每一对变量的叉集离差积与协方差解除带有缺失值的全部样品解除带
8、有缺失值的全部样品解除在分析变量上带有缺失值的样品解除在分析变量上带有缺失值的样品21叉积离差叉积离差协方差协方差留留意意:*比比*的的结结论论更更精精确确。例:n结论:两变量之间相关性显著,且属于高度相关。n注:须要特殊关注p值,只有在pa的状况下才会关注相关系数的大小。否则相关系数没有意义。22例:n考查某人对8种电视机品牌的喜好是否与价格有显著的负相关?23n结论:偏好和价格存在显著负相关,程度为中等。n注:Spearman和Pearson的结果有微小差别,建议依据数据特征选择恰当的统计量。n注:假设检验中“大于”,“小于”的问题应当建立单侧假设检验。“等于”建立双侧的假设检验。24n注
9、:与Spearman的相关系数略有差异,当都是一样的认为具有显著负相关,程度中等。25268.3 偏相关分析n偏相关分析的意义:在某些状况下,单纯利用相关系数来评价变量间的相关性明显是不精确的,而须要在剔除其他相关因素影响的条件下计算变量间的相关。n偏相关分析:也称净相关分析,它在限制其它变量的线性影响的条件下分析两变量间的线性相关。n当限制变量的个数为k时,偏相关系数称为k阶偏相关。当限制变量的个数为0时,偏相关系数称为零阶偏相关,也就是相关系数。nAnalyze Correlate Partial27参与分析的变量参与分析的变量选择一个或多个选择一个或多个限制变量限制变量表示输出零阶偏相关
10、系数表示输出零阶偏相关系数28零零阶阶偏偏相相关关系系数数偏偏相相关关系系数数注:偏相关分析对辨别变量间的虚假变量有极为重要的作用。注:偏相关分析对辨别变量间的虚假变量有极为重要的作用。29308.4 线性回来分析 Regressionn相关分析和回来分析都是对客观事物数量依存关系的分析,均有一元和多元、线性和非线性之分,在应用中相互结合与渗透。n相关分析与线性回来分析的差别主要是:n (1)相关分析主要是刻画变量间线性相关的亲密度;而回来分析则揭示一个变量如何与其他变量相联系,并通过回来方程的形式描述和反映这种关系,帮助人们精确把握变量受其它一个或多个变量影n 响的程度,进而为预料和限制供应
11、科学依据。31 (2)相关分析中,变量y与x处于同等地位;在回来分析中需确定哪个变量是须要被说明的,即被说明变量(记为y),哪个变量是用于说明其它变量的,即说明变量(记为x)。(3)相关分析中x与y全是随机变量,而在回来分析中认为y是随机变量,x可以是随机或非随机变量,但一般理论上处理时认为x是非随机变量。32回来分析的一般步骤n确定回来方程中的说明变量和被说明变量n确定回来模型:n 一元线性回来模型n 一元线性回来方程n建立回来方程n 一元线性阅历回来方程n对方程进行各种检验n利用回来方程进行预料33回来方程的各种统计检验n回来方程的拟合优度检验:n 是通过检验样本数据点聚集在回来线四周的密
12、集程度,从而评价回来方程对样本数据的代表程度。n 方法:确定系数或判定系数 ,调整的确定系数或判定系数 。系数越接近于1,说明回来方程的拟合优度越高;反之,越接近于0,说明拟合优度越低。在多元线性回来分析中,调整的确定系数更能精确的反映回来方程对样本数据的拟合程度。34n回来方程的显著性检验n 是要检验被说明变量与全部说明变量之间的线性关系是否显著,用线性模型来描述它们之间的关系是否恰当。n 方法:F检验n F统计量的观测值越大越好,或观测值对应的概率p值,pa,认为用线性模型是不恰当的。35n回来系数的显著性检验n 是探讨回来方程中每个说明变量与被说明变量之间是否存在显著的线性关系,也就是探
13、讨说明变量能否有效的说明被说明变量的线性变更,它们能否保留在线性回来方程中。n 方法:T检验n T统计量的观测值对应的概率p值,pa,认为y与x之间线性关系不显著,x不应当保留在回来方程中。36n残差分析n变量的多重共线性问题多元回来中特有的37多元回来分析中变量筛选策略n1.全回来法(Enter)n 全部自变量进入回来方程。优点:一般具有较高回来系数;缺点:对变量无明显影响的自变量也可能进入回来方程。n2.向前法(Forwards)n 该方法比较全部自变量与因变量的偏相关系数,然后选择最大的一个作回来系数显著性检验,确定其是否进入回来方程。每次选择一个变量进入回来方程,直到全部符合判别条件的
14、变量都进入模型为止。缺点:“只进不出”。n n 38n3.向后法(向后法(Backward)n 该方法首先计算包含全部变量的回来方程,然后该方法首先计算包含全部变量的回来方程,然后用偏用偏F检验逐个剔除对因变量无明显影响的自变量,检验逐个剔除对因变量无明显影响的自变量,直到每一个变量在偏直到每一个变量在偏F检验下都有显著性结果为止。检验下都有显著性结果为止。缺点:缺点:“只出不进只出不进”。n4.逐步筛选法(逐步筛选法(Stepwise)n 该方法是对该方法是对“向前法向前法”的改进,既有引入变量也有的改进,既有引入变量也有剔除变量,原来剔除的变量在后面又可能被引入到剔除变量,原来剔除的变量在
15、后面又可能被引入到回来方程中来。它是目前应用较为广泛的一种多元回来方程中来。它是目前应用较为广泛的一种多元回来方法。回来方法。39曲线配合过程曲线配合过程线性回归分析线性回归分析40被说明变量被说明变量一个或多个说明变量一个或多个说明变量多元中说明变量的筛选策略多元中说明变量的筛选策略选择一个变量作为条件变量选择一个变量作为条件变量在样本数据中选择满足确定条件在样本数据中选择满足确定条件的样本数据进行线性回来分析的样本数据进行线性回来分析41所选变量强行进入回来方程所选变量强行进入回来方程逐步筛选策略逐步筛选策略从回来方程中剔除所选变量从回来方程中剔除所选变量向后筛选策略向后筛选策略向前筛选策
16、略向前筛选策略作图时,指定以哪个作图时,指定以哪个变量作标记变量变量作标记变量加权最小二乘法加权最小二乘法 42Statistics参差分析对话框参差分析对话框输出与回来系输出与回来系数有关的统计数有关的统计量:回来系数量:回来系数其标准误差,其标准误差,标准化回来系标准化回来系数,回来系数数,回来系数的的(Bate)(Bate)检验检验t t值及双侧值及双侧P P值值等。等。输出拟和优度统计量:判定系输出拟和优度统计量:判定系数、校正判定系数、回来方程数、校正判定系数、回来方程的标准误差、回来方程显著性的标准误差、回来方程显著性F F检验方差分析表检验方差分析表多重共线性分析多重共线性分析4
17、3Plots留意:这里主要是利用图形进行参差分析,包括绘制残差图和其它散点图、残差的直方图和正态分布累计概率图。44Save关于预料值关于预料值关于残差关于残差关于区间估计关于区间估计关于强影响点关于强影响点Mean:Mean:当当x x取取x0 x0 时,预时,预料值料值E E(YoYo)的置信区)的置信区间,新变量间,新变量Imci_1Imci_1为下为下限,限,Umci_1Umci_1为上限为上限.Individual:Individual:当当x x取取x0 x0 时,预料值时,预料值YoYo的置信区的置信区间,新变量间,新变量Iici_1Iici_1为下为下限,限,Uici_1Uic
18、i_1为上限为上限.新变量为新变量为Zpr_1新变量为新变量为pre_1关于距离关于距离45Options多元回来中说明变量进多元回来中说明变量进入或剔除回来方程的标入或剔除回来方程的标准:运用准:运用F F显著性检验的显著性检验的相伴概率值:相伴概率值:=0.05=0.1=0.1,剔除。或,剔除。或运用运用F F值:大于值:大于3.843.84,引,引入;小于入;小于2.712.71,剔除。,剔除。表示是否进行中心表示是否进行中心化处理化处理解除带有缺失值的全部样品解除带有缺失值的全部样品解除在分析变量上带有缺失值的样品解除在分析变量上带有缺失值的样品某变量上缺失值以该变量的均值代替某变量上
19、缺失值以该变量的均值代替468.5 曲线估计n本质线性关系:是指变量形式上虽然呈现非本质线性关系,但可以通过变量变换化为线性关系,并最终可通过线性回来分析建立线性模型。n本质非线性关系:是指变量关系不仅形式上呈非线性关系,而且也无法通过变量变换化为线性关系,最终无法通过线性回来分析建立线性模型。n本节探讨的是本质线性关系。nSpss曲线估计还可以以时间为说明变量实现时间序列的简洁回来分析和趋势外推分析。47被说明变量被说明变量说明变量说明变量变量变量时间时间绘制实际值绘制实际值及回来线及回来线输出各个模型的方差分析表和输出各个模型的方差分析表和各回来系数显著性检验结果各回来系数显著性检验结果方程中包含常数项方程中包含常数项48预料值(理论值)预料值(理论值)残差(实际值理论值)残差(实际值理论值)预料值的区间估计预料值的区间估计仅追溯样本数据的预料值仅追溯样本数据的预料值包含样本个数的包含样本个数的预料期数预料期数确定一种超过时间确定一种超过时间序列的预料周期序列的预料周期4950515253