《第九章回归分析优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第九章回归分析优秀PPT.ppt(38页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第九章回来分析9.1回来分析概述回来分析是一种应用极为广泛的数量分析方法。它用于分析事物之间的统计关系,侧重考察变量之间的数量变更规律,并通过回来方程的形式描述和反映这种关系,帮助人们精确把握变量受其他一个或多个变量影响程度,进而为预料供应科学依据。9.1.1回来线和回来模型利用样本数据获得回来线通常可接受两类方法:第一,局部平均;其次,函数拟合。9.1.2回来分析的一般步骤1确定回来方程中的说明变量和被说明变量2确定回来模型3建立回来方程4对回来方程进行各种检验5利用回来方程进行预料9.2线性回来分析视察被说明变量和一个多个说明变量的散点图,当发觉与的线性回来模型。在线性回来分析中,依据模型
2、中说明变量的个数,可将线性回来模型分成一元线性回来模型和多元线性回来模型,相应的分析称为一元线性回来分析和多元线性回来分析。9.2.1一元线性回来模型一元线性回来模型是指只有一个说明变量的线性回来模型,用于揭示被说明变量与另一个说明变量之间的线性关系。现实社会经济现象中,某一事物(被说明变量)总会收到多方面因素(多个说明变量)的影响。一元线性回来分析是在不考虑其他影响因素或在是比较志向化的分析。一元线性回来数学模型是9.2.2多元线性回来模型多元线性回来模型是指有多个说明变量的线性回来模型,用于揭示被说明变量与其他多个说明变量之间的线性关系。多元线性回来的数学模型是9.2.3回来参数的一般最小
3、二乘估计 线性回来方程确定后的任务是利用已经收集到的样本数据,依据确定的统计拟合准则,对方程中的各个参数进行估计。一般最小二乘就是一种最为常见的统计拟合准则,在该准则下得到的回来参数的估计称为一般最小二乘估计。9.2.4回来方程的统计检验通过样本数据建立回来方程后一半不能马上用于对实际问题的分析和预料,通常要进行各种统计检验,主要包括回来方程的拟合优度检验、回来方程的显著性检验、回来系数的显著性检验、残差分析等。9.2.4.1回来方程的拟合优度检验对于一元线性回来方程一元线性回来方程的拟合优度检验接受统计量。该统计量称为判定系数或确定系数,数学定义为:对于多元线性回来方程多元线性回来方程的拟合
4、优度检验接受统计量。该统计量称为调整的判定系数或调整的确定系数,数学定义为9.2.4.2回来方程的显著性检验对于一元线性回来方程检验接受统计量,其数学定义为对于多元线性回来方程检验接受统计量,其数学定义为9.2.4.3回来系数的显著性检验回来系数的显著性检验的主要目的是探讨回来方程中的每个说明变量与被说明变量之间是否存在显著性的线性关系,也就是探讨说明变量能否有效地说明被说明变量的线性变更,它们能否保留在线性回来方程中。回来系数显著性检验是围绕回来系数(或偏回来系数)估计值得抽样分布绽开的,由此构造听从某种理论分布的检验统计量,并进行检验。对于一元线性回来方程一元线性回来方程的回来系数显著性检
5、验的零假设是,即回来系数与零无显著差异。它意味着,当回来系数为0时,无论取值如何变更都不会引起的线性变更,无法说明的线性变更,它们之间不存在线性关系。对于多元线性回来方程多元线性回来方程显著性检验的零假设是:,即第个偏回来系数与零无显著差异。它意味着当偏回来系数为=0时,无论取值如何变更都不会引起的线性变更,全部无法说明的线性变更,它们不存在线性关系。9.2.4.4残差分析所谓的残差是指由回来方程计算所得的预料值与实际样本值之间的差距,定义为1.残差均值为0的正态分布分析当前面的探讨中知道,当说明变量取某个特定的值时,对应的残差必定有正有负,但总体上应听从以0为均值的正态分布。可以通过绘制残差
6、图对该问题进行分析。残差图也是始终散点图。图中一般横坐标是说明变量(也可以是被说明变量的预料值),纵坐标为残差。2.残差的独立性分析残差独立性分析可以通过以下三种方式实现:一、绘制残差序列的序列图二、计算残差的自相关系数三、DurbinWatson检验3.异方差分析一、绘制残差图可以通过绘制残差图分析是否存在异方差。二、等级相关分析得到残差序列后首先对其取确定值,然后分别计算出残差和说明变量的秩,最终计算Spearman等级相关系数,并进行等级相关分析。9.2.5多元回来分析中的其他问题在多元回来分析中,由于说明变量会受众多因素的共同影响,须要由多个说明变量说明的,于是会出现诸如此类的问题:多
7、个变量是否都能够进入线性回来模型,说明变量应以怎样的策略和依次进行方程,方程中多个说明变量之间是否存在多重共线性等。9.2.5.1变量筛选问题在多元线性回来分析中,模型中应引入多少说明变量是须要重点探讨的。假如引入的变量较少,回来方程将无法很好地说明说明被说明变量的变更。但是也并非引入的变量越多越好,因为这些变量之间可能存在多重共线性。因此有必要实行一些策略对变量引入回来方程加以限制和筛选。多元回来分析中,变量的筛选一般有向前筛选、向后筛选、逐步筛选三种基本策略。向前筛选(Forward)处理向后筛选(Backward)处理逐步筛选(Stepwise)策略9.2.5.2变量的多重共线性问题所谓
8、多重共线性是指说明变量之间存在线性相关关系的现象。说明变量间高度的多重共线性会给回来方程带来很多影响。如偏回来系数估计困难,偏回来系数的估计方差随说明变量相关性的增大而增大,偏回来系数的置信区间增大,偏回来系数估计值的不稳定性增加,偏回来系数假设检验的结果不显著等。测度说明变量间多重共线性一般有以下方式:容忍度方差膨胀因子(VIF)特征根和方差比条件指数9.4曲线估计9.4.1曲线估计概述变量间相关关系的分析中,变量之间的关系并不总表现出线性关系,非线性关系也是极为常见的,可通过绘制散点图的方式粗略考察这种非线性关系。对于非线性关系通常无法干脆通过线性回来来分析,无法干脆建立线性模型,但可通过
9、变量变换化为线性关系,并可最终进行线性回来分析建立线性模型9.5二项Logistic回来二次曲线(Quadratic)复合曲线(Compound)增长曲线(Growth)对数曲线(Logarithmic)三次曲线(Cubic)S曲线指数曲线(Exponential)逆函数(Inverse)幂函数(Power)逻辑函数(Logistic)9.5.1二项Logistic回来概述9.5.1.1二项Logistic回来应用背景作为标准的统计分析工具,多元回来分析在诸多行业和领域的数据分析应用中发挥着极为重要的作用。尽管如此,在运用多元回来分析方法时仍不应忽视方法应用的前提假设条件。违反了某些关键假设,
10、得到的分析结论很可能是不合理和不行信的。9.5.1.2二项Logistic回来模型当被说明变量为0/1二值变量时,虽然无法干脆接受一般线性多元回来模型建模,但仍旧可以充分利用其模型建立的理论和思路,得到以下启示:第一,可以证明,当被说明变量为0/1二值变量时,假如仍接受简洁线性回来模型,即,则被说明变量的均值是说明变量为时=1的概率值。由此给出的启示是,可以利用一般的线性多元回来模型对被说明变量取值为1的概率P进行建模,此时模型被说明变量的取值范围是01之间,即其次,由于概率P的取值范围是01之间,而一般线性回来模型被说明变量取值于的要求给出的启示是,可以对概率P作合理转换处理,其取值范围与一
11、般线性回来吻合。第三,接受一般线性模型建立关于被说明变量取值为1时的概率的回来模型时,模型中说明变量与概率值之间的关系是线性的。但实际应用中,这个概率与说明变量之间往往是一种非线性关系。由此,对概率P的转换处理应接受非线性转化。9.5.1.3二项Logistic回来方程回来系数的含义由于Logistic回来模型的残差不再听从正态分布,而是二值离散型分布,于是接受极大似然估计法对模型的参数进行估计。在各种统计检验通过以后,须要对模型参数的含义赐予合理的说明。9.5.1.4二项Logistic回来方程的检验为进行Logistic回来方程的检验应须要首先了解回来方程参数估计的原则和方法。Logist
12、ic回来方程的参数求解接受极大似然估计法。极大似然估计是一种在总体分布密度函数和样本信息的基础上,求解模型中未知参数估计值的方法。它基于总体的分布密度函数构造一个包含未知参数的似然函数,并求解在似然函数值最大下的未知参数的估计值。1.回来方程的显著性检验2.回来系数的显著性检验3.回来方程的拟合优度检验(1)统计量(2)统计量(3)错判矩阵9.5.1.5二项Logistic回来分析中的虚拟变量通常回来分析中,作为说明变量的变量都是定距型变量,他们对被说明变量有线性说明作用。实际应用中,被说明变量的变更不仅受到定距型变量的影响,也会为非定距的品质变量的影响。品质型数据通常不能像定距变量那样干脆作
13、为说明变量进入回来方程。9.6案例分析一线性回来数据来自于国泰安数据服务中心的经济探讨数据库。:/gtarsc/p/sq/。数据名称为data9-1。全国各地区能源消耗量与产量,地区包括我国30个省,直辖市,自治区(西藏地区多数据)。9.6.1数据预处理9.6.2回来分析9.7案例分析二1、一企业排水的COD及BOD5的数据见data9-2。1画散点图;2推断COD与BOD5之间是否大致呈线性关系;3用最小二乘估计求回来方程;4计算COD与BOD5的确定系数;5对回来方程作残差图,并作分析;6计算当COD=99时,BOD5的值;7给出置信水平为95%的预料区间。2、在一项水分渗透试验中,得观测时间和水的重量的数据如下表。画出散点图;求曲线回来方程y=ab;对lny与ln之间的回来关系进行显著性检验=0.05完-谢谢!