spss16-07(回归分析).ppt-淘文阁

资源描述

《spss16-07(回归分析).ppt》由会员分享，可在线阅读，更多相关《spss16-07(回归分析).ppt（187页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、SPSS 16实用教程第第7章章回归分析回归分析回归分析基本概念回归分析基本概念7.1一元线性回归分析一元线性回归分析7.2多元线性回归分析多元线性回归分析7.3非线性回归分析非线性回归分析7.4曲曲线线估估计计7.5时间序列的曲线估计时间序列的曲线估计7.6含虚拟自变量的回归分析含虚拟自变量的回归分析7.7含虚拟自变量的回归分析含虚拟自变量的回归分析7.8 在数量分析中，经常会看到变量与变量之在数量分析中，经常会看到变量与变量之间存在着一定的联系。要了解变量之间如何发间存在着一定的联系。要了解变量之间如何发生相互影响的，就需要利用相关分析和回归分生相互影响的，就需要利用相关分析和回归

2、分析。在上一章讲述了相关分析有关内容。本章析。在上一章讲述了相关分析有关内容。本章介绍回归分析基本概念，回归分析的主要类型：介绍回归分析基本概念，回归分析的主要类型：一元线性回归分析、多元线性回归分析、非线一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。含虚拟自变量的回归分析以及逻辑回归分析等。7.1 7.1 回归分析基本概念回归分析基本概念相关分析和回归分析都是研究变量间关系相关分析和回归分析都是研究变量间关系的统计学课题。在应用中，两种分析方法经常的统计学课题。在应用中，

3、两种分析方法经常相互结合和渗透，但它们研究的侧重点和应用相互结合和渗透，但它们研究的侧重点和应用面不同。面不同。在回归分析中，变量在回归分析中，变量y y称为因变量，处称为因变量，处于被解释的特殊地位；而在相关分析中，变量于被解释的特殊地位；而在相关分析中，变量y y与变量与变量x x处于平等的地位，研究变量处于平等的地位，研究变量y y与变量与变量x x的密切程度和研究变量的密切程度和研究变量x x与变量与变量y y的密切程度是的密切程度是一样的。一样的。在回归分析中，因变量在回归分析中，因变量y y是随机变量，是随机变量，自变量自变量x x可以是随机变量，也可以是非随机的可以是随机变量，也

4、可以是非随机的确定变量；而在相关分析中，变量确定变量；而在相关分析中，变量x x和变量和变量y y都都是随机变量。是随机变量。相关分析是测定变量之间的关系密切相关分析是测定变量之间的关系密切程度，所使用的工具是相关系数；而回归分析程度，所使用的工具是相关系数；而回归分析则是侧重于考察变量之间的数量变化规律，并则是侧重于考察变量之间的数量变化规律，并通过一定的数学表达式来描述变量之间的关系，通过一定的数学表达式来描述变量之间的关系，进而确定一个或者几个变量的变化对另一个特进而确定一个或者几个变量的变化对另一个特定变量的影响程度。定变量的影响程度。具体地说，回归分析主要解决以下几方面具体地说，回归

5、分析主要解决以下几方面的问题。的问题。通过分析大量的样本数据，确定变量通过分析大量的样本数据，确定变量之间的数学关系式。之间的数学关系式。对所确定的数学关系式的可信程度进对所确定的数学关系式的可信程度进行各种统计检验，并区分出对某一特定变量影行各种统计检验，并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。响较为显著的变量和影响不显著的变量。利用所确定的数学关系式，根据一个利用所确定的数学关系式，根据一个或几个变量的值来预测或控制另一个特定变量或几个变量的值来预测或控制另一个特定变量的取值，并给出这种预测或控制的精确度。的取值，并给出这种预测或控制的精确度。作为处理变量之间关系的一种

6、统计方法和作为处理变量之间关系的一种统计方法和技术，回归分析的基本思想和方法以及技术，回归分析的基本思想和方法以及“回归回归（RegressionRegression）”名称的由来都要归功于英国名称的由来都要归功于英国统计学家统计学家F FGaltonGalton（1822182219111911）。）。在实际中，根据变量的个数、变量的类型在实际中，根据变量的个数、变量的类型以及变量之间的相关关系，回归分析通常分为以及变量之间的相关关系，回归分析通常分为一元线性回归分析、多元线性回归分析、非线一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、性回归分析、曲线估计

7、、时间序列的曲线估计、含虚拟自变量的回归分析和逻辑回归分析等类含虚拟自变量的回归分析和逻辑回归分析等类型。型。7.2 7.2 一元线性回归分析一元线性回归分析7.2.1 统计学上的定义和计算公式统计学上的定义和计算公式定义：一元线性回归分析是在排除其他影定义：一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下，分响因素或假定其他影响因素确定的条件下，分析某一个因素（自变量）是如何影响另一事物析某一个因素（自变量）是如何影响另一事物（因变量）的过程，所进行的分析是比较理想（因变量）的过程，所进行的分析是比较理想化的。其实，在现实社会生活中，任何一个事化的。其实，在现实社会生活中

8、，任何一个事物（因变量）总是受到其他多种事物（多个自物（因变量）总是受到其他多种事物（多个自变量）的影响。变量）的影响。在实际问题中，由于所要研究的现象的总在实际问题中，由于所要研究的现象的总体单位数一般是很多的，在许多场合甚至是无体单位数一般是很多的，在许多场合甚至是无限的，因此无法掌握因变量限的，因此无法掌握因变量y y总体的全部取值。总体的全部取值。也就是说，总体回归方程事实上是未知的，需也就是说，总体回归方程事实上是未知的，需要利用样本的信息对其进行估计。显然，样本要利用样本的信息对其进行估计。显然，样本回归方程的函数形式应与总体回归方程的函数回归方程的函数形式应与总体回归方程的函数形

9、式一致。形式一致。通过样本数据建立一个回归方程后，不能通过样本数据建立一个回归方程后，不能立即就用于对某个实际问题的预测。因为，应立即就用于对某个实际问题的预测。因为，应用最小二乘法求得的样本回归直线作为对总体用最小二乘法求得的样本回归直线作为对总体回归直线的近似，这种近似是否合理，必须对回归直线的近似，这种近似是否合理，必须对其作各种统计检验。一般经常作以下的统计检其作各种统计检验。一般经常作以下的统计检验。验。（1 1）拟合优度检验）拟合优度检验回归方程的拟合优度检验就是要检验样本回归方程的拟合优度检验就是要检验样本数据聚集在样本回归直线周围的密集程度，从数据聚集在样本回归直线周围的密集

10、程度，从而判断回归方程对样本数据的代表程度。而判断回归方程对样本数据的代表程度。回归方程的拟合优度检验一般用判定系数回归方程的拟合优度检验一般用判定系数R2R2实现。该指标是建立在对总离差平方和进行实现。该指标是建立在对总离差平方和进行分解的基础之上。分解的基础之上。（2 2）回归方程的显著性检验（）回归方程的显著性检验（F F检验）检验）回归方程的显著性检验是对因变量与所有回归方程的显著性检验是对因变量与所有自变量之间的线性关系是否显著的一种假设检自变量之间的线性关系是否显著的一种假设检验。验。回归方程的显著性检验一般采用回归方程的显著性检验一般采用F F检验，利用检验，利用方差分析的方法进

11、行。方差分析的方法进行。（3 3）回归系数的显著性检验（）回归系数的显著性检验（t t检验）检验）所谓回归系数的显著性检验，就是根据样所谓回归系数的显著性检验，就是根据样本估计的结果对总体回归系数的有关假设进行本估计的结果对总体回归系数的有关假设进行检验。检验。之所以对回归系数进行显著性检验，是因之所以对回归系数进行显著性检验，是因为回归方程的显著性检验只能检验所有回归系为回归方程的显著性检验只能检验所有回归系数是否同时与零有显著性差异，它不能保证回数是否同时与零有显著性差异，它不能保证回归方程中不包含不能较好解释说明因变量变化归方程中不包含不能较好解释说明因变量变化的自变量。因此，可以通过回

12、归系数显著性检的自变量。因此，可以通过回归系数显著性检验对每个回归系数进行考察。验对每个回归系数进行考察。回归参数显著性检验的基本步骤。回归参数显著性检验的基本步骤。提出假设提出假设计算回归系数的计算回归系数的t t统计量值统计量值根据给定的显著水平根据给定的显著水平确定临界值，确定临界值，或者计算或者计算t t值所对应的值所对应的p p值值作出判断作出判断研究问题研究问题合成纤维的强度与其拉伸倍数有关，测得合成纤维的强度与其拉伸倍数有关，测得试验数据如表试验数据如表7-17-1所示。求合成纤维的强度与所示。求合成纤维的强度与拉伸倍数之间是否存在显著的线性相关关系。拉伸倍数之间是否存

13、在显著的线性相关关系。7.2.2 SPSS中实现过程中实现过程表表表表7-17-1强强强强度与拉伸倍数的度与拉伸倍数的度与拉伸倍数的度与拉伸倍数的试验试验试验试验数据数据数据数据序序号号拉拉伸伸倍倍数数强度（强度（kg/mm2）12.01.622.52.432.72.543.52.754.03.564.54.275.25.086.36.497.16.5108.07.3119.08.01210.08.1 实现步骤实现步骤图图图图7-1 7-1 在菜在菜在菜在菜单单单单中中中中选择选择选择选择“Linear”Linear”命令命令命令命令图图图图7-2 “Linear Regression

14、”7-2 “Linear Regression”对话对话对话对话框（一）框（一）框（一）框（一）图图图图7-3 “Linear Regression7-3 “Linear Regression：Statistics”Statistics”对话对话对话对话框框框框图图图图7-4 “Linear Regression7-4 “Linear Regression：Plots”Plots”对话对话对话对话框框框框图图图图7-5 “Linear Regression7-5 “Linear Regression：Save”Save”对话对话对话对话框框框框图图图图7-6 “Linear Regres

15、sion7-6 “Linear Regression：Options”Options”对话对话对话对话框框框框（1 1）输出结果文件中的第一个表格如下）输出结果文件中的第一个表格如下表所示。表所示。7.2.3 结果和讨论结果和讨论（2 2）输出的结果文件中第二个表格如下）输出的结果文件中第二个表格如下表所示。表所示。（3 3）输出的结果文件中第三个表格如下）输出的结果文件中第三个表格如下表所示。表所示。（4 4）输出的结果文件中第四个表格如下）输出的结果文件中第四个表格如下表所示。表所示。7.3 7.3 多元线性回归分析多元线性回归分析7.3.1 统计学上的定义和计算公式统计学上的定义和计

16、算公式定义：在上一节中讨论的回归问题只涉及定义：在上一节中讨论的回归问题只涉及了一个自变量，但在实际问题中，影响因变量了一个自变量，但在实际问题中，影响因变量的因素往往有多个。例如，商品的需求除了受的因素往往有多个。例如，商品的需求除了受自身价格的影响外，还要受到消费者收入、其自身价格的影响外，还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响；影他商品的价格、消费者偏好等因素的影响；影响水果产量的外界因素有平均气温、平均日照响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。时数、平均湿度等。因此，在许多场合，仅仅考虑单个变量是因此，在许多场合，仅仅考虑单个变量是不够的，还需

17、要就一个因变量与多个自变量的不够的，还需要就一个因变量与多个自变量的联系来进行考察，才能获得比较满意的结果。联系来进行考察，才能获得比较满意的结果。这就产生了测定多因素之间相关关系的问题。这就产生了测定多因素之间相关关系的问题。研究在线性相关条件下，两个或两个以上研究在线性相关条件下，两个或两个以上自变量对一个因变量的数量变化关系，称为多自变量对一个因变量的数量变化关系，称为多元线性回归分析，表现这一数量关系的数学公元线性回归分析，表现这一数量关系的数学公式，称为多元线性回归模型。多元线性回归模式，称为多元线性回归模型。多元线性回归模型是一元线性回归模型的扩展，其基本原理与型是一元线性回归模型

18、的扩展，其基本原理与一元线性回归模型类似，只是在计算上更为复一元线性回归模型类似，只是在计算上更为复杂，一般需借助计算机来完成。杂，一般需借助计算机来完成。对多元线性回归，也需要测定方程的拟合对多元线性回归，也需要测定方程的拟合程度、检验回归方程和回归系数的显著性。程度、检验回归方程和回归系数的显著性。（1 1）拟合优度检验）拟合优度检验测定多元线性回归的拟合程度，与一元线测定多元线性回归的拟合程度，与一元线性回归中的判定系数类似，使用多重判定系数，性回归中的判定系数类似，使用多重判定系数，其定义为其定义为（2 2）回归方程的显著性检验（）回归方程的显著性检验（F F检验）检验）多元线性回

19、归方程的显著性检验一般采用多元线性回归方程的显著性检验一般采用F F检验，利用方差分析的方法进行。检验，利用方差分析的方法进行。（3 3）回归系数的显著性检验（）回归系数的显著性检验（t t检验）检验）回归系数的显著性检验是检验各自变量回归系数的显著性检验是检验各自变量x x1 1，x x2 2，对因变量，对因变量y y的影响是否显著，从而的影响是否显著，从而找出哪些自变量对找出哪些自变量对y y的影响是重要的，哪些是的影响是重要的，哪些是不重要的。不重要的。与一元线性回归一样，要检验解释变量对与一元线性回归一样，要检验解释变量对因变量因变量y y的线性作用是否显著，要使用的线性作用是否显著，

20、要使用t t检验。检验。研究问题研究问题用多元回归分析来分析用多元回归分析来分析3636个员工多个心理个员工多个心理变量值（变量值（z1z1z8z8）对员工满意度）对员工满意度mymy的预测效果，的预测效果，测得试验数据如表测得试验数据如表7-27-2所示。所示。7.3.2 SPSS中实现过程中实现过程表表表表7-27-2员员员员工多个心理工多个心理工多个心理工多个心理变变变变量量量量值值值值和和和和员员员员工工工工满满满满意度数据意度数据意度数据意度数据z1z2z3z4z5z6z7Z8满满意意度度66.0064.0062.0050.0058.0056.001.081.0025.0055

21、.0050.0059.0059.0053.0051.001.001.1122.0050.0047.0049.0045.0046.0046.001.311.2020.0055.0059.0050.0054.0052.0069.001.001.0020.0055.0059.0048.0056.0047.0050.001.001.0024.0062.0054.0068.0046.0046.0051.001.081.0023.0060.0060.0056.0053.0052.0051.001.081.0021.0052.0052.0069.0058.0057.0062.001.001.0023.005

22、6.0055.0057.0039.0044.0046.001.691.0015.0050.0050.0068.0046.0045.0056.001.081.1425.0058.0054.0060.0059.0052.0051.001.001.0025.0053.0052.0055.0057.0065.0064.001.081.0022.0052.0056.0053.0057.0063.0051.001.461.4320.0056.0065.0052.0051.0062.0047.001.001.0022.0050.0063.0059.0053.0055.0048.001.001.0020.00

23、63.0057.0060.0066.0051.0056.001.001.0026.0056.0046.0058.0050.0045.0052.002.231.2921.0047.0050.0057.0049.0050.0048.002.081.1420.0053.0066.0053.0059.0055.0045.001.001.0025.00z1z2z3z4z5z6z7z8满满意意度度61.0055.0058.0061.0058.0061.001.151.1423.0059.0064.0060.0052.0054.0056.001.081.0026.0055.0060.0072.0060.

24、0055.0067.001.081.0026.0056.0052.0068.0040.0051.0055.001.851.7130.0059.0051.0061.0056.0052.0056.001.001.0025.0060.0053.0062.0055.0047.0063.001.311.1427.0052.0051.0057.0045.0055.0059.001.231.1420.0056.0057.0057.0052.0059.0055.001.001.1426.0068.0058.0071.0068.0053.0061.001.001.0030.0060.0053.0061.0060

25、.0056.0051.001.001.0027.0064.0056.0074.0050.0059.0057.001.851.1418.0067.0053.0060.0053.0053.0051.001.001.0024.0056.0056.0067.0067.0056.0052.001.001.0024.0053.0046.0049.0043.0050.0048.001.311.1419.0053.0057.0065.0052.0067.0059.001.771.4317.0060.0040.0071.0057.0056.0058.001.081.0024.0054.0045.0044.004

26、9.0042.0046.001.001.0023.00 实现步骤实现步骤图图图图7-7 “Linear Regression”7-7 “Linear Regression”对话对话对话对话框（二）框（二）框（二）框（二）（1 1）输出结果文件中的第一个表格如下）输出结果文件中的第一个表格如下表所示。表所示。7.3.3 结果和讨论结果和讨论 2 2）输出的结果文件中第二个表格如下表）输出的结果文件中第二个表格如下表所示。所示。（3 3）输出的结果文件中第三个表格如下）输出的结果文件中第三个表格如下表所示。表所示。（4 4）输出的结果文件中第四个表格如下）输出的结果文件中第四个表格如下表所示。表所

27、示。（5 5）输出的结果文件中第五个表格如下）输出的结果文件中第五个表格如下表所示。表所示。（6 6）输出的结果文件中第六个表格为回）输出的结果文件中第六个表格为回归系数分析，如下表所示归系数分析，如下表所示（7 7）输出的结果文件中第七个表格如下）输出的结果文件中第七个表格如下表所示。表所示。（8 8）输出的结果文件中第八部分为图形，）输出的结果文件中第八部分为图形，为回归因变量和每个自变量之间的关系点图。为回归因变量和每个自变量之间的关系点图。图图7-87-8为自变量为自变量z1z1和和mymy之间的关系点图。之间的关系点图。7.4.1 统计学上的定义和计算公式统计学上的定义和计算公式7

28、.4 7.4 非线性回归分析非线性回归分析定义：研究在非线性相关条件下，自变量定义：研究在非线性相关条件下，自变量对因变量的数量变化关系，称为非线性回归分对因变量的数量变化关系，称为非线性回归分析。析。在实际问题中，变量之间的相关关系往往在实际问题中，变量之间的相关关系往往不是线性的，而是非线性的，因而不能用线性不是线性的，而是非线性的，因而不能用线性回归方程来描述它们之间的相关关系，而要采回归方程来描述它们之间的相关关系，而要采用适当的非线性回归分析。用适当的非线性回归分析。非线性回归问题大多数可以化为线性回归非线性回归问题大多数可以化为线性回归问题来求解，也就是通过对非线性回归模型进问题

29、来求解，也就是通过对非线性回归模型进行适当的变量变换，使其化为线性模型来求解。行适当的变量变换，使其化为线性模型来求解。一般步骤为：一般步骤为：根据经验或者绘制散点图，选择适当根据经验或者绘制散点图，选择适当的非线性回归方程；的非线性回归方程；通过变量置换，把非线性回归方程化为通过变量置换，把非线性回归方程化为线性回归；线性回归；用线性回归分析中采用的方法来确定各用线性回归分析中采用的方法来确定各回归系数的值；回归系数的值；对各系数进行显著性检验。对各系数进行显著性检验。计算公式如下。计算公式如下。在本节中介绍几种常见的非线性回归模型，在本节中介绍几种常见的非线性回归模型，并分别给出其线性化方

30、法及图形。并分别给出其线性化方法及图形。研究问题研究问题研究民用汽车总量与国内生产总值的关系。研究民用汽车总量与国内生产总值的关系。数据如表数据如表7-37-3所示。（资料来源：所示。（资料来源：中国统计中国统计年鉴年鉴20072007，中国统计出版社，中国统计出版社，20072007年）年）7.4.2 SPSS中实现过程中实现过程实现步骤实现步骤图图图图7-9 “Simple 7-9 “Simple ScatterplotScatterplot”对话对话对话对话框框框框图图图图7-10 7-10 散点散点散点散点图图图图图图图图7-11 “Curve Estimation”7-11 “C

31、urve Estimation”对话对话对话对话框（一）框（一）框（一）框（一）7.4.3 结果和讨论结果和讨论（1 1）第一部分输出相关统计量和参数的）第一部分输出相关统计量和参数的值，如下表所示。值，如下表所示。（2 2）第二部分输出的是观察值和）第二部分输出的是观察值和CubicCubic，PowerPower两种曲线预测值的对比图，如图两种曲线预测值的对比图，如图7-127-12所所示。示。7.5.1 统计学上的定义和计算公式统计学上的定义和计算公式7.5 7.5 曲曲线线估估计计定义：在一元回归分析中，一般首先绘制定义：在一元回归分析中，一般首先绘制自变量和因变量间的散点图

32、，然后通过数据在自变量和因变量间的散点图，然后通过数据在散点图中的分布特点选择所要进行回归分析的散点图中的分布特点选择所要进行回归分析的类型，是使用线性回归分析还是某种非线性的类型，是使用线性回归分析还是某种非线性的回归分析。回归分析。然而，在实际问题中，用户往往不能确定然而，在实际问题中，用户往往不能确定究竟该选择何种函数模型更接近样本数据，这究竟该选择何种函数模型更接近样本数据，这时可以采用曲线估计的方法，其步骤如下：时可以采用曲线估计的方法，其步骤如下：首先根据实际问题本身特点，同时选首先根据实际问题本身特点，同时选择几种模型；择几种模型；然后然后SPSSSPSS自动完成模型的参数估计，

33、自动完成模型的参数估计，并显示并显示R2R2、F F检验值、相伴概率值等统计量；检验值、相伴概率值等统计量；最后，选择具有最后，选择具有R2R2统计量值最大的模统计量值最大的模型作为此问题的回归模型，并作一些预测。型作为此问题的回归模型，并作一些预测。研究问题研究问题试用试用SPSSSPSS对国内生产总值和社会消费品零对国内生产总值和社会消费品零售总额之间的关系进行曲线回归分析。数据如售总额之间的关系进行曲线回归分析。数据如表表7-47-4所示。（资料来源：所示。（资料来源：中国统计年鉴中国统计年鉴20072007，中国统计出版社，中国统计出版社，20072007年）年）7.5.2 SPSS

34、中实现过程中实现过程表表表表7-47-4 1978197820062006年社会消年社会消年社会消年社会消费费费费品零售品零售品零售品零售总额总额总额总额年年份份国内生产总值（亿元）国内生产总值（亿元）社会消费品零售总额（亿元）社会消费品零售总额（亿元）19783645.21558.619794062.61800.019804545.62140.019814891.62350.019825323.42570.019835962.72849.419847208.13376.419859016.04305.0198610275.24950.0198712058.65820.0198815042.

35、87440.0198916992.38101.4199018667.88300.1199121781.59415.6199226923.510993.7199335333.912462.1199448197.916264.7199560793.720620.0199671176.624774.1199778973.027298.9199884402.329152.5199989677.131134.7200099214.634152.62001109655.237595.22002120332.748135.92003135822.852516.32004159878.359501.02005

36、183867.967176.62006210871.076410.0 实现步骤实现步骤图图图图7-13 “Curve Estimation”7-13 “Curve Estimation”对话对话对话对话框（二）框（二）框（二）框（二）图图图图7-14 “Curve Estimation7-14 “Curve Estimation：Save”Save”对话对话对话对话框（一）框（一）框（一）框（一）（1 1）SPSSSPSS输出结果文件中的第一部分如输出结果文件中的第一部分如下表所示。下表所示。7.5.3 结果和讨论结果和讨论（2 2）输出的结果文件中第二部分如图）输出的结果文件中第二部分如图

37、7-7-1515所示。所示。（3 3）由于进行曲线估计时所选的曲线模）由于进行曲线估计时所选的曲线模型种类较多，所以使得输出的观察值与在各种型种类较多，所以使得输出的观察值与在各种函数模型条件下预测值的对比图比较复杂，不函数模型条件下预测值的对比图比较复杂，不易分辨出究竟易分辨出究竟LinearLinear，QuadraticQuadratic，CubicCubic及及PowerPower这这4 4种曲线究竟哪种的对样本观察值的拟种曲线究竟哪种的对样本观察值的拟合优度更符合实际。合优度更符合实际。图图图图7-16 7-16 对对对对比比比比图图图图2 2 （4 4）重新回到图）重新回到图7-1

38、37-13所示对话框，在所示对话框，在“ModelModel”框内只选中框内只选中“QuadraticQuadratic”和和“CubicCubic”这两种拟合优度更高的曲线模型进这两种拟合优度更高的曲线模型进行估计。得出它们与观察值的对比图，如图行估计。得出它们与观察值的对比图，如图7-7-1717所示。所示。图图图图7-17 7-17 对对对对比比比比图图图图3 3 （5 5）如果在图）如果在图7-137-13所示对话框中选中了所示对话框中选中了“Display ANOVA tableDisplay ANOVA table”项，作回归方程显项，作回归方程显著性检验，将输出相应的方差分析表，

39、以著性检验，将输出相应的方差分析表，以CubicCubic模型为例（如下表所示），其结果是：模型为例（如下表所示），其结果是：回归方程显著有意义，并且回归方程显著有意义，并且x,x2,x3x,x2,x3三个自变三个自变量的系数显著不为零。量的系数显著不为零。（6 6）由于在图）由于在图7-137-13所示对话框中选了所示对话框中选了“SaveSave”项，且在图项，且在图7-147-14所示的所示的“Save Save VariablesVariables”框中选择了框中选择了“Predicted Predicted valuesvalues”，“ResidualsResiduals”和和“P

40、rediction Prediction intervalsintervals”3 3个选项，因此在个选项，因此在SPSSSPSS数据编辑窗数据编辑窗口中就增了口中就增了fit_1fit_1，err_1err_1，lcl_1lcl_1，ucl_1ucl_1等等4444个变量的值，如图个变量的值，如图7-187-18所示。所示。图图图图7-18 7-18 曲曲曲曲线线线线估估估估计计计计分析分析分析分析结结结结果保存果保存果保存果保存7.6.1 统计学上的定义和计算公式统计学上的定义和计算公式7.6 7.6 时间序列的曲线估计时间序列的曲线估计定义：时间序列的曲线估计是分析社会和定义：时间序列

41、的曲线估计是分析社会和经济现象中经常用到的一种曲线估计。通常把经济现象中经常用到的一种曲线估计。通常把时间设为自变量时间设为自变量x x，代表具体的经济或社会现，代表具体的经济或社会现象的变量设为因变量象的变量设为因变量y y，研究变量，研究变量x x与与y y之间关之间关系的方法就是时间序列曲线估计。其具体步骤系的方法就是时间序列曲线估计。其具体步骤与一般的曲线估计基本类似。与一般的曲线估计基本类似。计算公式：计算公式：SPSSSPSS中时间序列的曲线估计模中时间序列的曲线估计模型与上一节所介绍相同。型与上一节所介绍相同。研究问题研究问题试用试用SPSSSPSS对对197819782006

42、2006年间社会消费品零年间社会消费品零售总额之间的关系进行曲线回归分析。数据如售总额之间的关系进行曲线回归分析。数据如表表7-57-5所示。（资料来源：所示。（资料来源：中国统计年鉴中国统计年鉴20072007，中国统计出版社，中国统计出版社，20072007年）年）7.6.2 SPSS中实现过程中实现过程表表表表7-57-5 1978197820062006年社会消年社会消年社会消年社会消费费费费品零售品零售品零售品零售总额总额总额总额序序号号年年份份社会消费品零售总额（亿元）社会消费品零售总额（亿元）119781558.6219791800.0319802140.041981235

43、0.0519822570.0619832849.4719843376.4819854305.0919864950.01019875820.01119887440.01219898101.41319908300.11419919415.615199210993.716199314270.417199418622.918199523613.819199628360.220199731252.921199833378.122199935647.923200039105.724200143055.425200248135.926200352516.327200459501.028200567176.6

44、29200676410.0 实现步骤实现步骤图图图图7-19 “Curve Estimation”7-19 “Curve Estimation”对话对话对话对话框（三）框（三）框（三）框（三）图图图图7-20 “Curve Estimation7-20 “Curve Estimation：Save”Save”对话对话对话对话框（二）框（二）框（二）框（二）（1 1）第一部分输出相关统计量和参数的）第一部分输出相关统计量和参数的值如下表所示。值如下表所示。7.6.3 结果和讨论结果和讨论（2 2）第二部分输出的是观察值）第二部分输出的是观察值LinearLinear，CubicCubic，Po

45、werPower和和Exponential 4Exponential 4种曲线预测值种曲线预测值的对比图，如图的对比图，如图7-217-21所示。所示。（3 3）由于在图）由于在图7-197-19所示所示“Curve Curve EstimationEstimation”对话框（三）中选了对话框（三）中选了“SaveSave”项，项，且在图且在图7-207-20的的“Save VariablesSave Variables”框中选择了框中选择了“Predicted valuesPredicted values”选项和选项和“Predict Predict CasesCases”框中选择了框中选

46、择了“Predict throughPredict through”项，项，并且在并且在“ObservationObservation”框中键入了框中键入了“3131”，因此在因此在SPSSSPSS数据编辑窗口中就新增了数据编辑窗口中就新增了fit_1fit_1，fit_2fit_2，fit_3fit_3和和fit_4fit_4等等4 4个变量的预测值，同个变量的预测值，同时在窗口下方还新增了两个个案，它们分别代时在窗口下方还新增了两个个案，它们分别代表对表对20072007年和年和20082008年的预测值。如图年的预测值。如图7-227-22所示。所示。7.7.1 统计学上的定义和计算公式

47、统计学上的定义和计算公式7.7 7.7 含虚拟自变量的回归分析含虚拟自变量的回归分析定义：前面几节所讨论的回归模型中，因定义：前面几节所讨论的回归模型中，因变量和自变量都是可以直接用数字计量的，即变量和自变量都是可以直接用数字计量的，即可以获得其实际观测值（如收入、支出、产量、可以获得其实际观测值（如收入、支出、产量、国内生产总值等），这类变量称作数量变量、国内生产总值等），这类变量称作数量变量、定量变量或数量因素。然而，在实际问题的研定量变量或数量因素。然而，在实际问题的研究中，经常会碰到一些非数量型的变量，如性究中，经常会碰到一些非数量型的变量，如性别、民族、职业、文化程度、地区、正常年

48、份别、民族、职业、文化程度、地区、正常年份与干旱年份、改革前与改革后等定性变量。与干旱年份、改革前与改革后等定性变量。在建立一个实际问题的回归方程时，经常在建立一个实际问题的回归方程时，经常需要考虑这些定性变量。例如，建立粮食产量需要考虑这些定性变量。例如，建立粮食产量预测方程就应考虑到正常年份与受灾年份的不预测方程就应考虑到正常年份与受灾年份的不同影响；建立空调的销售模型时，除了要考虑同影响；建立空调的销售模型时，除了要考虑居民收入和商品价格这两个量的因素之外，还居民收入和商品价格这两个量的因素之外，还必须将必须将“季节季节”这个质的因素，作为一个重要这个质的因素，作为一个重要解释变量。解释

49、变量。由于受到质的因素影响，回归模型的参数由于受到质的因素影响，回归模型的参数不再是固定不变的。例如，在空调销售模型中，不再是固定不变的。例如，在空调销售模型中，收入、价格与空调销售额的关系是随着季节变收入、价格与空调销售额的关系是随着季节变化而改变的，也就是说，在不同的季节回归模化而改变的，也就是说，在不同的季节回归模型的参数也会有所不同。再如，我国居民的消型的参数也会有所不同。再如，我国居民的消费行为在改革开放前后大不相同，因此消费函费行为在改革开放前后大不相同，因此消费函数的参数也会发生变化。显然，如果忽略质的数的参数也会发生变化。显然，如果忽略质的因素，仍把模型中的参数看作是固定不变的

50、，因素，仍把模型中的参数看作是固定不变的，得到的参数估计量就不能正确描述经济变量之得到的参数估计量就不能正确描述经济变量之间的关系。间的关系。在回归分析中，对一些自变量是定性变量在回归分析中，对一些自变量是定性变量的先作数量化处理，处理的方法是引进只取的先作数量化处理，处理的方法是引进只取“0 0”和和“1 1”两个值的两个值的0 0 1 1型虚拟自变量。当型虚拟自变量。当某一属性出现时，虚拟变量取值为某一属性出现时，虚拟变量取值为“1 1”，否，否则取值为则取值为“0 0”。例如，令。例如，令“1 1”表示改革开放表示改革开放以后的时期，以后的时期，“0 0”则表示改革开放以前的时则表示改革

展开阅读全文