《数学建模讲座回归分析ppt课件.pptx》由会员分享,可在线阅读,更多相关《数学建模讲座回归分析ppt课件.pptx(89页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、主讲人:黄旭东主讲人:黄旭东安徽师范大学数学计算机科学学院统计系系主任安徽师范大学数学计算机科学学院统计系系主任2l课程背景:课程背景: 由于客观事物内部规律的复杂及人们认识程度的限由于客观事物内部规律的复杂及人们认识程度的限制制,无法分析实际对象内在的因果关系,建立合乎机无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型。通过对数据的统计分析,找出理规律的数学模型。通过对数据的统计分析,找出与数据拟合最好的模型,回归模型是用统计分析方与数据拟合最好的模型,回归模型是用统计分析方法建立的最常用的一类模型。法建立的最常用的一类模型。3What Shall We Talk?内容安排内容安排
2、一、多元一、多元回归分析回归分析二、二、虚拟变量模型虚拟变量模型三、三、多元多元Logistic 回归分回归分析析一、多元回归分析一、多元回归分析5 5 实例1对中国国内旅游消费支出的定量研究 国内旅游消费支出度量及增长的状况怎样国内旅游消费支出度量及增长的状况怎样? ? ( (消费支出度量、增长速度消费支出度量、增长速度) )分析影响国内旅游消费支出的因素有哪些?分析影响国内旅游消费支出的因素有哪些? ( (如收入、闲暇时间、交通设施、人口、社会环境等如收入、闲暇时间、交通设施、人口、社会环境等) )国内旅游消费支出与各种影响因素关系的性质是什么?国内旅游消费支出与各种影响因素关系的性质是什
3、么? ( (如增加、减少如增加、减少) )各种因素对国内旅游消费支出影响的程度和具体数量规各种因素对国内旅游消费支出影响的程度和具体数量规律是什么?律是什么? ( (各种因素变动具体会引起旅游消费支出变动多少各种因素变动具体会引起旅游消费支出变动多少) )所作数量分析结果的可靠性如何?所作数量分析结果的可靠性如何?对旅游消费增长的政策效应分析、对国内旅游消费支出对旅游消费增长的政策效应分析、对国内旅游消费支出发展趋势的预测等发展趋势的预测等56 6实例2:中国家庭用汽车市场的研究家用家用汽车市场状况如何?汽车市场状况如何?(用销售量观测)(用销售量观测)影响汽车销量的主要因素是什么?影响汽车销
4、量的主要因素是什么?(如收入、价格、费用、道路状况、政策、消费行为特征等)(如收入、价格、费用、道路状况、政策、消费行为特征等)各种因素对汽车销量影响的性各种因素对汽车销量影响的性 质怎样?质怎样?(正、负)(正、负)各种因素影响汽车销量的具体各种因素影响汽车销量的具体 数量关系是什么?数量关系是什么?所得的分析结论是否可靠?所得的分析结论是否可靠?今后汽车市场的发展前景怎样?今后汽车市场的发展前景怎样? 应如何制定汽车的产业政策?应如何制定汽车的产业政策?677 实例3:中国股票价格波动的研究股票价格变动的情况怎样股票价格变动的情况怎样? ? (用股价指数观测)(用股价指数观测)影响股票价格
5、变动的主要影响股票价格变动的主要 因素是什么因素是什么? ? (基本面、资金、政策、利率、公司业绩、投资者信心等)(基本面、资金、政策、利率、公司业绩、投资者信心等)股价与各种影响因素的关系是什么股价与各种影响因素的关系是什么? ? (利空、利多)(利空、利多)各种因素影响的具体数量规律是什么?各种因素影响的具体数量规律是什么?所得的数量分析结果可不可靠?所得的数量分析结果可不可靠?今后股票价格的发展趋势可能会怎样?今后股票价格的发展趋势可能会怎样?0500100015002000250012/19/9010/19/948/19/98SHZS8 这类实例需要研究的共性问题这类实例需要研究的共性
6、问题: 提出所研究的经济问题及度量方式提出所研究的经济问题及度量方式(如消费、股票价格、汽车)(如消费、股票价格、汽车) 确定作为确定作为研究对象研究对象的经济现象的变量的经济现象的变量 分析主要影响因素分析主要影响因素(根据经济理论、实际经验)根据经济理论、实际经验) 选择若干作为选择若干作为影响因素影响因素的变量的变量 分析各种影响因素与所研究经济现象的相互关系分析各种影响因素与所研究经济现象的相互关系 决定相互联系的数学关系式决定相互联系的数学关系式 确定所研究的经济问题与各种影响因素间的数量规律确定所研究的经济问题与各种影响因素间的数量规律 需要有科学的数量分析方法需要有科学的数量分析
7、方法 分析和检验所得数量结论的可靠性分析和检验所得数量结论的可靠性 需要运用统计检验方法需要运用统计检验方法 运用数量研究的结果作经济分析和经济预测运用数量研究的结果作经济分析和经济预测 对数量分析的实际应用对数量分析的实际应用结论:结论:以上问题的研究具有普遍性,需要运用回归分析方法去研究以上问题的研究具有普遍性,需要运用回归分析方法去研究8 案例 在一项对某社区家庭对某种消费品的消费需要调查中,得到下表所示的资料。 l 请用手工与软件两种方式对该社区家庭对该商品的消费需求支出作二元线性回归分析,其中手工方式要求以矩阵表达式进行运算。 (1)估计回归方程的参数及随机干扰项的方差 ,计算 及
8、。 (2)对方程进行 检验,对参数进行 检验,并构造参数95%的置信区间。 (3)如果商品单价变为35元,则某一月收入为20000元的家庭的消费支出估计是多少?构造该估计值的95%的置信区间。F2R2Rt2 步骤一:建立工作表,并输入数据步骤一:建立工作表,并输入数据(1)打开软件,进入主界面,界面如下:(2)点击 得到如下界面:(3)由于数据为截面数据,则依次点击: 由于数据的个数为10,则按如下列步骤依次填入: 1 10结果如下图:(4)建立序列对象:u 定义解释变量 在窗口中,依次点击: 在中输入,界面如下所示:u 定义解释变量在窗口中,依次点击: 在中输入,界面如下所示:u 定义被解释
9、变量 : 同理,在窗口中,依次点击: 在中输入 ,界面如下所示: (5)录入数据: 同时选中右击: 相应的界面如下所示: 输入数据,数据输入后得到如下界面:输入数据,数据输入后得到如下界面:步骤二:第一问第一问: (1)估计回归方程的参数及随机干扰项的方差 ,计算 及 。 2R2R2 (1)普通最小二乘估计: 在主界面: 出现如下界面:l 依次输入 (注意:要有空格)点击,得到窗口,如下图所示:l从该估计中,可得到随即干扰项的残差平方l和 为2116.847l根据 得到随即干扰项的方差 为41.3021210847.21162ei2122kneil可决系数为l调整的可决系数为902218.02
10、R874281.02Rl第二问第二问:l (2)对方程进行 检验,对参数进行 检验,并构造参数95%的置信区间。Ft(1) F检验检验l方程显著性的 检验是要检验模型l中参数 是否显著不为零。l原假设:l备择假设:l根据样本得到 =32.29408l给定显著性水平a=0.05,查F分布表得到临界值l通过 来拒绝原假设,即线性关系显著成立),.,2, 1(:0.:1210kjHHjK55.9)7 , 2(05.0FFiikkiiiXXXY22110k,1(2,7)FFF(2)t检验检验l提出假设提出假设0:0:0:0:21201110HHHHl 在软件中得到两个变量 的 值,分别为 =3.061
11、617, =4.902030l在显著性水平a=0.05,查 分布表得到l 可见,两个变量的t值都大于该临界值,所以拒绝原假设,则在95%的水平下两个解释变量都通过了变量的显著性检验。21, XXt1t2t365. 2)7(025. 0tt参数的置信区间参数的置信区间l已知l从回归计算中得到l根据l得到 的置信区间为(-17.35,-2.23)l 的置信区间为(0.0148,0.0424)365.2)7(025.0t790570. 91197843.31s028618.02005838.02sjajjajsstt*,*2212l第三问第三问:l (3)如果商品单价变为35元,则某一月收入为200
12、00元的家庭的消费支出估计是多少?构造该估计值的95%的置信区间。 进行以下操作: 拓展工作空间:打开窗口,点击 将的数据1011 确定预测值的起止日期:打开窗口,点击,将1011 界面分别如下:在的最下方填入35,在的最下方填入20000,按回车键。在出现的界面,点击 出现相应界面如下: l在中输入l在中输入l在中双击可得到下面界面l得到=35,=20000时家庭的消费支出为=856.202507115双击双击w,得到,得到l从上表可得l根据l得个值的95%的预测区间(759.41,952.99)927.400e0020020eetYYtYl在95%的置信度下均值的置信区间为l即为(768.
13、6,943.8)22200222000eetYYtY二、 虚拟变量模型 ( (一一) )虚拟变量的基本含义虚拟变量的基本含义 ( (二二) )虚拟变量的引入虚拟变量的引入 ( (三三) )虚拟变量的设置原则虚拟变量的设置原则在对在校学生的消费行为进行的调查中在对在校学生的消费行为进行的调查中, ,发现在校发现在校生的消费行为呈现多元化的结构。人际交往消费、生的消费行为呈现多元化的结构。人际交往消费、手机类消费、衣着类消费、化妆品类消费、电脑手机类消费、衣着类消费、化妆品类消费、电脑类消费、旅游类消费占有较大的比例;而食品类类消费、旅游类消费占有较大的比例;而食品类消费、学习用品类消费不突显。消
14、费、学习用品类消费不突显。显然显然, ,男女生在消费上存在差异。为了了解男、女男女生在消费上存在差异。为了了解男、女生的消费支出结构差异,应当如何建立模型?生的消费支出结构差异,应当如何建立模型?面临的问题:面临的问题:如何把男女生这样的非数量变量引如何把男女生这样的非数量变量引入方程?入方程? 引例引例: :男女大学生消费真有差异吗男女大学生消费真有差异吗? ? (一)虚拟变量的基本含义l许多经济变量是许多经济变量是可以定量度量可以定量度量。l一些影响经济变量的因素是一些影响经济变量的因素是无法定量度量。无法定量度量。l为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将为了在模型中
15、能够反映这些因素的影响,并提高模型的精度,需要将它们它们“量化量化”。l这种这种“量化量化”通常是通过引入通常是通过引入“虚拟变量虚拟变量”来完成的。根据这些因素来完成的。根据这些因素的属性类型,的属性类型,构造只取构造只取“0”或或“1”的人工变量的人工变量,通常称为,通常称为虚拟变量虚拟变量,记为记为D。l虚拟变量只作为解释变量。虚拟变量只作为解释变量。1、虚拟变量、虚拟变量(dummy variables)l一般地,在虚拟变量的设置中:一般地,在虚拟变量的设置中:l 基础类型、肯定类型取值为基础类型、肯定类型取值为1;l 比较类型,否定类型取值为比较类型,否定类型取值为0。l例如,反映文
16、程度的虚拟变量可取为例如,反映文程度的虚拟变量可取为:lD=1,本科学历,本科学历lD=0,非本科学历,非本科学历l虚拟变量能否取虚拟变量能否取1 1、0 0以外的数值?以外的数值?l同时含有一般解释变量与虚拟变量的模型称为同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型或者虚拟变量模型或者方差分析(方差分析(analysis-of variance: ANOVA)模型。)模型。l例如,一个以性别为虚拟变量考察企业职工薪金的模型:iiiiDXY210其中:Yi为企业职工的薪金;Xi为工龄; Di=1,若是男性,Di=0,若是女性。2、虚拟变量模型、虚拟变量模型(二)虚拟变量的引入l虚拟变量
17、作为解释变量引入模型有两种基本方式:虚拟变量作为解释变量引入模型有两种基本方式:加法方式加法方式和和乘乘法方式法方式。l上述企业职工薪金模型中性别虚拟变量的引入采取了加法方式。上述企业职工薪金模型中性别虚拟变量的引入采取了加法方式。 在该模型中,如果仍假定E(i)=0,则企业男、女职工的平均薪金企业男、女职工的平均薪金为:为:iiiiXDXYE10)0,|(iiiiXDXYE120)() 1,|(1、加法方式、加法方式 假定20,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对工龄的变化率是一样的,但两者的平均薪金水平相差2。 可以通过对2的统计显著性进行检验,以判断企业男女职
18、工的平均薪金水平是否有显著差异。 年薪Y 男职工 女职工 工龄X02l将上例中的性别换成教育水平,教育水平考虑三个层次:高中以下、高中、大学及其以上。 011D 其他高中 012D 其他大学及其以上iiiDDXY231210iiiXDDXYE1021) 0, 0,|(iiiXDDXYE12021)() 0, 1,|(iiiXDDXYE13021)() 1, 0,|(高中以下高中大学及以上l在上例中同时引入性别和教育水平:女男011D大学以下大学及以上012DiiiDDXY231210女职工本科以下学历的平均薪金:iiiXDDXYE13021)() 1, 0,|(女职工本科以上学历的平均薪金:i
19、iiXDDXYE132021)() 1, 1,|(iiiXDDXYE1021)0, 0,|(iiiXDDXYE12021)()0, 1,|(男职工本科以下学历的平均薪金:男职工本科以上学历的平均薪金:l加法方式引入虚拟变量,考察:截距的不同。加法方式引入虚拟变量,考察:截距的不同。l许多情况下,斜率发生变化,或斜率、截距同时发生变化。许多情况下,斜率发生变化,或斜率、截距同时发生变化。l斜率的变化可通过以乘法的方式引入虚拟变量来测度斜率的变化可通过以乘法的方式引入虚拟变量来测度。2、乘法方式、乘法方式l例如,例如,根据消费理论,收入决定消费。但是,农村居民和城镇居民的边际消费倾向往往是不同的。
20、这种消费倾向的不同可通过在消费函数中引入虚拟变量来考察。城镇居民农村居民01iDiiiiiXDXC210iiiiXDXCE)() 1,|(210iiiiXDXCE10) 0,|(农村居民:城镇居民:l例如,例如,根据消费理论,收入决定消费。但是,在自然灾害、战争等反常年份,消费倾向往往发生变化。这种消费倾向的变化可通过在消费函数中引入虚拟变量来考察。tttttXDXC210ttttXDXCE)() 1,|(210ttttXDXCE10)0,|(反常年份正常年份01tDl例如,例如,根据消费理论,收入决定消费。但是,从某一个时点开始,消费倾向发生变化。这种消费倾向的变化也可通过在消费函数中引入虚
21、拟变量来考察。tttttXDXC210ttttXDXCE)() 1,|(210ttttXDXCE10)0,|(*01ttttDtl当截距与斜率发生变化时,则需要同时引入加法与乘法形式的虚当截距与斜率发生变化时,则需要同时引入加法与乘法形式的虚拟变量。拟变量。l对于一元模型,有两组样本,则有可能出现下述四种情况中的一种:l 1=1 ,且2=2 ,即两个回归相同,称为重合回归重合回归(Coincident Regressions);l11 ,但2=2 ,即两个回归的差异仅在其截距,称为平行回平行回归归(Parallel Regressions);l1=1 ,但22 ,即两个回归的差异仅在其斜率,称
22、为汇合汇合回归回归(Concurrent Regressions);l11,且22 ,即两个回归完全不同,称为相异回归相异回归(Dissimilar Regressions)。3、同时引入加法与乘法形式的虚拟变量、同时引入加法与乘法形式的虚拟变量年及以后年前920921tD通过统计检验,判断两个时期中消费函数的截距和斜率是否发生变化。2009,1978)(3210tGDPDDGDPCtttttt例如,以1978-2009年的数据为样本,以GDP作为解释变量,建立居民消费函数。根据分析,1992年前后,自发消费和消费率都可能发生变化。(三)虚拟变量的设置原则l每一每一定性变量定性变量(quali
23、tative variable)所需的虚拟变量个数要比该定所需的虚拟变量个数要比该定性变量的性变量的状态类别数状态类别数(categories)少少1。即如果有。即如果有m种状态,只在模种状态,只在模型中引入型中引入m-1个虚拟变量。个虚拟变量。l例如,季节定性变量有春、夏、秋、冬例如,季节定性变量有春、夏、秋、冬4种状态,只需要设置种状态,只需要设置3个个虚变量:虚变量:其它秋季其它夏季其它春季010101321DDD如果设置第如果设置第4个虚变量,则出现个虚变量,则出现“虚拟变量陷井虚拟变量陷井”(Dummy Variable Trap),为什么?),为什么?ttttktkttDDDXXY
24、332211110tttttktkttDDDDXXY44332211110D)(X,Y0001110001010010010100011),(616414313212111kkkkkXXXXXXXXXXDX解释变解释变量完全量完全共线性共线性包含季节变量的正确模型:包含季节变量的正确模型:l如果在服装需求函数模型中必须包含如果在服装需求函数模型中必须包含3个定性变量:季节(个定性变量:季节(4种状种状态)、性别(态)、性别(2种状态)、职业(种状态)、职业(5种状态),种状态),应该设置多少虚变应该设置多少虚变量?量?l模型含常数项模型含常数项l模型不含常数项模型不含常数项三、多元三、多元Lo
25、gistic 回归分析回归分析Multiple Logistic Regression Analysis线性回归模型的一个局限性是要求因变量是定量变量(定距变量、定比变量)而不能是定性变量(定序变量、定类变量)。但是在许多实际问题中,经常出现因变量是定性变量(分类变量)的情况。可用于处理分类因变量的统计分析方法有:判别分别(Discriminant analysis)、Probit 分析、Logistic 回归分析和对数线性模型等。在社会科学中,应用最多的是Logistic回归分析。Logistic 回归分析根据因变量取值类别不同,又可以分为Binary Logistic 回归分析和Multi
26、nomial Logistic 回归分析,Binary Logistic 回归模型中因变量只能取两个值1 和0(虚拟因变量),而Multinomial Logistic 回归模型中因变量可以取多个值。本章将只讨论Binary Logistic 回归,并简称Logistic 回归。因变量只取两个值,表示一种决策、一种结果的两种可能性。例如,某个人能否拥有房子,受到多种因素的影响,如家庭情况、工龄、收入情况等,但最终的可能性只有两个,要么拥有住房,要么没有住房。我们把Y=1 定义为拥有住房,Y=0 定义为其它情况,即从模型角度出发,不妨把事件发生的情况定义为Y=1,事件未发生的情况定义为Y=0,这
27、样取值为0、1 的因变量可以写为下式:我们可以采用多种方法对取值为0、1 的因变量进行分析。通常以p 表示事件发生的概率(事件未发生的概率为1-p),并把p 看作自变量Xi 的线性函数,即不同形式的F(),就有不同形式的模型,最简单的莫过于使F()为一线性函数,即我们可能会认为可用普通最小二乘法对上式进行估计,但因p 的值一定在区间0,1内,而且当p 接近于0 或1 时,自变量即使有很大变化p 的值也不可能变化很大,所以对上式直接用普通最小二乘法进行估计是行不通的。从数学上看,函数p 对Xi 的变化在p=0 或p=1 的附近是不敏感的、缓慢的,且非线性的程度较高。于是要寻求一个p 的函数 (
28、p),使得它在p=0 或p=1 附近时变化幅度较大,而函数的形式又不是很复杂,因此,我们引入p 的Logistic 变换(或称为p 的Logit 变换),即其中,p/(1-p);logit(p)是因变量Y=1 的差异比(odds ratio)或似然比(likelihood ratio)的自然对数,称为对数差异比(log odds ratio)、对数似然比(log likelihood ratio)或分对数。很明显, ( p)以logit(0.5)=0 为中心对称(如表10-54所示), ( p)在p=0和p=1 的附近变化幅度很大,而且当p 从0 变化1 时, ( p)从-变到+。用 ( p)
29、代替式(10-113)中的p就克服了前面指出的两点困难。如果p 对Xi 不是线性的关系, ( p)对Xi 就可以是线性的关系了。用 ( p)代替前式中的p,得将p 由 来表示,得医学研究中经常遇到分类型变量l二分类变量:o生存与死亡o有病与无病o有效与无效o感染与未感染l多分类有序变量:o疾病程度(轻度、中度、重度)o治愈效果(治愈、显效、好转、无效)l多分类无序变量:o手术方法(A、B、C)o就诊医院(甲、乙、丙、丁)医学研究者经常关心的问题l哪些因素导致了人群中有的人患胃癌而有的人不患胃癌?l哪些因素导致了手术后有的人感染,而有的人不感染?l哪些因素导致了某种治疗方法出现治愈、显效、好转、
30、无效等不同的效果? 是回归分析问题是回归分析问题: :Y=f(x) Y=f(x) 如何解决这样的问题? y=f(x)y=1,0 x任意任意存在,且不唯一存在,且不唯一不能直接分析不能直接分析变量变量y与与x的关系的关系p=p(y=1|x)=f(x)0p1, x任意任意Logistic回归模型回归模型y取某个值的概取某个值的概率变量率变量p与与x 的的关系关系不存在不存在1、什么是、什么是Logistic 回归分析?回归分析?研究因变量研究因变量y取某个值的概率变量取某个值的概率变量p与与自变量自变量x的依存关系。的依存关系。p=p(y=1|x)=f(x)(一)(一) Logistic 回归分析
31、的概念回归分析的概念2、Logistic回归分析的分类l按数据的类型:按数据的类型:o非条件非条件logistic回归分析(成组数据)回归分析(成组数据)o条件条件logistic回归分析(配对病例回归分析(配对病例-对照数据)对照数据)l按因变量取值个数:按因变量取值个数:o二值二值logistic回归分析回归分析o多值多值logistic回归分析回归分析l按自变量个数:按自变量个数:o一元一元logistic回归分析回归分析o多元多元logistic回归分析回归分析Logistic回归分析回归分析第二节 Logistic 回归分析的数学模型 令令y是是1,0变量,变量,x是任是任意变量,意
32、变量,p=p(y=1|x),那么,二值变量,那么,二值变量y关于关于变量变量x的一元的一元logistic 回归回归模型是:模型是:10 xp0.5-/p=p(x)变变量量p与与x的的关关系系其中,其中,和和是未知参数或待估计的回归系数。该模型描述是未知参数或待估计的回归系数。该模型描述了了y取某个值(这里取某个值(这里y=1)的概率的概率p与自变量与自变量x之间的关系。之间的关系。(1) 二值一元二值一元logistic回归模型回归模型: 令y是1,0变量,x1,x2,xk是任意k个变量; p=p(y=1|x1,x2,xk),那么,变量y关于变量x1,x2,xk 的k元logistic回归模
33、型是:(2) 二值多元二值多元logistic回归模型回归模型:注意:对于二值Logistic回归模型,Y=0的模型是:p = p(y=0|x1,xk ) = 1 - p(y=1|x1,xk) Logistic 回归模型的另外一种形式回归模型的另外一种形式它给出变量它给出变量z=logit(p)关于关于x 的线性函数。的线性函数。(3) 多值多值logistic回归模型回归模型:例如,当y取值1,2,3时,logistic回归模型是:P1= P2= P3= p(y3 | x) = 1 - P2P1 = p(y=1) = P1P2 = p(y=2) =P2-P1P3 = p(y=3) =1-P2累积概率模型累积概率模型独立概率模型独立概率模型谢谢大家!