回归分析(5)学习.pptx

上传人:一*** 文档编号:89938133 上传时间:2023-05-13 格式:PPTX 页数:149 大小:2.35MB
返回 下载 相关 举报
回归分析(5)学习.pptx_第1页
第1页 / 共149页
回归分析(5)学习.pptx_第2页
第2页 / 共149页
点击查看更多>>
资源描述

《回归分析(5)学习.pptx》由会员分享,可在线阅读,更多相关《回归分析(5)学习.pptx(149页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、2023/5/51 线性回归的理论较为成熟,应用也较为广泛。但当被解释变量与解释变量之间呈某种曲线关系时,就必须用非线性回归。本章首先介绍可线性化的非线性回归,然后介绍多项式回归,最后简要介绍了一般的非线性回归模型。第1页/共149页1 可线性化的非线性回归第2页/共149页2023/5/531.线性化的含义及途径线性化的含义及途径 因为线性回归的“线性”是针对参数而言,而不是针对自变量而言,所以有些非线性回归模型可以通过变量代换转化为线性回归模型。例如,第3页/共149页2023/5/54 对模型1,只要令 即可化为线性回归模型 对模型2,令原模型化为多元线性回归模型第4页/共149页202

2、3/5/55 对模型3,可先两边取对数,得然后再令原模型化为线性回归模型第5页/共149页2023/5/56 (1)新引进的自变量只能依赖于原始变量,而不能与未知参数有关。若模型1中的b未知,则模型1不能线性化。可线性化的非线性回归模型称为本质线性回归模型,不可线性化的非线性回归模型称为本质非线性回归模型。第6页/共149页2023/5/57 (2)非线性化模型能否线性化不仅与回归函数的形式有关,而且与误差项的形式也有关。例如,模型3的误差项为乘性误差项,可以线性化,而模型4的误差项为加性误差项,不可以线性化。在对非线性回归模型进行线性化时,总是假定误差项满足可线性化条第7页/共149页202

3、3/5/58析,所以通常略去误差项,而仅写出回归函数。例如,模型3常简记为 。2.常用可线性化的曲线回归方程常用可线性化的曲线回归方程 SPSS中给出了11种常见的可线性化的非线性回归方程,见下表。第8页/共149页2023/5/59第9页/共149页2023/5/510 显然,上述曲线中的复合函数、增长函数和指数函数等价,只是形式不同。若选用上述曲线进行回归,只需选用分析-回归-曲线估计菜单即可,而不必做任何变换。除了上述曲线外,还有下列几种常用回归曲线。第10页/共149页2023/5/511 (1)双曲函数第11页/共149页2023/5/512 (2)S型函数II第12页/共149页2

4、023/5/513 此函数显然有两条渐近线y=0和y=1/a。S型函数有多种,其共同特点是曲线首先缓慢增长,在达到某点后迅速增长,在超过某点后又缓慢增长,最终趋于一个稳定值。S型函数在许多领域都有广泛的应用,例如产品的销售量、农作物的第13页/共149页2023/5/514生长、病毒的传播速率与时间的关系等都可以用S型函数研究。SPSS中的S型函数y=exp(b0+b1/t)当b10时不属通常意义的S型函数。另外,SPSS中的Logistic函数也是S型函数。第14页/共149页2023/5/515 例例10.1 对下表中的GDP数据进行非线性回归。解解 首先做数据散点图。分析-回归-曲线估计

5、。分别选线性和复合函数进行回归,结果见下。第15页/共149页2023/5/516 年份年份tyy1e198114862.44296.35566.05 198225294.75123.04171.66 198335934.56108.80-174.30 198447171.07284.24-113.24 198558964.48685.86278.54 1986610202.210357.16-154.96 1987711962.512350.06-387.56 1988814928.314726.42201.88 1989916909.217560.04-650.84 19901018547

6、.920938.89-2390.99 19911121617.824967.89-3350.09 19921226638.129772.14-3134.04 19931334634.435500.81-866.41 19941446759.442331.774427.63 19951558478.150477.138000.97 19961667884.660189.807694.80 19971774462.671771.352691.25 19981879395.785581.38-6185.68 第16页/共149页2023/5/517 数据散点图第17页/共149页2023/5/518

7、 线性回归第18页/共149页2023/5/519 指数回归第19页/共149页2023/5/520 回归效果图第20页/共149页2023/5/521 需要说明的是,回归分析的一个重要应用是预测,而预测的方法有多种,如拟合(回归)、灰色模型、时间序列和神经网络等。相比较而言,Origin的拟合功能更强,提供了更多的线型,可以图形的帮助下选择较合适的线型。第21页/共149页2023/5/522 Origin拟合效果图第22页/共149页2 多项式回归第23页/共149页2023/5/524 多项式回归是一种较为重要的非线性回归模型,有较广泛的应用。1.几种常见的多项式回归模型几种常见的多项式

8、回归模型 常见的多项式回归模型有一元二次模型和一元三次模型第24页/共149页2023/5/525 三次及以上的多项式回归模型较少使用,因为此时回归系数的解释比较困难,回归模型的数值稳定性也不太高,不利于应用。多元多项式回归比较复杂,较少使用。二元多项式回归模型为第25页/共149页2023/5/5262.多项式回归应用实例多项式回归应用实例 例例10.2 根据下表研究给定年龄组内经理的人寿保险额y与年均收入x1和风险反感度x2的关系。研究者认为年均收入与人寿保险额有二次关系,风险反感度与人寿保险额只有线性关系,年均收入风险反感度对人寿保险额有无交互效应不得第26页/共149页2023/5/5

9、27而知。为此,研究者选用二元二次多项式回归模型并检验交互效应和风险反感度的二次效应。第27页/共149页2023/5/528 序号序号x1x2y166.297196240.964563372.99610252445.01684557.2044126626.852514738.122449835.84649975.79692661037.4085491154.37621051246.1867981346.134771430.3663141539.065561679.3812451752.76681331855.9166133数据表第28页/共149页2023/5/529 为了清楚地看到各项对回

10、归的贡献,使显著性检验更加明确,采用逐个引入自变量的方法。首先由x1和x2的值求出的值,然后用下列方法依次引入变量 :先选入y和x1,然后下一张,再选入x1,x2,然后再下一张,再选入 2023/5/530 以此类推。方差分析表如下:第30页/共149页2023/5/531 根据下列公式计算得偏F统计量第31页/共149页2023/5/532 下面检验交互效应和风险反感度的二次效应。因为交互影响项系数显著性检验 的 偏 F值=2.00,临 界 值F(1,2)=4.75,交互影响项系数没通过显著性检验,所以回归模型中不应该包含交互作用项x12。又风险反感度二次效应项的偏F=第32页/共149页2

11、023/5/5330.93,临界值F(1,13)=4.67,也没通过显著性检验,所以回归模型中也不应该包含二次效应项 。类似可验证,项通过显著性检验。综上,最终选用下列回归模型第33页/共149页2023/5/534具体回归方程为 其标准化形式为第34页/共149页2023/5/535 例例10.3 用均匀设计法研究从烤烟中提取粗蛋白的实验条件。目标变量y是提取的蛋白质尝试,三个实验因子分别为:提取液pH值x1,提取时间x2的,提取温度x1。采用U7(73)均匀设计表,试验安排与结果如下表:第35页/共149页2023/5/536 x1x2x3y10.0032.00100.008.501.56

12、8.0080.005.8013.1048.0060.0073.606.0024.0045.002.200.862.0035.008.3012.4040.0020.0019.603.0016.0010.003.50数据表首先做三元线性回归,结果如下:第36页/共149页2023/5/537 线性回归第37页/共149页2023/5/538 显然,回归效果极差。可将所有项选入,然后选择逐步回归法,结果如下:第38页/共149页2023/5/539 逐步回归第39页/共149页2023/5/540 第40页/共149页2023/5/541 第41页/共149页2023/5/542 具体回归方程为 其

13、标准化形式为第42页/共149页2023/5/543 从标准化回归方程中可以看出,四个变量的作用由大到小依次为:。根据回归方程分析,提取时间还有必要延长;提取温度和提取液pH值有交互作用,且系数为正,故较高的温度更有利于提取蛋白;pH值应稍低些更佳。第43页/共149页2023/5/544 由于本例中最好的实验条件是根据前述分析,影响蛋白提取浓度的最主要因素是提取时间,提取时间应在48h以上;提取液pH值是第二重要因素,pH值应比13.10再低些;提取温度应该控制在60C以上。第44页/共149页2023/5/545 类似于例10.3寻找最优生产条件的问题在医药、食品行业较为常见。解决此类问题

14、较适当的方法是将试验设计方法与回归分析方法相结合响应面分析。相关内容见下学期的试验设计与分析课程。第45页/共149页3 非线性回归模型第46页/共149页2023/5/5471.非线性最小二乘估计非线性最小二乘估计 非线性回归模型一般可记为其中 是因变量,是自变量,是未知参数向量,是随机误差项并满足独立同分布假设,即第47页/共149页2023/5/548 如果 ,即为线性模型,且必然有k=p;对于一般情况的非线性模型,参数的数目与自变量的数目并第48页/共149页2023/5/549没有对应关系。对非线性回归模型,估计参数的方法仍为最小二乘法,即求使得达到最小的 ,称为 的非线性最小二乘估

15、计。第49页/共149页2023/5/550 当 f 对 可微时,可以建立正则方程组上述方程组的解即为 。第50页/共149页2023/5/551 正则方程组往往是非线性方程组,没有解析解法,一般用Gauss-Newton迭代法求其数值解。在实际中,可用统计软件完成非线性最小二乘估计。同时,还可以得到近似的参数的区间估计和显著性检验、回归方程的显著性检验等结果。在非线性回归中,平方和分解式第51页/共149页2023/5/552SST=SSR+SSE不再成立。类似于线性回归中的判定系数,定义非线性回归的相关比 相关比也称为相关指数。第52页/共149页2023/5/5532.非线性回归模型的应

16、用非线性回归模型的应用 例例10.4 一位药物学家使用下面的非线性模型拟合药物反应:其中自变量x是药剂量,用级别表示;因变量y是药物反应程度,用百分比表第53页/共149页2023/5/554示。三个参数 均非负。根据专业知识,的上限是100%,三个参数的初始值取为测得9个反应数据如下:请拟合出回归方程。第54页/共149页2023/5/555 数据散点图第55页/共149页2023/5/556 分析-回归-非线性。选y为因变量,录入模型表达式c0-c0/(1+(x/c2)*c1)输入参数及初始值。回归结果如下:第56页/共149页2023/5/557 第57页/共149页2023/5/558

17、 第58页/共149页2023/5/559 从残差和R2可看出,回归的效果较好,回归方程为第59页/共149页2023/5/560 例例10.5 Gompertz模型计量经济学中的一个常用模型,可用来拟合销售量增长。Gompertz模型的形式为其中L为销售量增长上限。下表中给出了某商品销售数据,用Gompertz模型进行拟合。第60页/共149页2023/5/561 数据表年份年份ty196101903196212520196322688196431975196541957196652498196763020196874809196985205197094290第61页/共149页2023/5

18、/562 年份年份ty19711039331972114567197312542919741354261975146137197615652219771673641978177319197918748519801979861981207470第62页/共149页2023/5/563 数据散点图第63页/共149页2023/5/564 由于求解非线性回归最小二乘的 正 则 方 程 组 需 要 用 到 Gauss-Newton迭代法,而迭代法往往是局部收敛的,所以需要选择合适的参数初值。对于随意选定的参数初值,回归的效果并不好。下面给出取特定初值的回归结果。第64页/共149页2023/5/565

19、 第65页/共149页2023/5/566 其实,也可以用Origin进行拟合以获得更好的拟合效果。下面给出采用BiDoseResp函数的Origin拟合结果。第66页/共149页2023/5/567 BiDoseResp拟合图第67页/共149页第11章 含定性变量的回归模型第68页/共149页2023/5/569 在实际问题的研究中,经常遇见一些非数量型变量。例如,性别中的男女;正常年份和干旱年份;战争与和平;改革前后等。非数量型变量称为定性变量。在建立经济问题的回归模型时,常常需要考虑定性变量,如建立粮食产量预测模型时就应考虑正常年份与受灾年第69页/共149页2023/5/570份的不

20、同影响。本章主要介绍自变量含定性变量和因变量含定性变量的回归模型。第70页/共149页1 自变量含定性变量回归模型第71页/共149页2023/5/572 在回归分析中,对自变量是定性变量的情形可先给予数量化处理。处理方法是引进只取0和1两个值的虚拟自变量将定性变量数量化。当某一属性出现时,虚拟变量取值1,否则取值0。1.简单情况简单情况 首先讨论定性变量只取两个可能第72页/共149页2023/5/573值的简单情况。例如,研究粮食产量问题,y为粮食产量,x为施肥量。另外再考虑气候条件,分为正常年份和干旱年份两种情况。令Di=1表示正常年份,Di=0表示干旱年份,回归模型为其中干旱年份的粮食

21、平均产量为第73页/共149页2023/5/574正常年份的粮食平均产量为 这里假设无论正常年份还是干旱年份,施肥量增加一个单位,粮食产量都增加相同的数量 。第74页/共149页2023/5/575 例例11.1 某学者想调查文化程度对家庭储蓄的影响,在一个中等收入的样本中,随机抽查了13户高学历家庭与14户低学历家庭,调查数据如下。因变量y是上年家庭储蓄增加额,自变量x1是上年家庭总收入,自变量x2表示家庭学历,高学历家庭x2=1,低学历家庭x2=0。第75页/共149页2023/5/576 序号序号y/元元x1/万元万元x212352.3023463.2133652.8044683.515

22、6582.6068673.21710852.60812363.41912382.201013452.811123652.301223653.711332564.011432562.90第76页/共149页2023/5/577 序号序号y/元元x1/万元万元x21532653.811632654.611735674.211836583.711945883.502064364.812190475.012279854.202389503.902498654.802598664.6026102354.8027101404.20第77页/共149页2023/5/578 第78页/共149页2023/5/

23、579 第79页/共149页2023/5/580 回归方程为 如果不引入家庭学历定性变量x2,仅用家庭收入x1作一元线性回归,则R2=0.618,残差也较大。这个结果表明,中等收入家庭每 增 加1万 元 收 入,平 均 拿 出3826.13元作为储蓄。高学历家庭每年的平均储第80页/共149页2023/5/581蓄额少于低学历的家庭3700.33元。但如果仅从样本数据考虑,高学历家庭的平均年储蓄增加额为3009,低学历家庭的平均年储蓄增加额为50 59,两者的差为2050,与用回归方程得出的结果差别较大。出现上述差异的原因在于,回归方程假设了所有家庭年收入相等,即第81页/共149页2023/

24、5/582消除了家庭年收入的影响,因而反映了两者储蓄额的真实差异。2.复杂情况复杂情况 当定性变量取n(n2)个值时,可以考虑引入n个0-1型自变量。例如,某商厦策划营销方案,需要考虑销售额的季节影响。为了用定性变量反映春夏秋冬四季,引入了四第82页/共149页2023/5/583个0-1型自变量:但由于这4个变量的和为1,产生了完全多重共线性。解决上述问题的方法是,去掉一第83页/共149页2023/5/584个0-1型变量。通常,定性变量有n类可能时,只需引入n1个0-1型变量。当n=2时,引入一个0-1型变量即可。第84页/共149页2 含定性变量回归模型的应用第85页/共149页202

25、3/5/5861.分段回归分段回归 在实际中,有时会遇见某些变量在不同的影响因素范围内变化趋势截然不同的情形。例如经济问题涉及经济政策有较大调整时,调整前后的变化幅度会有很大不同。对于此类问题,有时用多种曲线拟合效果仍不能令人满意。如果作残差分析,会发现残差第86页/共149页2023/5/587并不随机,而是有一定的系统性。对于此类问题,可考虑用分段回归进行处理。例例11.2 下表给出了某工厂生产批量x与单位成本y的数据,试用分段回归建立回归模型。第87页/共149页2023/5/588 序号序号y/元元x1x212.5765015024.4340034.52400041.398003005

26、4.75300063.555707072.4972022083.774800数据表第88页/共149页2023/5/589 散点图第89页/共149页2023/5/590 从散点图中可以看出,数据的线性性较好,可以用线性回归。线性回归的指标及残差图见后。回归指标显示,回归方程的显著性较高,且不存在自相关性。对残差值与x1的Spearman检验结果表明,也不存在异方差性。第90页/共149页2023/5/591 线性回归指标第91页/共149页2023/5/592 线性回归残差图第92页/共149页2023/5/593 散点图显示,批量超过500后,成本下降的速率似乎变快,所以也可以考虑用分段的

27、方法进行回归。建立回归模型其中第93页/共149页2023/5/594 若引入两个新自变量则原回归模型变为二元线性回归模型此模型可分为两个一元回归模型:当x1500时,当x1500时,第94页/共149页2023/5/595分段回归示意图第95页/共149页2023/5/596 分段回归指标第96页/共149页2023/5/597 从分段回归指标中可以看出,分段回归的效果并不太好。其实,由于 的显著性概率为0.153,没有通过 显 著 性 检 验,即 不 能 认 定 ,换句话说,不能认定本例适用于分段回归。第97页/共149页2023/5/5982.回归系数相等的检验回归系数相等的检验 例例1

28、1.3 在例11.1中,假设高低学历家庭的年收入均相等,即回归斜率 与学历无关。实际上,这个假设是否合理需要检验。检验的方法是引入如下含有交互效应的回归模型第98页/共149页2023/5/599其中,y是上年家庭储蓄增加额,x1是上年家庭总收入,自变量x2表示家庭学历,高学历家庭x2=1,低学历家庭x2=0。此模型可分为两个线性回归模型 高学历家庭x2=1:第99页/共149页2023/5/5100 低学历家庭x2=0:显然,高学历家庭的回归系数为 ,低学历家庭的回归系数为所以检验两个回归方程的回归系数相等,等价于检验交互回归模型中的=0。第100页/共149页2023/5/5101 交互模

29、型回归指标第101页/共149页2023/5/5102 由 于 交 互 项 显 著 性 概 率 为0.247,故 应 接 受 原 假 设,即 认 为 ,在例11.1中,假设高低学历家庭的年收入相等是正确的。第102页/共149页3 因变量是定性变量的回归模型第103页/共149页2023/5/5104 在有些社会经济问题中,因变量只有两个可能结果。这样的因变量也可用虚拟变量表示,虚拟变量的取值可以0或1。例如,给出200个不同年龄和性别的人对某项服务的认可数据,其中,年龄是连续变量,性别是定性变量,男女分别用1和0表示,而观点则为包第104页/共149页2023/5/5105括认可(用1表示)

30、和不认可(用0表示)两个水平的定性变量。试根据数据研究用户对服务的认可度。显然,从简单的图形中很难找到结论。解决此类问题的一种方法就是因变量包括定性变量的回归模型。第105页/共149页2023/5/5106 年龄观点散点图第106页/共149页2023/5/5107 性别观点条形图第107页/共149页2023/5/51081.定性因变量回归方程的意义定性因变量回归方程的意义 在前例中,若将一次调查看成一次Bernoulli试验,则认可度即为试验成功的概率p,只不过这里的p为年龄和性别的函数。下面讨论因变量为定性变量的回归方程的意义。考虑简单线性回归模型第108页/共149页2023/5/5

31、109因为yi是0-1型Bernoulli随机变量,分布律为其数学期望即因变量y的均值为因变量y取1时的概率。第109页/共149页2023/5/51102.定性因变量回归的特殊问题定性因变量回归的特殊问题 常规回归模型如多项式回归不适用于因变量为定性变量的回归方程,原因如下:(1)对于任意给定的自变量值,因变量只取两个值,误差项也只取两个值,自然不满足回归模型的假设。(2)因为第110页/共149页2023/5/5111即随机误差的方差与自变量有关,从而存在异方差。(3)显然,因变量y的均值介于0和1之间,而常规回归模型无法满足这个限制条件。第111页/共149页4 Logistic回归第1

32、12页/共149页2023/5/5113 解决因变量为定性变量回归模型中问题的常用方法是Logistic回归。1.分组数据的分组数据的Logistic回归回归 当数据量较大时,可能不便于提供因变量的所有取值,而只能提供因变量对自变量的汇总数据,称之为分组数据。此时,可采用下列方法进行回归:第113页/共149页2023/5/5114 (1)选用Logistic函数做为回归函数,从而使得回归函数值介于0到1之间。(2)因为没有提供因变量的具体值,加之回归值本身即为某种平均值,所以在此情况下可以用因变量等于1的第114页/共149页2023/5/5115比例做为因变量。下面给出Logistic函数

33、的图形及一个例子,以说明如何进行分组数据的Logistic回归。第115页/共149页2023/5/5116 Logistic图形第116页/共149页2023/5/5117 Logistic图形第117页/共149页2023/5/5118 例例11.4 在一次住房展销会上,与房地产商签订初步购房意向书的共有n=313名顾客。在随后的三个月内,只有一部分顾客确实购买了房屋。购买房屋的顾客记为1,没有购买房屋的顾客记为0。以顾客的家庭年收入为自变量,建立Logistic回归模型。第118页/共149页2023/5/5119 数据表序号序号年家庭年家庭收入收入签订意签订意向人数向人数实际购实际购房

34、人数房人数实际购实际购房比房比逻辑逻辑变换变换权重权重11.52580.32-0.75 5.4422.532130.41-0.38 7.7233.558260.45-0.21 14.3444.552220.42-0.31 12.6955.543200.47-0.14 10.766.539220.56 0.26 9.5977.528160.57 0.29 6.8688.521120.57 0.29 5.1499.515100.67 0.69 3.33第119页/共149页2023/5/5120 数据表中并没有给出每人是否实际购房情况,而是给出了与每个收入对应的签订购房意向及实际购房的汇总数据,即

35、分组数据。可用下列Logistic函数进行回归:第120页/共149页2023/5/5121其中c为分组数据的组数。做Logit变换则Logistic回归方程变为线性模型 对“逻辑变换”和“年家庭收入”做线性回归的结果见下。第121页/共149页2023/5/5122 回归指标第122页/共149页2023/5/5123 回归方程为 当x0=8时,即年收入8万元且签订了购房意向的家庭,其购房概率为0.590。第123页/共149页2023/5/5124 虽然前面的Logistic回归模型解决了定性因变量回归问题,但存在一个缺陷,即没有解决异方差问题。可以用加权最小二乘估计解决异方差问题。可证,

36、权 。第124页/共149页2023/5/5125 加权回归指标第125页/共149页2023/5/5126 用 加 权 最 小 二 乘 得 到 的Logistic回归方程为 当x0=8时,。第126页/共149页2023/5/51272.未分组数据的未分组数据的Logistic回归回归 分组数据的Logistic回归的拟合精度不太高。对于未分组原始数据,可直接用最大似然估计进行Logistic回归。设y是0-1型变量,x1,x2,xp是与 y 相 关 的 确 定 性 变 量,(xi1,xi2,xip;yi)是n组观测值,yi与xi 1,xi 2,xi p的关系第127页/共149页2023/

37、5/5128为其中 由于yi是0-1型随机变量,分布律为第128页/共149页2023/5/5129似然函数取对数,得第129页/共149页2023/5/5130 对于Logistic回归,将代入,得第130页/共149页2023/5/5131 能够使得上式达到最大值的估计值 即为 的最大似然估计。SPSS在Logistic回归中提供了求解上述最大似然估计的功能。第131页/共149页2023/5/5132 例例11.5 在一次关于公共交通的社会调查中,一个调查项目是“乘公交还是骑自行车上下班”。因变量y=1表示乘公交,y=0表示骑自行车,自变量x1是年龄;x2是月收入;x3是性别,x3=1表

38、示男性,x3=0表示女性。数据见下表,建立Logistic回归模型。第132页/共149页2023/5/5133 序号序号性别性别年龄年龄月收入月收入y10188500202112000302385014023950150281200160318500703615001804210001904695011004812000110551800112056210011305818001141188500第133页/共149页2023/5/5134 序号序号性别性别年龄年龄月收入月收入y151201000016125120001712713000181281500019130950120132100

39、0021133180002213310000231381200024141150002514518001261481000027152150012815618001第134页/共149页2023/5/5135 由于月收入不显著,将其剔除后再做回归,结果如下:回归指标第135页/共149页2023/5/5136 此时,年龄、性别均显著,最终的回归方程如下:回归指标第136页/共149页2023/5/5137 因为 随x1,x3的增大而增大,减小,所以年龄越高乘车比例越高,女性乘车比例高于男性。第137页/共149页2023/5/5138 例例11.6 城市的居民家庭,按其有无割草机分为两组,有割

40、草机的一组记为z1,没有割草机的一组记为z2,割草机厂家欲判断一些家庭是否将购买割草机。从z1和z2中分别随机抽取12个样品,调查两项指标:x1表示家庭收入,x2表示房屋前 后 面 积。数 据 见 下 表,建 立Logistic回归模型。第138页/共149页2023/5/5139 数据表z1z2x1x2x1x220.0 9.2 25.0 9.8 28.5 8.4 17.6 10.4 21.6 10.8 21.6 8.6 20.5 10.4 14.4 10.2 29.0 11.8 28.0 8.8 36.7 9.6 16.4 8.8 36.0 8.8 19.8 8.0 27.6 11.2 22

41、.0 9.2 23.0 10.0 15.8 8.2 31.0 10.4 11.0 9.4 17.0 11.0 17.0 7.0 27.0 10.0 21.0 7.4 第139页/共149页2023/5/5140第140页/共149页2023/5/5141第141页/共149页2023/5/5142 第1,2张表是对整个模型的检验,其结果表明模型非常显著。第3张表是Hosmer-Lemeshow检验,检验因变量实际值与预测值的分布是否有显著差异,结果表明不显著,即本例中因变量的实际值与预测值没有显著性差异,模型拟合较好。第4张表是分类矩阵,表明83.3%第142页/共149页2023/5/514

42、3的判断正确。第5张表是模型的系数及检验。由此可得回归模型其中 表示购买割草机预测概率。显然,收入越高、房前屋后土地面积越大,越有可能购买割草机,而第143页/共149页2023/5/5144且房前屋后土地面积对家庭是否购买割草机的影响大于收入的影响。根据回归模型,可以计算出每个观测购买割草机概率的预测值。按照0.5为分界点进行判别分类,结果见下表。第144页/共149页2023/5/5145 序号序号观测组观测组家庭收入家庭收入房前后面积房前后面积预测值预测值预测组预测组残差残差11209.20.175 00.825 2128.58.40.433 00.567 3121.610.80.887

43、 10.113 4120.510.40.716 10.284 512911.80.998 10.002 6136.79.60.992 10.008 71368.80.952 10.048 8127.611.20.992 10.008 9123100.728 10.272 1013110.40.988 10.012 11117110.715 10.285 12127100.910 10.090 观测与预测数据对照表第145页/共149页2023/5/5146 观测与预测数据对照表序号序号观测组观测组家庭收入家庭收入房前后面积房前后面积预测值预测值预测组预测组残差残差130259.80.780 1

44、-0.780 14017.610.40.490 0-0.490 15021.68.60.102 0-0.102 16014.410.20.184 0-0.184 170288.80.583 1-0.583 18016.48.80.029 0-0.029 19019.880.019 0-0.019 200229.20.292 0-0.292 21015.88.20.008 0-0.008 220119.40.015 0-0.015 2301770.001 0-0.001 240217.40.009 0-0.009 第146页/共149页2023/5/5147 从表中可看出,第1,2,13,17个观测出现了误判。第1户收入不高,房前屋后土地面积也不大,但却拥有割草机;第2户房前屋后土地面积最小,也有割草机;第13户收入不低,房前屋后土地面积也大于第1户,但却没有割草机;第17户收入也较高,也没有割草机。第147页/共149页2023/5/5148 可见,正是由于上述观测的特殊 性 导 致 了 误 判。一 般 而 言,Logistic回归模型是能反映观测的共性的。若给定某家庭的收入和房前屋后土地面积,可以根据Logistic回归模型预测其是否会购买割草机。第148页/共149页2023/5/5149感谢您的观看。第149页/共149页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 管理文献 > 管理工具

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁