《数据挖掘及其应用讲义》线性回归、逻辑回归.ppt

上传人:豆**** 文档编号:25299696 上传时间:2022-07-11 格式:PPT 页数:15 大小:967KB
返回 下载 相关 举报
《数据挖掘及其应用讲义》线性回归、逻辑回归.ppt_第1页
第1页 / 共15页
《数据挖掘及其应用讲义》线性回归、逻辑回归.ppt_第2页
第2页 / 共15页
点击查看更多>>
资源描述

《《数据挖掘及其应用讲义》线性回归、逻辑回归.ppt》由会员分享,可在线阅读,更多相关《《数据挖掘及其应用讲义》线性回归、逻辑回归.ppt(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、 当某种现象的变化及其分布特性清楚后,需分当某种现象的变化及其分布特性清楚后,需分析是什么原因使这种变化发生,或某种现象对其他现象有什析是什么原因使这种变化发生,或某种现象对其他现象有什么影响等。如研究目的在探知两特性值么影响等。如研究目的在探知两特性值 与与 间的相互间的相互关系,如特性值关系,如特性值 可以自由变动,则可用各种测试方法研可以自由变动,则可用各种测试方法研究究 的效应。但假如的效应。但假如 不能自由变动(例如预测台风或不能自由变动(例如预测台风或探求水稻穗与精米重量间的关系等问题时),可利用事先求探求水稻穗与精米重量间的关系等问题时),可利用事先求得的得的 与与 间的关系来推

2、测间的关系来推测 值。但对值。但对 与与 间间的关系,需再加解析后才能拟定其相互间的关系。的关系,需再加解析后才能拟定其相互间的关系。 XYXXXXYYXY 回归用以叙述两个或两个以上变量回归用以叙述两个或两个以上变量间的关系。回归分析是以一个或多个自变量描述、间的关系。回归分析是以一个或多个自变量描述、预测或控制特定因变量的分析。回归分析主要在了预测或控制特定因变量的分析。回归分析主要在了解自变量与因变量间的数量关系。主要目的:解自变量与因变量间的数量关系。主要目的: 了解自变量与因变量关系方向及强度。了解自变量与因变量关系方向及强度。 以自变量所建立模式对因变量作预测。以自变量所建立模式对

3、因变量作预测。 回归分析根据自变量个数的不同可以分为:回归分析根据自变量个数的不同可以分为: 简单回归分析。简单回归分析。 多元回归分析。多元回归分析。 回归分析中变量的筛选原则:回归分析中变量的筛选原则: 相关理论或逻辑。相关理论或逻辑。 研究人员探讨变量关系来决定。研究人员探讨变量关系来决定。 回归分析步骤:回归分析步骤: 由分布情况或专业知识,推测变量间的数学模由分布情况或专业知识,推测变量间的数学模型。型。 用最小平方法推导正则方程。用最小平方法推导正则方程。 决定回归方程。决定回归方程。 用图形证明所求的方程曲线与测定值的分布是用图形证明所求的方程曲线与测定值的分布是否一致,以确定所

4、选的数学模型是否全理。否一致,以确定所选的数学模型是否全理。 模型假设及参数估计模型假设及参数估计假设简单回归模型可以用下式表示:假设简单回归模型可以用下式表示: 其中其中 为因变量;为因变量; 为自变量;为自变量; 为误差项;为误差项; 为为回归系数,其中回归系数,其中 为截距项,为截距项, 为模型的斜率。为模型的斜率。 误差项代表我们所拟合的回归直线不可能很理想,误差项代表我们所拟合的回归直线不可能很理想,因此认为因此认为“直线模型直线模型”可能有错,误差项代表可能的错误可能有错,误差项代表可能的错误。回归模型假设的基本思想是误差项来自某一个正态分。回归模型假设的基本思想是误差项来自某一个

5、正态分布布 。严格来说,线性回归模型的基本假设为:。严格来说,线性回归模型的基本假设为: 011,iiiyxiniyxi01、012(0,)N 正态性正态性对任一固定对任一固定 值,值, 服从服从 独立性独立性 和和 间相互独立间相互独立 线性性线性性 是是 的线性函数的线性函数, ,即即 方差齐次方差齐次对于任意的对于任意的 ,有,有 xy2|(,)y xy xY XN u, x y, x| y xux|01y xuxx22| y x多元回归分析 多元回归是简单线性回归的推广,模型多元回归是简单线性回归的推广,模型包含一个因变量和两个或以上的自变量。例如,包含一个因变量和两个或以上的自变量。

6、例如,在研究在研究“销售量销售量 ”的变化时,只考虑的变化时,只考虑“广告广告投资投资 ”可能不够,可能还要再考虑可能不够,可能还要再考虑“销售人销售人员的数量员的数量 ”、“特定产品的价格特定产品的价格 ”、“个人可支配所得个人可支配所得 ”等其他变量,此时采用等其他变量,此时采用多元回归分析是比较适当的。需要注意的是,多元回归分析是比较适当的。需要注意的是,如果因变量是类别变量(例如因变量如果因变量是类别变量(例如因变量“购买意购买意向向 ”为二分变量时,也就是为二分变量时,也就是 表示肯定购表示肯定购买,买, 表示不一定购买),则要采取表示不一定购买),则要采取LogisticLogis

7、tic回归分析。回归分析。 Y1X2X3X4XY1Y 0Y 多元回归分析可以达到以下目的:多元回归分析可以达到以下目的: 了解因变量和自变量之间的关系是否存在,以及该了解因变量和自变量之间的关系是否存在,以及该关系的强度。也就是以自变量所解释的因变量的变异关系的强度。也就是以自变量所解释的因变量的变异部分是否显著,且因变量变异中有多大部分可以用自部分是否显著,且因变量变异中有多大部分可以用自变量来解释。变量来解释。 估计回归方程,求算特定已知自变量的情况下因变估计回归方程,求算特定已知自变量的情况下因变量的理论值或预测值,达到预测目的。量的理论值或预测值,达到预测目的。 评价特定自变量对因变量

8、的贡献,也就是在控制其评价特定自变量对因变量的贡献,也就是在控制其他自变量不变的情况下,该自变量的变化所导至的因他自变量不变的情况下,该自变量的变化所导至的因变量变化情况。变量变化情况。 比较各自变量在拟合中对的回归方程中相对作用的比较各自变量在拟合中对的回归方程中相对作用的大小,寻找最重要的和比较重要的自变量。大小,寻找最重要的和比较重要的自变量。多元回归模型 该模型可以用下面的回归方程来估计该模型可以用下面的回归方程来估计其中,其中, 代表截距,代表截距, 代表回归系数(也就是偏回代表回归系数(也就是偏回归系数),一般都是通过常用的统计软件来估计,归系数),一般都是通过常用的统计软件来估计

9、,统计软件还将同时给出标准的回归系数和对应的标统计软件还将同时给出标准的回归系数和对应的标准误差,这些统计量与简单回归中给出的相应的统准误差,这些统计量与简单回归中给出的相应的统计量的意义是一致的。计量的意义是一致的。 0112233kkYXXXX0i回归变量的选择回归变量的选择 变量的选择原则:变量的选择原则: 依据专家所提出的相关理论,参考相关研依据专家所提出的相关理论,参考相关研 究文献。究文献。 依据研究人员所欲探讨的变量关系来决定。依据研究人员所欲探讨的变量关系来决定。 在建立回归方程时,可能会涉及很多自变量。然而有在建立回归方程时,可能会涉及很多自变量。然而有些变量可能并不重要,太

10、多的变量会促使模型变量过于复杂;些变量可能并不重要,太多的变量会促使模型变量过于复杂;因此,需要对大量的自变量进行必要的筛选,用尽可能少的因此,需要对大量的自变量进行必要的筛选,用尽可能少的自变量去解释因变量中最大比例的变异。自变量去解释因变量中最大比例的变异。逻辑回归逻辑回归 LogisticLogistic(中文称为罗吉斯)回归模型在分析二分(中文称为罗吉斯)回归模型在分析二分类或有序因变量与解释变量的关系。类或有序因变量与解释变量的关系。LogisticLogistic回归模型中,回归模型中,用自变量去预测因变量在给定某个值(如用自变量去预测因变量在给定某个值(如1 1或或0 0)的概率

11、。)的概率。因变量通常是二分类中的一个值或有序变量取值的最小值。因变量通常是二分类中的一个值或有序变量取值的最小值。当因变量有很多不同的值时(如:等距尺度或比例尺度的当因变量有很多不同的值时(如:等距尺度或比例尺度的数据类型时),通常使用简单回归模型而不用数据类型时),通常使用简单回归模型而不用LogisticLogistic回回归模型。对一个二分类的因变量,归模型。对一个二分类的因变量,LogisticLogistic回归模型的形回归模型的形式如下:式如下: 其中,其中, 代表因变量的概率值,代表因变量的概率值, 代表代表 的第一个取的第一个取值,值,* *代表截距参数,代表截距参数, 代表

12、斜率参数的向量,代表斜率参数的向量, 代表解代表解释变量的向量。释变量的向量。 logit( )logitProb(| )*PYy xPyyx 为较好的理解为较好的理解LogisticLogistic模型,我们先介绍模型,我们先介绍logitlogit变换和变换和LogisticLogistic分布,然后再加到分布,然后再加到logisticlogistic回归分析。回归分析。logitlogit变换变换: : 上式变换称为上式变换称为logitlogit变换,是否可以认为是变换,是否可以认为是“log it”log it”(取对(取对 数)的意思。将数)的意思。将 由由 来表示,就得来表示,

13、就得: : 如果如果 是某些自变量是某些自变量 的线性函的线性函数数 ,则,则 就是就是 的下列函数:的下列函数: ( )ln1pppp1epe1,kxxp1,kxxexp1expiiiia xpa x讨论讨论LogisticLogistic回归时,直接从回归时,直接从 式开始。式开始。 其中,其中, 的分布称为的分布称为LogisticLogistic分布。分布。 (1)(1)它的密度函数为它的密度函数为其中其中 式中的式中的p p表示(表示(1 1)式中的)式中的1-F(x),1-F(x),则有则有 exp1expiiiia xpa x,0 1( )1tanh2xF x21( )e1 expxxf x1epeexp1( )1 expxpF xx 相应的相应的 。从这里可以看出。从这里可以看出logitlogit变换与变换与LogisticLogistic分布的关系。当分布的关系。当 时,相应的分布时,相应的分布称称为标准为标准LogisticLogistic分布,它的分布函数分布,它的分布函数 与分布密度与分布密度 为为x 0,1( )F x( )f x21( ),1expexp( ),(1exp)F xxxxf xx

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁