《《多重线性回归分析》课件.pptx》由会员分享,可在线阅读,更多相关《《多重线性回归分析》课件.pptx(63页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多重线性回归分析多重线性回归分析 制作人:时间:2024年X月CONTENTS目录目录第第1 1章章 简介简介第第2 2章章 数据预处理数据预处理第第3 3章章 变量选择变量选择第第4 4章章 模型优化与评估模型优化与评估第第5 5章章 案例研究案例研究第第6 6章章 总结总结 01010101第第1章章 简简介介 多重线性回归分析多重线性回归分析的概念和应用的概念和应用多重线性回归分析是一种常用的统计分析方法,多重线性回归分析是一种常用的统计分析方法,它可以用于解析多个自变量和一个因变量之间的它可以用于解析多个自变量和一个因变量之间的关系。多重线性回归分析在许多领域都有广泛的关系。多重线性回
2、归分析在许多领域都有广泛的应用,比如经济学、市场营销、医学等。应用,比如经济学、市场营销、医学等。多重线性回归分析的定义多重线性回归分析的定义多个自变量影响因变量自变量自变量多个因变量受自变量影响因变量因变量确定自变量对因变量的影响程度回归回归 多重线性回归分析的应用领域多重线性回归分析的应用领域预测商品价格经济学经济学研究广告投放效果市场营销市场营销预测疾病风险医学医学分析社会经济变化社科社科多重线性回归分析的基本假设多重线性回归分析的基本假设因变量和自变量之间的关系是线性的线性性假设线性性假设每个观测值之间是相互独立的独立性假设独立性假设每个观测值的误差方差是相等的常数方差假设常数方差假设
3、 多重线性回归分析的模型多重线性回归分析的模型y a1x1+a2x2+.+akxk+b一般形式一般形式自变量的系数解释变量解释变量对应于因变量的值截距截距 多重线性回归分析多重线性回归分析多重线性回归分析多重线性回归分析的最小二乘估计法的最小二乘估计法的最小二乘估计法的最小二乘估计法多重线性回归分析中,最小二乘估计法是一种常用的参数估计方法,旨在得到多重线性回归分析中,最小二乘估计法是一种常用的参数估计方法,旨在得到多重线性回归分析中,最小二乘估计法是一种常用的参数估计方法,旨在得到多重线性回归分析中,最小二乘估计法是一种常用的参数估计方法,旨在得到参数使得回归模型的误差平方和最小。参数使得回
4、归模型的误差平方和最小。参数使得回归模型的误差平方和最小。参数使得回归模型的误差平方和最小。最小二乘估最小二乘估计计法法多重线性回归分析的显著性检验多重线性回归分析的显著性检验用来检验模型中的系数是否显著t t检验检验用来检验整个模型的显著性F F检验检验 030102观测值与模型预测值之间的差异残差定义残差定义检查模型是否符合基本假设目的目的正态概率图、残差图、杠杆点等残差残差检验检验影响点检验影响点检验影响点检验影响点检验杠杆点杠杆点敏感度分析(删除法)敏感度分析(删除法)Q Q统计量统计量目的目的目的目的识别异常点、探测敏感性和影响性识别异常点、探测敏感性和影响性提高多重线性回归分析的准
5、确性提高多重线性回归分析的准确性 多重线性回归分析的影响检验多重线性回归分析的影响检验离群点检验离群点检验离群点检验离群点检验CooksCooks距离距离DFFITSDFFITSDFBETASDFBETAS 02020202第第2章章 数据数据预处预处理理 数据清洗数据清洗删除/填充缺失值缺失值处理缺失值处理删除/修复异常值异常值处理异常值处理 数据集成数据集成合并多个数据集数据合并数据合并将数据按某个属性拆分成多个数据集数据拆分数据拆分 数据变换数据变换z-score标准化/小数定标标准化数据标准化数据标准化等宽/等频/聚类离散化数据离散化数据离散化 数据规约数据规约删除某些无用属性属性规约
6、属性规约PCA降维/特征选择数值规约数值规约 缺失值处理缺失值处理缺失值处理缺失值处理缺失值是真实数据中存在的常见问题之一。在统计学和机器学习中,缺失值的缺失值是真实数据中存在的常见问题之一。在统计学和机器学习中,缺失值的缺失值是真实数据中存在的常见问题之一。在统计学和机器学习中,缺失值的缺失值是真实数据中存在的常见问题之一。在统计学和机器学习中,缺失值的存在会导致模型训练和预测的不准确性。常见的解决方法包括删除缺失值和填存在会导致模型训练和预测的不准确性。常见的解决方法包括删除缺失值和填存在会导致模型训练和预测的不准确性。常见的解决方法包括删除缺失值和填存在会导致模型训练和预测的不准确性。常
7、见的解决方法包括删除缺失值和填充缺失值。删除缺失值可能会导致数据量减少,而填充缺失值则需要选择合适充缺失值。删除缺失值可能会导致数据量减少,而填充缺失值则需要选择合适充缺失值。删除缺失值可能会导致数据量减少,而填充缺失值则需要选择合适充缺失值。删除缺失值可能会导致数据量减少,而填充缺失值则需要选择合适的填充方法。的填充方法。的填充方法。的填充方法。数据集成数据集成数据集成数据集成数据集成是将多个数据集合并成一个大的数据集的过程。它可以帮助我们更全数据集成是将多个数据集合并成一个大的数据集的过程。它可以帮助我们更全数据集成是将多个数据集合并成一个大的数据集的过程。它可以帮助我们更全数据集成是将多
8、个数据集合并成一个大的数据集的过程。它可以帮助我们更全面地了解数据,提高模型的准确性。常见的数据集成方法有基于属性的集成和面地了解数据,提高模型的准确性。常见的数据集成方法有基于属性的集成和面地了解数据,提高模型的准确性。常见的数据集成方法有基于属性的集成和面地了解数据,提高模型的准确性。常见的数据集成方法有基于属性的集成和基于实体的集成。基于属性的集成是通过将两个具有相同属性的数据集合并成基于实体的集成。基于属性的集成是通过将两个具有相同属性的数据集合并成基于实体的集成。基于属性的集成是通过将两个具有相同属性的数据集合并成基于实体的集成。基于属性的集成是通过将两个具有相同属性的数据集合并成一
9、个数据集,而基于实体的集成则是通过将具有相同实体的数据集合并。一个数据集,而基于实体的集成则是通过将具有相同实体的数据集合并。一个数据集,而基于实体的集成则是通过将具有相同实体的数据集合并。一个数据集,而基于实体的集成则是通过将具有相同实体的数据集合并。数据标准化数据标准化将数据转换为标准正态分布z-scorez-score标准标准化化通过移动小数点使数据缩小到-1,1小数定标标准小数定标标准化化 030102将数据划分为相同宽度的区间等宽离散化等宽离散化通过聚类将数据划分为若干个类聚聚类类离散化离散化将数据划分为相同数量的区间等等频频离散化离散化特征选择特征选择特征选择特征选择选择与目标变量
10、相关性强的属性选择与目标变量相关性强的属性使用相关系数、卡方检验等方法进行选择使用相关系数、卡方检验等方法进行选择 属性规约属性规约PCAPCAPCAPCA降维降维降维降维通过线性变换将数据转换为新的坐标系通过线性变换将数据转换为新的坐标系选择方差较大的特征构建新的属性选择方差较大的特征构建新的属性总结总结数据预处理是机器学习的重要步骤之一,它能够数据预处理是机器学习的重要步骤之一,它能够清洗、集成、变换和规约数据,使得数据更加适清洗、集成、变换和规约数据,使得数据更加适用于模型训练和预测。合理的数据预处理可以提用于模型训练和预测。合理的数据预处理可以提高机器学习模型的准确性和鲁棒性,从而提高
11、机高机器学习模型的准确性和鲁棒性,从而提高机器学习任务的效果。器学习任务的效果。03030303第第3章章 变变量量选择选择 变量选择的方法和应用变量选择的方法和应用前向选择、后向选择、逐步回归、岭回归、LASSO回归变量选择的方变量选择的方法法模型优化、解决过拟合问题、降低模型复杂度、寻找最优模型变量选择的应变量选择的应用用 逐步回归逐步回归从无到有逐步加入变量,每次加入最优变量,最终得到最优模型向前逐步回归向前逐步回归从全模型开始逐步去除变量,每次去除最不重要的变量,最终得到最优模型向后逐步回归向后逐步回归 岭回归岭回归通过对特征值进行调整,使矩阵变为满秩矩阵,从而解决多重共线性问题岭回归
12、的基本岭回归的基本原理原理处理多重共线性问题、预测分析、数据拟合岭回归的应用岭回归的应用 LASSOLASSO回归回归利用L1正则化对系数进行约束,可以使一些系数变为0,从而实现特征选择LASSOLASSO回归的回归的基本原理基本原理特征选择、过滤噪声数据、解决过拟合问题LASSOLASSO回归的回归的应用应用 030102解决多重共线性问题,对所有变量进行调整岭回归岭回归 特征选择,对某些变量进行约束,可以使某些系数变为0LASSO回回归归LASSOLASSOLASSOLASSO回归回归回归回归利用利用L1L1正则化对系数进行约束正则化对系数进行约束实现特征选择实现特征选择对某些变量进行约束
13、,可以使某些系数变为对某些变量进行约束,可以使某些系数变为0 0有助于降低模型复杂度有助于降低模型复杂度可以用于噪声数据过滤可以用于噪声数据过滤相同点相同点相同点相同点都是一种线性回归方法都是一种线性回归方法都可以用于模型优化都可以用于模型优化 岭回归与岭回归与LASSOLASSO回归的区别回归的区别岭回归岭回归岭回归岭回归对特征值进行调整对特征值进行调整解决多重共线性问题解决多重共线性问题对所有变量进行调整对所有变量进行调整不会将任何特征系数削减为零不会将任何特征系数削减为零可以用于特征提取可以用于特征提取结论结论变量选择是多重线性回归分析中非常重要的一部变量选择是多重线性回归分析中非常重要
14、的一部分,可以优化模型,提高预测精度,解决过拟合分,可以优化模型,提高预测精度,解决过拟合等问题。逐步回归、岭回归、等问题。逐步回归、岭回归、LASSOLASSO回归是常用回归是常用的变量选择方法,各有优缺点,应根据实际情况的变量选择方法,各有优缺点,应根据实际情况选择最适合的方法。选择最适合的方法。变量选择的应用场变量选择的应用场变量选择的应用场变量选择的应用场景景景景变量选择广泛应用于各领域的数据分析和预测问题。例如:金融行业中的信用变量选择广泛应用于各领域的数据分析和预测问题。例如:金融行业中的信用变量选择广泛应用于各领域的数据分析和预测问题。例如:金融行业中的信用变量选择广泛应用于各领
15、域的数据分析和预测问题。例如:金融行业中的信用评级、投资风险分析,医学领域中的疾病诊断和治疗方案选择,工业生产中的评级、投资风险分析,医学领域中的疾病诊断和治疗方案选择,工业生产中的评级、投资风险分析,医学领域中的疾病诊断和治疗方案选择,工业生产中的评级、投资风险分析,医学领域中的疾病诊断和治疗方案选择,工业生产中的质量控制和过程优化等。通过合理的变量选择,可以提高模型的准确性和可解质量控制和过程优化等。通过合理的变量选择,可以提高模型的准确性和可解质量控制和过程优化等。通过合理的变量选择,可以提高模型的准确性和可解质量控制和过程优化等。通过合理的变量选择,可以提高模型的准确性和可解释性,为决
16、策提供有力支持。释性,为决策提供有力支持。释性,为决策提供有力支持。释性,为决策提供有力支持。04040404第第4章章 模型模型优优化与化与评评估估 模型优化模型优化与过拟合和欠拟合的关系模型复杂度的模型复杂度的选择选择L1正则化和L2正则化的区别模型的正则化模型的正则化 交叉验证交叉验证在样本数量较少时的应用留一交叉验证留一交叉验证在样本数量较多时的应用K K折交叉验证折交叉验证 模型评估模型评估均方误差、R方值等模型的性能度模型的性能度量量最小二乘法、最小化均方误差等模型的选择标模型的选择标准准 模型解释与应用模型解释与应用特征重要性分析等模型的解释模型的解释房价预测、销售预测等模型的应
17、用模型的应用 模型复杂度的选择模型复杂度的选择模型复杂度的选择模型复杂度的选择模型的选择取决于模型复杂度和数据集规模。选择复杂度过高的模型可能会导模型的选择取决于模型复杂度和数据集规模。选择复杂度过高的模型可能会导模型的选择取决于模型复杂度和数据集规模。选择复杂度过高的模型可能会导模型的选择取决于模型复杂度和数据集规模。选择复杂度过高的模型可能会导致过拟合,而选择复杂度过低的模型可能会导致欠拟合。正确选择模型复杂度致过拟合,而选择复杂度过低的模型可能会导致欠拟合。正确选择模型复杂度致过拟合,而选择复杂度过低的模型可能会导致欠拟合。正确选择模型复杂度致过拟合,而选择复杂度过低的模型可能会导致欠拟
18、合。正确选择模型复杂度是模型优化的重要一步是模型优化的重要一步是模型优化的重要一步是模型优化的重要一步 留一交叉验证留一交叉验证留一交叉验证留一交叉验证留一交叉验证是在样本数量较少时常用的一种交叉验证方法。对于一个含有留一交叉验证是在样本数量较少时常用的一种交叉验证方法。对于一个含有留一交叉验证是在样本数量较少时常用的一种交叉验证方法。对于一个含有留一交叉验证是在样本数量较少时常用的一种交叉验证方法。对于一个含有n n n n个个个个样本的数据集,留一交叉验证将每个样本分别作为测试集,剩下的样本的数据集,留一交叉验证将每个样本分别作为测试集,剩下的样本的数据集,留一交叉验证将每个样本分别作为测
19、试集,剩下的样本的数据集,留一交叉验证将每个样本分别作为测试集,剩下的n-1n-1n-1n-1个样本作个样本作个样本作个样本作为训练集进行模型训练和测试。这种验证方法虽然十分严谨,但是计算量极大,为训练集进行模型训练和测试。这种验证方法虽然十分严谨,但是计算量极大,为训练集进行模型训练和测试。这种验证方法虽然十分严谨,但是计算量极大,为训练集进行模型训练和测试。这种验证方法虽然十分严谨,但是计算量极大,不适用于样本数量较多的情况不适用于样本数量较多的情况不适用于样本数量较多的情况不适用于样本数量较多的情况 030102度量回归模型拟合的好坏,值越小,模型越好均方误差均方误差 度量模型对数据拟合
20、的程度,值越接近1,拟合程度越好R方方值值模型的正则化模型的正则化正则化是一种防止模型发生过拟合的常用方法。正则化是一种防止模型发生过拟合的常用方法。L1L1正则化通过对模型参数的绝对值加惩罚,使得正则化通过对模型参数的绝对值加惩罚,使得模型参数中一些不重要的特征系数趋向于模型参数中一些不重要的特征系数趋向于0 0;L2L2正则化通过对模型参数的平方和加惩罚,使得模正则化通过对模型参数的平方和加惩罚,使得模型参数的值较小,从而避免过拟合型参数的值较小,从而避免过拟合最小化均方误差最小化均方误差最小化均方误差最小化均方误差均方误差是回归模型中最常用的一种性能度量指标,其最小化可作为模型选择均方误
21、差是回归模型中最常用的一种性能度量指标,其最小化可作为模型选择标准。标准。均方误差对异常值比较敏感,如果数据集中存在一些明显的异常值,均方误差均方误差对异常值比较敏感,如果数据集中存在一些明显的异常值,均方误差可能无法反映模型的真实表现。可能无法反映模型的真实表现。最大似然估计最大似然估计最大似然估计最大似然估计最大似然估计是一种基于概率论的模型选择方法。最大似然估计是一种基于概率论的模型选择方法。该方法假设样本数据服从某种分布,并寻找最具代表性的参数组合该方法假设样本数据服从某种分布,并寻找最具代表性的参数组合正则化正则化正则化正则化正则化是为了防止模型过拟合而采用的一种方法。正则化是为了防
22、止模型过拟合而采用的一种方法。通过加入正则项,对过于复杂的模型进行惩罚,减少模型参数数通过加入正则项,对过于复杂的模型进行惩罚,减少模型参数数量量不同模型的选择标准不同模型的选择标准最小二乘法最小二乘法最小二乘法最小二乘法对于线性回归问题,最小二乘法是常用的一种模型求解方法。对于线性回归问题,最小二乘法是常用的一种模型求解方法。最小二乘法的假设是模型误差服从正态分布,因此该方法对于数据最小二乘法的假设是模型误差服从正态分布,因此该方法对于数据含有较多异常值的情况下会失效。含有较多异常值的情况下会失效。模型解释模型解释模型解释模型解释模型解释是对于模型中各个特征的分析,以便识别出模型中最为重要的
23、特征。模型解释是对于模型中各个特征的分析,以便识别出模型中最为重要的特征。模型解释是对于模型中各个特征的分析,以便识别出模型中最为重要的特征。模型解释是对于模型中各个特征的分析,以便识别出模型中最为重要的特征。特征重要性分析是常用的模型解释方法之一,它使用的方法有决策树、随机森特征重要性分析是常用的模型解释方法之一,它使用的方法有决策树、随机森特征重要性分析是常用的模型解释方法之一,它使用的方法有决策树、随机森特征重要性分析是常用的模型解释方法之一,它使用的方法有决策树、随机森林等林等林等林等 030102通过对房屋面积、房间数等特征的分析,预测房价房价预测房价预测通过对客户消费行为、历史购买
24、记录等特征的分析,对客户进行分类客客户户分分类类通过对销售额、广告投放等特征的分析,预测销售量销销售售预测预测 05050505第第5章章 案例研究案例研究 案例介绍案例介绍本章将介绍一个多重线性回归分析的实际应用案本章将介绍一个多重线性回归分析的实际应用案例。主要包括案例背景和案例目的两个部分。例。主要包括案例背景和案例目的两个部分。数据探索和预处理数据探索和预处理直方图、散点图、箱线图等数据可视化数据可视化缺失值处理、异常值处理、变量转换等数据清洗和变数据清洗和变换换 数据可视化数据可视化数据可视化数据可视化数据探索的第一步是数据可视化,可以使用直方图、散点图、箱线图等来探究数据探索的第一
25、步是数据可视化,可以使用直方图、散点图、箱线图等来探究数据探索的第一步是数据可视化,可以使用直方图、散点图、箱线图等来探究数据探索的第一步是数据可视化,可以使用直方图、散点图、箱线图等来探究数据的分布、关系等特征。数据的分布、关系等特征。数据的分布、关系等特征。数据的分布、关系等特征。030102判断数据是否偏离正态分布33准则准则 判断数据是否超出箱线的范围箱箱线图线图法法变量选择和建模变量选择和建模前向选择、后向选择、逐步回归等变量选择的方变量选择的方法法模型的选择、拟合度检验、残差分析等模型构建和优模型构建和优化化 模型构建和优化模型构建和优化模型构建和优化是多重线性回归分析的核心环节。
26、模型构建和优化是多重线性回归分析的核心环节。模型的选择、拟合度检验和残差分析等都是非常模型的选择、拟合度检验和残差分析等都是非常重要的步骤。重要的步骤。残差分析残差分析残差分析残差分析验证模型的合理性验证模型的合理性通过残差分析可以检验模型的合理性和可靠性,同时也可以发现模型中存在的通过残差分析可以检验模型的合理性和可靠性,同时也可以发现模型中存在的问题问题F F F F检验检验检验检验判断变量是否显著判断变量是否显著判断模型的整体显著性判断模型的整体显著性t t t t检验检验检验检验判断单个变量的显著性判断单个变量的显著性通过通过t t检验可以判断单个变量的显著性,从而筛选出对模型有重要检
27、验可以判断单个变量的显著性,从而筛选出对模型有重要影响的变量影响的变量模型的性能度量模型的性能度量R R R R方方方方反映模型的拟合程度反映模型的拟合程度取值范围为取值范围为0101,值越接近,值越接近1 1,模型拟合效果越好,模型拟合效果越好030102模型中各个变量的系数含义及其影响解释解释 根据模型进行预测和决策应应用用 06060606第第6章章 总结总结 多重线性回归分析的应用和展望多重线性回归分析的应用和展望以市场预测和经济分析为主社会科学领域社会科学领域以物理、化学及生物等学科为主自然科学领域自然科学领域以质量控制和生产管理为主工程学领域工程学领域随着人工智能和大数据技术的发展
28、,多重线性回归在更多领域得到应用未来展望未来展望难点和疑点难点和疑点如何选取最具代表性的自变量进行分析变量选择变量选择如何处理多个自变量间的相关性多重共线性多重共线性如何处理非线性关系的自变量变量间非线性变量间非线性关系关系如何评估模型的预测效果预测效果验证预测效果验证学习建议和参考资料学习建议和参考资料多实践、多反思,根据具体情况选择文献和软件学习建议学习建议多元统计分析、回归分析与实验设计、SPSS软件官方文档参考资料参考资料多重线性回归分析在股票市场预测中的应用、基于多重线性回归的房价预测研究优秀论文推荐优秀论文推荐SPSS、Stata、R优秀软件推荐优秀软件推荐感谢观看感谢观看多重线性
29、回归分析是多元统计分析中的重要方法,多重线性回归分析是多元统计分析中的重要方法,广泛应用于各个领域。本章主要对多重线性回归广泛应用于各个领域。本章主要对多重线性回归分析的应用、未来展望、难点和疑点、学习建议分析的应用、未来展望、难点和疑点、学习建议和参考资料进行了总结。希望本章能够为大家提和参考资料进行了总结。希望本章能够为大家提供一些参考和帮助,感谢观看。供一些参考和帮助,感谢观看。数据分析示例:房数据分析示例:房数据分析示例:房数据分析示例:房价预测价预测价预测价预测假设我们要对某个地区的房价进行预测,可以采集到多个影响房价的自变量,假设我们要对某个地区的房价进行预测,可以采集到多个影响房
30、价的自变量,假设我们要对某个地区的房价进行预测,可以采集到多个影响房价的自变量,假设我们要对某个地区的房价进行预测,可以采集到多个影响房价的自变量,如房屋面积、地段、楼层等。通过多重线性回归分析,我们可以建立房价与自如房屋面积、地段、楼层等。通过多重线性回归分析,我们可以建立房价与自如房屋面积、地段、楼层等。通过多重线性回归分析,我们可以建立房价与自如房屋面积、地段、楼层等。通过多重线性回归分析,我们可以建立房价与自变量之间的关系模型,进而进行预测。变量之间的关系模型,进而进行预测。变量之间的关系模型,进而进行预测。变量之间的关系模型,进而进行预测。多个自变量的特点和影响多个自变量的特点和影响
31、面积越大,房价越高房屋面积房屋面积城市中心地段价格高于郊区地段地段高层房价高于低层楼层楼层 模型模型模型模型B B B B训练集:训练集:R2=0.83R2=0.83测试集:测试集:R2=0.71R2=0.71模型模型模型模型C C C C训练集:训练集:R2=0.92R2=0.92测试集:测试集:R2=0.64R2=0.64模型模型模型模型D D D D训练集:训练集:R2=0.85R2=0.85测试集:测试集:R2=0.72R2=0.72不同模型的预测效果比较不同模型的预测效果比较模型模型模型模型A A A A训练集:训练集:R20.75R20.75测试集:测试集:R2=0.68R2=0.68结尾结尾多重线性回归分析是数据分析中的重要方法,具多重线性回归分析是数据分析中的重要方法,具有广泛的应用和发展前景。希望本章的内容能够有广泛的应用和发展前景。希望本章的内容能够对大家有所帮助,祝愿大家在学术和职业上取得对大家有所帮助,祝愿大家在学术和职业上取得更好的成就。更好的成就。谢谢观看!