基于弹性网的信用卡消费情况分析.docx

上传人:叶*** 文档编号:89043149 上传时间:2023-05-05 格式:DOCX 页数:28 大小:250.29KB
返回 下载 相关 举报
基于弹性网的信用卡消费情况分析.docx_第1页
第1页 / 共28页
基于弹性网的信用卡消费情况分析.docx_第2页
第2页 / 共28页
点击查看更多>>
资源描述

《基于弹性网的信用卡消费情况分析.docx》由会员分享,可在线阅读,更多相关《基于弹性网的信用卡消费情况分析.docx(28页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、基于弹性网的信用卡消费情况分析摘要信用卡在能够解决暂时经济问题的同时,也会让人们误解自己生活水平与现实的关系,花钱没有节制。在这个基础上,本文将对信用卡的消费人群的收入、年龄以及透支额度等之间关系进行分析。在这个问题上的统计建模方法,有很多种,大多数都是基于最小二乘法的研究,其中最为经典的当为Robort Tibshirani在1996年的时候提出的方法Lasso。随着对Lasso算法研究的深入,在Lasso的基础上不断衍伸出了更多的算法。Elastic Net就是基于Lasso算法的一种更加优化的算法。而且,当处理一些数据例如微阵列数据的时候,也要比Lasso算法更加优秀。也就是在数据变量中

2、存有组效应的时候,Elastic Net算法能够将所需群变量更加方便的筛选出来。本论文将通过实际有关信用卡数据处理,验证并分析Elastic Net算法要比Lasso算法以及Ridge回归算法在模型变量方面的选择有着更加优秀的表现。关键词:信用卡;统计建模;最小二乘法;Lasso;Ridge回归;Elastic NetIAnalysis on consumption of credit card based on Elastic NetABSTRACTDespite the credit card can solve the temporary economic problems, but i

3、t will let people misunderstand the relationship between the level of life and the reality, and there is no control on spending.On this basis, the paper will analyze the relationship between the income, age and the amount of credit card of the consumer.there are many statistical modeling method in t

4、his problem,most of them are based on the least square method.One of the most classic is Robort Tibshirani proposed the method of Lasso in 1996.With the research of Lasso algorithm deeply studied, more and more algorithms based on Lasso appeared. ElasticNet is a more optimized algorithm based on Las

5、so algorithm.Moreover, when processing some data such as microarray data, it is also more excellent than Lasso algorithm.In the data variable,the Elastic Net algorithm can easily filter the required group variables.This paper will deal with actual data related to credit cards to verify and analyze E

6、lastic Net Algorithm algorithm has a more excellent performance than Lasso and Ridge regression algorithm on the choice of model variables.Keywords: credit card; statistical modeling; least square method; Lasso; Elastic Net; Ridge regressionI目录1.绪论11.1 模型的选择11.2 线性模型21.2.1 普通线性模型21.2.2 广义线性模型41.3 最小

7、二乘法52.Lasso方法82.1 Lasso介绍82.2 Lasso回归的定义92.3 Lasso回归的性质92.4 Lasso回归的程序设计113.Ridge方法113.1 Ridge介绍113.2 Ridge的定义113.3 Ridge回归的性质133.4 Ridge回归程序的设计144.Elastic Net方法144.1 Elastic Net介绍144.2 Elastic Net的定义154.3 Elastic Net回归的性质155.Elastic Net弹性网与Lasso拉索实例解析165.1 Elastic Net运用实例解析165.2 Elastic Net弹性网程序调试1

8、75.3 Elastic Net弹性网与Lasso拉索程序结果分析176.总结20参考文献23III华东交通大学毕业设计1.绪论1.1 模型的选择随着科学技术的发展,数据收集方面的技术也得到了非常大的进步。因此,信息的收集对我们来说也会越来越重要,所以怎么能够将我们所需要的数据从大量的信息中筛选出来也越来越迫在眉睫,这也是我们需要解决的一个重要的问题。统计建模显然是解决这个问题最重要的方法之一。在该模型建立初期,为了能够尽量减少因为缺乏重要自变量而产生的模型的偏差,人们往往会去选择尽量多的自变量参与建模。然而在实际建模的过程中经常需要找到能够对响应变量产生拥有解释性的那些自变量子集,也就是我们

9、所说的模型的选择(或者称为特征选择、变量选择),为了使我们在对模型的解释的时候更加容易,而且我们在对模型进行预测时得到的结果更加精准。所以,我们需要在统计建模的时候就认真地考虑到模型选择这个难题。对于传统的回归以及分类问题,传统的一些方法一般都采用AIC、BIC结合逐步回归来选择最优的模型。而且经过实践也证明了这些方法在这些问题上有着一定的实用性,但是传统的方法在很多方面存在着缺陷:Breiman(1996)就曾经在研究中提出使用这种方法进行模型选择会造成很大的不稳定。Fan(2001)也曾经提出这种算法在计算过程中会存在一定的随机误差,而且针对于一些大型回归、分类问题,它的计算量也是非常大,

10、从而导致计算机也没有办法进行有效计算,并且它的理论性质也会比较难以进行研究。曾经有位统计学方面的学者向boothrap的提出者,也就是斯坦福大学统计学教授Bradley Efrom发出提问,在这个时代统计学范畴中什么是最重要的问题,Bradley Efrom直接回答为模型选择。但是针对这个问题的处理上仅仅是停留在对于AIC信息准则方面的研究,即使前期的统计学家已经对这个准则进行了大量的改进。例如(BIC、RIC、FIC、MDL)。但是当模型中的自变量较多时,信息准则就会因为计算量过于庞大而变得无法解决,而且针对更加高维的相关模型选择问题,这种方法就会无法解决。我们所了解到的模型选择包括这些目标

11、:(1)预测准确;(2)可解释的模型也就是模型中间所选的自变量需要有科学意义;(3)稳定性也就是集中数据的微小改动不会影响到模型的大的变动;(4)应该尽量在假设检验中避免出现偏差;(5)应该控制计算种的复杂度。但是一些传统的方法,例如最优子集选择、逐步回归、主成分回归、岭回归以及偏最小二乘法都只是能够解决其中的部分问题。所以如何能够有效地解决这些问题从而达到统计建模的目的便成为了统计研究学中的热点问题之一。Lasso方法以及其有效算法也就为这些问题提供了一个可行的方法。尤其是Bradley Efrom(2004)提出了最小角回归算法(LARS)便能够很好地攻克Lasso的计算问题,这种算法在计

12、算程度上只是相当于最小二乘回归,它的剔除使得Lasso方法更加广泛的使用,随后有着许多统计学家跟随着Tibshirani的脚步在改进的道路上做出更多的贡献,包括SCAD(2001)、Fused Lasso(2005)、Elastic Net(2005)、Group Lasso(2006)、Adaptive Lasso(2006)以及Relaxed Lasso等方法。即便Lasso基于LARS算法在各个方面都有着很多优秀的表现,但是当n2)对的数据,如果我们把得到的m对数据代到上述线性关系方程中,对a,b进行求解,那么会得到a,b的值无确定解。这个时候我们就要用到最小二乘法,最小二乘法为我们提供

13、了一种全新的求解的方式,它的最基本的思路就是能够寻找到“最接近”所观测到的m个观测点的一条直线,最小二乘法不只是在前人的时候一种非常重要的统计方法,而且将之称作数理统计学的灵魂也不为过。统计学的几大分支,例如对方差的分析、相关回归分析以及线性模型理论等等统计学原理都是把最小二乘法作为基础的理论。当然,一种方法运用再广泛也会有着一定的缺陷,所以为了最小二乘法的进一步发展,很多统计学家对最小二乘法进行了很久的研究来针对最小二乘法的一些缺陷与不足。这时候基于最小二乘法的大量的现代数理统计理论便应运而生了。这也就像是美国的一位统计学家斯蒂格勒(S.M. Stigler)曾经说过的:对于数理统计学来说,

14、最小二乘法的作用就像是在数学中微积分的地位一样。最小二乘法在刚刚进行探索的时候道路是特别的艰辛。最小二乘法的成立拥有者非常多的科学思想。那些科学思想对于现代的统计学理论的创立仍然有着非常重要的启示意义。那么我们在下文中首先介绍一下最小二乘法在过去的历史中的成立过程和创立的人们对最小二乘法的思路想法。18世纪的时候,天文学以及地理学的高速发展对数理统计学和其他与之相关的科学体系的发展起到了很大的方面的促进作用。丹麦的一位统计学家哈尔德曾经对数理统计学的发展对天文学的发展祈祷的作用进行了分析,天文学的发展高速而迅猛,然而却没有相应的统计学理论对所观测到数据进行深层次而且准确的研究作为理论基础。这个

15、时候这些天文学家靠自己进行分析研究,他们便是最早一批的统计学家,他们研究的领域大量涉及到数据的预测以及预报,这些问题也渐渐地衍生出了算术平均还有参数模型中的很对的估计相关方法,直到最小二乘法的出现才到达了一个最高峰。这也能很好地说明出最小二乘法在统计学以及天文学中非常重要的地位。最小二乘法的出现,最早是在勒让德于1805年发表的一篇著作中,但是它勒让德只是简单的介绍了最小二乘法的思想、好处以及最小二乘法的具体可行性方案。勒让德在它的文章中对最小二乘法的有点进行分析:(1)一般情况下,算术平均值就是最小二乘的特例,也就是说当n=1,=-1,的时候,令,那么就可以得出误差的平方和:对上式进行对x求

16、它的偏导数,那么能令它的和极小的方程应该为,那么上式的解就是:。它也就是对m个数据进行观测得到的算术平均值。(2)假如,所得到的观测值能够全部严格的与所需方程组相符合,那么这个解也一定就是这个方程最小二乘法的解。(3)假如增加或者是修改观测值,那么只需要对得到的方程组进行修改就可以了。举个例子来说明:已知某一种材料在生产的过程中,会有一定的废品产生,而这种材料中的某一种化学成分x与废品率y有关系,下面的表里就是该工厂在生产的过程中x与相对应的y之间的数值:y(%)1.000.90.90.810.60.560.35x(%)3.63.73.83.94.04.14.2我们希望从上表的数据中找出一个y

17、对x的近似公式。解:将上表中的数据在图表中表示,我们会发现数据y与x间的变化几乎接近于一条直线,所以我们尝试选取一次方程ax+b=0来进行表示,我们希望能够通过这些方程,找到那个最适合的a,b值,将方程列出: 3.6a+b-1.00=0 3.7a+b-0.9=0 3.8a+b-0.9=0 3.9a+b-0.81=0 4.0a+b-0.60=0 4.1a+b-0.56=0 4.2a+b-0.35=0我们想要找同时满足上述方程的a,b的值显然是不现实的,将任何的a,b的值代到上述的方程中都会产生一定的误差,那么我们就去找一组数据a,b是上面方程中中的误差的平方和达到最小值,也就是说找到a,b的值使

18、得的值能够最小,在上述中所提到的误差的平方也就是二乘方,所以我们称这种方法为最小二乘法,但是在现实问题中一般不可能只有两个变量,我们对一般的问题就行分析: 下面是一组实系数的线性方程组:这些方程组很可能是无解的,也就是说任何的一组实数都会很可能使得下式不为零。我们想方法来找到一组实数组使得能够最小,这样求解的得到方程组的解,我们称为最小二乘解,将这样的问题称作最小二乘法问题。下面我们对最小二乘法给出证明。主要是使用欧氏空间概念来进行证明最小二乘法的。我们首先将最小二乘法的解需要满足的代数条件给出。可以使:我们需要找到一个最小距离进行证明,可以令(*)=|Y-B|2,我们想要通过使用最小二乘法来

19、找到,而且这组解能够使得Y到B的距离是最短的。 从(*)中,我们了解到Y向量为:我们可以将A中的向量标记作:,利用这些向量生成的子空间可以记做L(),那么向量Y也就成为了L()里面的向量。那么最小二乘法的问题就可以描述为:为了找到一个X能够使得(*)的值最小。根据式(*)=|Y-B|2,也就是为了找出一个向量Y,而且需要满足它到B的距离必须比在L()中的任一向量都要更近,这样也就满足了(*)值的最小。我们可以将Y=AX=设为我们需要找出的那个满足要求的向量,那么就会有:C=B-Y=B-AX,而且这个向量C需要满足与子空间L()垂直,下面我们需要证明的就转移到下式中学过矩阵乘法的知识,我们可以将

20、上述等式改写为矩阵相乘的模式,也就是 。矩阵A也可以由排列组成。那么将上文中的一系列等式可以写为:A(B-AX)=0或者AAX=AB这样我们就可以得出一个代数方程组,而且这个方程是一组线性方程组,还有最重要的是它就是最小二乘解。这个解中的矩阵AA就是最小二乘解的常数矩阵,AB就是最小二乘解的常数项。2.Lasso方法2.1 Lasso介绍在本文中所提及到的Lasso回归是Tibshirani在1996年提出的一种解决线性问题的一种新方法,Lasso回归在线性的最小二乘前提下进行了约束,使得各个系数的绝对值的和小于某一个常数,因为这个约束具有的自然属性,便使得这个回归模型得到的回归系数有的会可能

21、是0,因此会方便我们对变量进行选择、对模型进行解释。下文中将对数据模拟,我们可以发现,Lasso回归模型就如最佳子集选择一样容易解释,而且还同时具有岭回归所类似的稳定性。选择一个一般的线性回归模型,假设我们手中有如下数据,i=1,2,.,N。为了预测变量与响应变量,一般使用最小化残差平方和来得到最小二乘,然而一般的最小二乘估计会有缺点,一方面是预测的精度不够,最小二乘会有高方差性以及低偏移,另外一个方面这个模型不方便解释。拥有了大量的预测因子,我们总是希望能够确定一个最小子集从而来反映出最强的信息。针对最小二乘的缺陷,一些统计学家做出了改进,之后便提出最佳子集选择与岭回归,然而这两个方法同时也

22、有着自身的缺陷。最佳子集是一个离散的过程,即便是有着易于解释的模型,但是当数据有些稍稍的变动时,就会产生出不同的模型,这样就会影响到预测精度;而岭回归模型尽管是比较稳定,只是他不能让某些系数为零,这也造成了模型的难以解释。2.2Lasso回归的定义Breiman对最小二乘进行改进提出了non-negative garotte: (2.2.1)St. 这种方法以最小二乘估计为开始,利用约束收缩因子和从而达到收缩的目的。这样更加方便解释模型。我们可以发现这种方法相比于最佳子集选择会有着更小的预测误差。Lasso类似岭回归是一种收缩方法,但却有着微妙而且重要的区别。Lasso估计的定义如下: (2.

23、2.2)s.t我们将常量通过预测子标准化重新参数化,便是的解,这之后,我们进行拟合不含有截距的这些模型。2.3 Lasso回归的性质性质(1):在式(2.2.2)中,当输入矩阵为一般情况时,Lasso回归系数会没有显示解,然而输入矩阵X是正交的时候,Lasso回归便会有显示解: (2.3.1)式(2.3.1)中的为式(2.2.2)中界限t相应的一一变换,表示的是x正的那部分,具体的关系我们用下图(图2.1)来表示,可以更加直观的看出:图2.1 Lasso回归系数和最小二乘系数间的关系性质(2)Lasso回归的贝叶斯(Bayes)解释:我们利用后验概率密度的方面对Lasso回归做出贝叶斯解释。首

24、先,设先验分布为:,j=1,2,.,p,高斯抽样,i=1,2,.,N。这样Lasso回归估计便是上述后验分布的众数。下面我们来做出证明:证明:可由后验密度函数得:对上式取负对数可得:上式中,于是,可以得到后验密度最大值点:通过以上证明,我们就可以得到,Lasso回归估计可以看做是某一参数后验分布的众数。2.4 Lasso回归的程序设计Lasso least Absolute shrinkage and Selection Operator的简写便是Lasso回归,它是一种最小二乘法改进的算法,它有着更加容易解释的变量选择以及新的收缩方法,在很多领域得到广泛使用。假设定有p个自变量:,和一个因变

25、量,经过n次统计后得到数据表。令是(1,1,.,1)的p维的向量,估计Lasso回归系数的具体步骤:(1)以E=开始,式中=sign(),是线性回归中全局的最小二乘估计:(2)对下式求解; S.t ;(3)对(2)中所求到的是否满足式作出判断;(4)如果(3)中能够满足,那么就令,将上式代入里,作为其中的一行来完成对的更新;(5)重复步骤(2),一直到所求到的能够满足时停止。3.Ridge方法3.1 Ridge介绍我们都了解,回归系数LS估计有着很所优秀的性质,在这些之中最为重要的必定是Gauss-Markov定理。当误差能够服从正态分布时,这时LS估计在所有的无偏估计类中拥有最小方差。这些优

26、良性质奠定了LS估计在众多方法中的重要地位。然而,现代电子计算技术不断地飞速发展,这便使得我们会面临很多的大型回归问题,而且这些回归问题包括很多的自变量,由于自变量较多,有时候这些自变量之间难免会存在一些近似的线性关系,这样可能会导致设计阵X列向量之间近似线性相关,我们将这样的设计称作病态。当设计阵X为病态时,接近于奇异,这样即使LS在线性无偏估计类之中方差最小,然而它的值却非常大,这样也造成LS估计的精度会比较低,会出现很大的不稳定。这时有很多统计学学者对LS估计的改进进行研究,也提出了很多的新的估计。其中最有代表性的就是有偏估计,也就是均值和参数向量不相等的估计。在这些有偏估计中,影响比较

27、大的包括:岭估计(Ridge)、主成分估计、Stein压缩估计以及广义岭估计。本文主要对岭估计进行简单的介绍。3.2 Ridge的定义岭回归(Ridge)是通过对容量的加罚进而达到收缩回归系数的线性回归方法,将岭回归系数定义成极小化惩残差平方: (3.2.1)这里的是用来控制收缩量的复杂度的参数,的值越大,收缩量也会越大,系数便会向零收缩。我们也可以使用另外一种等价的方法来表达岭回归问题: (3.2.2)S.t 上式可以清楚地表达出参数上的约束,式(3.2.1)种的参数 与式(3.2.2)中的参数s存在着一一相对应的关系。但是只要线性回归模型中同时存在较多个相关变量时,系数的确定性就会变差,而

28、且会呈现出高方差性。一个变量的很大的正系数可能会被它相关变量上的类似大小的负系数相抵消。可以在系数上施加上一个约束,式(3.2.2)便可以避免上述现象的发生。将式(3.2.1)改写成矩阵的形式:我们便能够推出岭回归的解为: (3.2.3)上式中,I是一个单位矩阵,需要注意的是,选取二次罚,推出的岭回归解也是y的线性函数。但是当这个解在反演之前,如果将一个正常数添加到的对角线上,这也会使问题变得非奇异,即便说不满秩,这也正是那些统计学家之前引进岭回归的一个奇特动机。传统岭回归的定义是从式(3.2.3)开始的,下面我们从(3.2.1)和(3.2.2)开始诱导,来观测岭回归是怎么解决共线性问题的。3

29、.3 Ridge回归的性质性质(1):由式(3.2.3)可以很容易得知,当X是正交输入的时候,岭回归估计也只是最小二乘估计的一个缩小版本,岭回归估计与最小二乘估计之间具体的关系可以用下图进行表示: 图3.1 当X正交输入,岭回归系数和最小二乘估计之间关系性质(2):假设,i=1,2,.,N,每一个参数,j=1,2,.,p都是独一同步的,而且分布函数服从正态分布N(0,),假定与都是已知的,那么的负对数的后验密度就会正比于式(3.2.1)中大括号内的表达式,式中。下面对上述性质做出证明:证明:可由后验密度函数得:两边同时取负对数可得:式中,。可以得出后验密度最大值点:由以上证明可以得知:岭回归估

30、计为某一个先验分布而且服从正态分布参数的后验分布的众数。这样拉私活岭回归估计是这个后验分布的众数,因为这个分布是高斯分布,那么他也就是后验均值。3.4Ridge回归程序的设计岭回归也称作“脊回归估计”,岭回归估计可以看做是一种进过改进之后的最小二乘估计,它适用在当自变量,.之间的相关性比较强的时候,或者某些个变量变化范围非常小的时候,也就是说线性回归模型里的正规方程系数矩阵接近于奇异矩阵时候的情况。当处于这种情形下时,传统的那些基于最小二乘估计参数的逐步回归分析、多元的线性回归模型,往往得不到我们令我们满意的结果,而且有时候出现的结果和专业知识完全不符合,这时候我们就可以使用岭回归分析的方法来

31、进行分析。使用R语言软件对岭回归进行编程,R语言软件的数值计算能力非常强大,而且也方便对输出结果可视化的程序进行设计,在R语言软件统计工具箱里,功能函数多达200多个,R语言软件操作也比较简便,而且它的可扩充性等许多优点也奠定了它在SAS等类的概率统计所需软件领域之中占据着的重要地位。假设定有p个自变量:,和一个因变量,经过n次统计后得到数据表。令参数k(k0,1),做出估计岭回归系数具体的步骤为:(1) 将自变量原始的数据经过标准化变换,经过变换之后的均值是0,标准差是1。X,Y矩阵分别是Z,K;(2) 对于参数k(k0,1),求解;(3) 将经过标准化变换过的矩阵添加成样本数据,则可以变成

32、:(4) 运用R语言软件里面的Regress函数拟合出来过原点多元的线性回归方程,这样估计出来的回归系数就是岭回归系数;(5) 在程序里面通过使用R语言软件的作图语句Plot绘制出,随着k值的变化趋势,可以找出适合的k值相对应的做为最后得到的岭回归系数。4.Elastic Net方法4.1 Elastic Net介绍在本文中介绍的这种新的选择变量和正则化的方法Elastic Net,是统计学家Hui Zhou提出的对Lasso回归进行分析的一种改进的算法。由上文介绍,最小二乘回归模型在解释变量和预测精度上都有很大的缺点,通过使用加罚来提高精度的用法比较多。上文中提到的Ridge回归方法是使用连

33、续收缩的方法,同时偏最小二乘的方法也在对最小二乘方法的改进上做出很大的贡献。即使如此,也无法在根本上解决掉这个问题,因为总是会让所有的变量处于模型中,这样便不易于解释自变量和因变量之间的关系。即便之后提出的最佳子集选择方法可以较好地解释模型,然而它的精度不高也同时是这种方法的一个缺陷。Tibshirani提出的拉索回归方法(Lasso),这种方法是通过对它的的回归系数加罚的最小二乘回归。通过上文中对Lasso回归的分析,我们可以发现Lasso回归不仅仅能够连续的收缩系数,还能够自动的进行变量的选择。Tibshirani与Fu,W将Lasso回归、Ridge岭回归、以及Bridge桥回归进行了相

34、互的比较,他们发现这三种方法任意一种都无法代替其他的两种方法。而且Frank也在自己文章中详细的介绍了Bridge桥回归算法的优点与缺点。Lasso回归有着很广泛的应用,虽然它在很多数据的模拟方面都有着不错的效果,然而它同样也有着一定的局限性。很多统计学家都发现一个问题,也就是当pn的时候,Lasso并不是一种比较理想的方法。因为Lasso最多是p个变量里面选出来n个变量,这样的话,很明显就会对模型的预测精度产生影响,很可能会对模型的建立导致误导。在下文中我们为了解决上述问题,介绍一种新的回归方法,下面具体来介绍弹性网(Elastic Net)。4.2 Elastic Net的定义假设我们有的

35、数据包括n次观测以及p个变量,而且不失一般性,我们经常假设响应变量y是中心化的,而预测子集X是经过标准化的,也就是以下所表达的:我们对固定的那两个非负数,可以将弹性网准则的目标函数定义如下:式中:。我们令,那么上年的弹性网估计就可以等价为:我们可以称为弹性网罚,这是Lasso回归与Ridge回归罚的凸组合。当的时候就是一个简单的Ridge岭回归,当的时候就是一个简单的Lasso拉索回归,但是它并不是严格凸,在本论文中只考虑0,1)的情形。4.3 Elastic Net回归的性质当pn的时候,在模型中变量会成组的出现,这样的情况的发生,让相关统计学家非常重视,其中有些统计学家试图使用主成分回归分

36、析进行构造并且寻找能够高度相关基因的办法。下文我们将介绍两个重要的引理,通过证明这两个引理,很容易就可以看出来,弹性网回归(Elastic Net)能够方便的选择出那些高度相关的变量。对于式: (4.3.1) 上式中,当不为0时,J()取到正值,下面来看介绍的引理: 引理4.1:假设定,(1) 若是J()严格凸,那么:(2) 若是,那么,而且是上面式子(4.3.1)的另外一个解。这其中: 下面进行证明:首先固定0,,若可以如下来考虑:由于,因此,那么就会有,即使我们知道J()函数是严格的凸的,那么就会,所以也就可以将之最小化为式(4.3.1),这样就会和已知所矛盾,我们便可以得出证明。5.El

37、astic Net弹性网与Lasso拉索实例解析5.1 Elastic Net运用实例解析我们选用一组包含含有人们的Income、Limit、Rating、Cards、Age、Education以及Balance等变量的Credit数据,我们希望通过这个Credit数据对拉索lasso、弹性网Elastic Net两种方法进行对比分析,从而达到能够分析出拉索lasso、弹性网Elastic Net两种方法的优缺点的目的。5.2 Elastic Net弹性网程序调试我们使用RStudio软件对Credit的数据采用拉索lasso、弹性网Elastic Net两种方法进行分析。(1)安装包加载:在使用R语言的时候首先要安装bayesQR、Lasso、Elastic等加载包,可以通过下面语句来实现:install.packages(“bayesQR”),其他几个安装包可以参照这种形式进行加载。(2)数据的读取:我们从所网络得到的公开数据是在excel中打开的,导入R语言程序中需要使用特定的语句进行读取。在R语言中,文件的读取以及写入,常常采用一个命令getwd()进行获取到所需的目录。另外R语言经常可以使用下面方式来进行读取存放在外部工作空间的数据,例如:data、csv等格式的文件。下面介绍一种最常见而且方便的读取方式:read.table(“da

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 工作总结

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁