基于粒化-融合的海量高维数据特征选择算法-冀素琴.pdf-淘文阁

资源描述

《基于粒化-融合的海量高维数据特征选择算法-冀素琴.pdf》由会员分享，可在线阅读，更多相关《基于粒化-融合的海量高维数据特征选择算法-冀素琴.pdf（8页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第29卷第7期2016年7月模式识别与人工智能PRAIV0129 No7Jul 2016基于粒化一融合的海量高维数据特征选择算法冀素琴石洪波吕亚丽郭珉(山西财经大学信息管理学院太原030006)摘要基于粒计算视角，提出粒化一融合框架下的海量高维数据特征选择算法运用BLB(Bag of Little Bootstrap)的思想，首先将原始海量数据集粒化为小规模数据子集(粒)，然后在每个粒上构建多个自助子集的套索模型，实现粒特征选择，最后，各粒特征选择结果按权重融合、排序，得到原始数据集的有序特征选择结果人工数据集和真实数据集上的实验表明文中算法对海量高维数据集进行特征选择的可行性和有效性

2、关键词海量高维数据，特征选择，粒计算，套索(LASSO)中图法分类号TP 31113 DOI 1016451jcnkiissnl003-6059201607002引用格式冀素琴，石洪波，吕亚丽，郭珉基于粒化一融合的海量高维数据特征选择算法模式识别与人工智能，2016，29(7)：590597Feature Selection Algorithm Based onGranulation-Fusion for Massive High-Dimension DataJI Suqin，SHI Hongbo，Lt2 Yali，GUO Min(Faculty of Information Manageme

3、nt，Shanxi University of Finance and Economics，Taiyuan 030006)ABSTRACTFrom a granular computing perspective，a feature selection algorithm based on granulation-fusion formassive and high-dimension data is proposedBy applying bag of little Bootstrap(BLB)，the originalmassive dataset is granulated into s

4、mall subsets of data(granularity)，and then features are selected byconstructing multiple least absolute shrinkage and selection operator(LASSO)models on eachgranularityFinally，features selected on each granularity are fused with different weights，and featureselection results are obtained on original

5、 dataset through orderingExperimental results on artificialdatasets and real datasets show that the proposed algorithmis feasible and effective for massivehigh-dimension datasetsKey Words Massive High-Dimensional Data，Feature Selection，Granular Computing，Least AbsoluteShrinkage and Selection Operato

6、r(LASSO)$国家自然科学基金项目(No60873100)、山西省自然科学基金项目(No20140110222，20130110164)、中国博士后科学基金面上项目(No2016M591409)资助Supposed by National Natural Science Foundation of China(No60873 100)，Natural Science Foundation of Shanxi Province(No201401 10222，201301 10164)。General Program of China Postdoctoral Science Foundati

7、on(No2016M591409)收稿日期：20160208；修回日期：20160415；录用日期：20160421Manuscript received February 8，2016；revised April 15，2016；accepted April 21，2016万方数据第7期冀素琴等：基于粒化一融合的海量高维数据特征选择算法 591Citation JI S Q，SHI H B，L0 Y L，GUO MFeature Selection Algorithm Based on GranulationFusion for Massive HighDimensional DataPa

8、uem Recognition and Artificial Intelligence，2016，29(7)：590597特征选择作为数据分析、挖掘的预处理步骤之一，广泛应用于机器学习、模式识别等领域。7 J随着网络和数据采集技术的飞速发展，具有超高维数和海量规模的数据集不断涌现超高维数据通常具有大量冗余、无关特征，使得特征选择变得更重要而数据的海量规模极大影响特征选择的计算效率，有时普通微型计算机甚至无法装入全部数据因此，探索更高效、可行的面向海量高维数据的特征选择算法具有重要的理论和现实意义粒计算理论研究大数据分析的非精确解，在保证数据价值的前提下，缩小数据规模，将问题的输人从原始大数据集

9、转换为多个信息粒，大幅降低数据量旧J。应用粒计算理论进行大规模数据处理受到众多研究者的关注Yang等一1利用聚类技术粒化云平台上的大数据，在降低数据信息损失的同时，提高时间效率和资源利用率Ruan等叫针对大规模时间序列数据，使用模糊信息粒化方法进行粒化，在粒上运用支持向量机进行回归分析和预测，提高时间序列数据分析的速度Liang等1基于粒计算思想，运用随机抽样理论计算整个数据集上的方差，确定子集(粒)的规模，将大规模数据集划分成多个粒，在每个粒上进行特征选择，然后合并结果冀素琴等【_在文献5方法的基础上面向海量数据进行属性约减，改进粒化过程，运用分层抽样理论实现大数据集的粒化，减小粒化的计算复

10、杂度受上述研究的启发，本文提出基于粒化一融合的面向海量高维数据的特征选择算法，首先依据Kleiner等刈的BLB(Bag of Little Bootstrap)对海量数据进行粒化，相比文献5方法和文献7方法，大为简化粒化流程，然后在粒上运用目前较为通用的厶范数正则化方法进行特征选择，最后，融合各粒特征选择结果，在提高特征选择稳定性的同时，得到整个数据集上的特征选择结果人工数据集和真实数据集的实验表明本文算法对海量高维数据进行特征选择的可行性和有效性1 相关知识11 BLBBLB3是在经典的统计学抽样方法Bootstrap基础上进行改进的方法，它融合Bootstrap和二次抽样的优点，适合大规

11、模数据统计分析，具有较高的计算效率已知1个包含个数据的数据集X，0为关注的未知统计量从数据集X中无放回地抽取样本，得到P个样本量为商=y(o5r09)的子集茏(p=1，2，P)，在每个样本子集戈。上进行蒙特卡洛模拟，即重复Q轮抽样，每轮抽样有放回地执行次，形成自助子集霹e(g=1，2，Q)，在霹-上计算统计量0的估计值0；，评估每个子集不上得到的Q个估计量0；，结果为弗，最终输出P个子集上的评估结果均值fBLB原理如图l所示，圆括号中符号表示相应的数据集中的数据个数图1 BLB原理Fig1 Principle of BLBKleiner等u指出，BLB继承Bootstrap的理论性质，并从理

12、论上证明其具备渐近一致性和高阶正确性相比Bootstrap，BLB具有许多计算上的优势：只需要重复计算原始数据的小子集，避免Bootstrap进行与原数据等数量级的重复估计计算；数据子集及自助子集的构建过程与数据的具体描述无关同时，BLB只需要较小的计算成本即能达到与Bootstrap同等的计算精度由此可见，运用BLB可以分解海量规模数据，形成较小规模的数据子集(粒)，进而在粒上实现相应的数据分析和处理换言之，基于BLB对海量数据进行粒化处理可行12 套索经典的特征选择方法，如最小信息准则(Akaike Information Criterion，AIC)、贝叶斯信息准则(Bayesian I

13、nformation Criterion，BIC)等无法万方数据模式识别与人工智能第29卷达到海量高维数据分析建模的要求，因为它们需要求解一个NP组合优化问题2|近年通用的套索(Least Absolute Shrinkage and Selection Operator，LASSO)成为解决上述问题的有效工具，LASSO是在回归系数的绝对值之和不超过某一常数的约束下，使残差平方和最小，进而产生一系列严格等于0的回归系数，得到可以解释的模型：台=arg min寺|1 YZXm#。”A 11#I|。，其中Y=(Yl，Y2，Y，v)1为真实标签，X。=(戈1。，戈2。，戈M)1为特征向量，卢R肘

14、为回归系数向量，A0为可M调参数，”0：为L：范数，11 9 0，=I卢。】为厶范数罚LASSO在实现自动特征选择的同时，还能直接估计特征在模型中的权重，相比过滤型和封装型框架下的特征选择，开销锐减，因此，LASSO成为近年备受关注的特征选择工具，这也是本文将LASSO作为粒特征选择算法的原因2粒计算视角下基于粒化一融合的特征选择算法面对海量高维数据带给传统特征选择算法的严峻挑战，基于粒计算视角，文章提出粒化一融合框架下基于BLB和LASSO的特征选择算法该算法主要分为3步：粒化，在粒上进行特征选择，融合各粒特征选择结果21粒化基于粒计算理论对大规模数据集进行特征选择15j，其中粒化过程中运用

15、统计学的随机抽样理论对原始大规模数据集进行拆分，在确定粒的大小时，需要计算整个数据集上的方差，对海量规模的数据集计算成本较高文献7方法实现海量数据属性约简，采用分层抽样理论粒化海量规模数据集在确定粒的大小时，仅需要计算各决策分块(相同类标签的数据为一决策分块)的数据方差，相比文献5方法，在降低计算成本的同时能得到更小的粒上述方法在统计学理论的指导下均能实现对海量数据的粒化，其缺陷是粒化过程需要较高的计算成本本文基于BLB实现海量数据粒化，粒的大小可以根据原始数据集的大小和给定的参数r直接计算得出，这将极大提高海量数据粒化效率，同时大为减少每个粒中包含的数据量，保证后续单机环境下粒特征选择的可行

16、性算法1粒化算法输入样本容量为的数据集x输出P个粒戈。(p=1，2，P)step 1 P=1；while(I x I葡)随机无放回地从x中选取=Nr(05r09)个数据，表示为戈。；X=X一兄；P=P+l：step 2 P=Pl，返回P个粒，算法结束算法1实现粒化过程中涉及参数r，文献11给出r的取值范围，并通过实验得出一般取07较为合理，因此本文实验也采用此值对于粒的个数P，文献11并未给出明确的取值范围为使尽可能多的数据参与到运算中，文中P由数据集规模和粒的大小共同决定，即P=LNNr322 基于套索的粒特征选择在上述粒化操作完成的基础上，实施基于LASSO的粒特征选择LASSO基本思想

17、是通过惩罚回归系数的绝对值之和以压缩回归系数值，使某些特征的回归系数压缩为0，从而去除这些特征以实现特征选择3。Xu等41指出，稀疏算法通常不稳定，最终影响模型的泛化误差而集成学习是提高机器学习稳定性的常用方法因此，依据BLB原理，在每个粒上进行Q轮有放回抽样，每轮抽样执行次，得到Q个自助样本，这些自助样本由于来自同一个粒，既有一定的相似性，又有抽样造成的差异性，实质上就是通过数据扰动形成具有差异性的基学习器最后集成Q个自助样本特征选择结果时，采用将对应特征的系数求取平均值的方式实现，进而得到稳定的粒特征选择结果算法描述如下算法2 基于LASSO的粒特征选择算法输入给定粒X。(p=1，2，P

18、)输出戈。的特征选择结果F。万方数据第7期冀素琴等：基于粒化一融合的海量高维数据特征选择算法 593step 1 在粒毫上得到Q个稀疏解：for 9=1 to Q在粒夏上进行次有放回抽样，生成自助样本集霹；在霹构建LASSO模型，解此模型得到特征选择结果E；step 2 集成Q个稀疏解E，得到粒X。特征选择结果F。：for m=1 to肘将Q个稀疏解中第m维特征系数求平均值；step 3 将M个平均值依次放入特征系数向量step 4 输出F。算法2首先在每个粒上进行Q轮抽样，而每轮抽样都要进行次，实质上是通过蒙特卡洛模拟使自助抽样子集的分布近似于原始数据集的分布与原始数据集相比，该自助子集

19、最多包含个数据，当N=1 000 000，N=J770=3 781，存储空问仅为原存储空间的04，这使后续运用LASSO实现特征选择时计算量减少step 2将O个自助子集上的M维特征选择结果进行集成，缓解直接在粒上运行LASSO造成的解的不稳定性的缺陷实际上，数据集中所有的特征值不可能都是连续型的，还会包括一些离散型特征对于离散型特征，统计学中一般将该离散型特征的各个值转换为一组虚拟特征处理，而这一组虚拟特征在特征选择过程中应该统一保留或剔除此种情况可以采用文献15给出的稀疏组LASSO模型实现粒特征选择23 粒特征选择结果融合上述得到的各粒特征选择结果需要进一步融合，以形成整个数据集的特征选

20、择结果在粒上利用LASSO进行特征选择，由于不同粒上惩罚系数不相等，导致同一特征在不同粒特征选择结果中受到的惩罚程度不同因此，在融合各粒特征选择结果时，考虑每个特征占其所在粒上所有特征回归系数的比重，即将每个粒上特征的回归系数进行归一化处理，消除同一特征在不同粒特征选择结果中因惩罚系数不同而造成的影响最终所有粒特征选择结果中特征的并集构成整个数据的特征选择结果，由不同粒结果中该特征的归一化回归系数相加得到特征系数假如某粒的特征选择结果为特征1、特征2、特征4、特征5，对应的回归系数分别为0。5、04、0。3、18，另一个粒特征选择结果为特征1、特征2、特征3、特征5，对应的回归系数分别为25、

21、08、33、12，那么在融合时，特征1、特征2、特征3、特征4、特征5将作为原数据集特征选择结果，各特征对应的系数为049、024、042、01、075，其中特征1的系数05 25i五百了五函而+曩五百虿函而2049算法3 融合算法输入所有粒特征选择结果F。(p=1，2，P)输出数据集x特征选择结果Fstep 1 F=矽，加。=0(W。为特征fa，m=1，2，M的系数)step 2for m=1 to Mfor P=1 to P对凡中第m维特征系数作归一化处理；累加归一化后的第m维特征系数到w。；step 3 依据W。的值对特征进行降序排列，置入F，step 4 输出数据集x特征选择结果F

22、算法3首先归一化处理每个粒特征选择结果FD中的特征系数，然后将P个归一化后的M维特征系数向量进行相应的累加，得到第m维特征厶的系数W。，最后按其值降序排列，得到原始数据集x的特征选择结果F24算法复杂度分析由上述3个算法分3步实现基于BLB和LASSO的特征选择算法粒化算法的复杂度为O f P帮1，其、，中，P为粒的个数，为粒的大小，低于文献7粒化算法复杂度，因为其直接给出粒的大小，而文献7中决定粒的大小时需要花大量时间计算数据集中各类别下的方差针对基于LASSO的粒特征选择算法，本文采用加速梯度下降法实现LASSO求解过程，复杂度为O(PQ舻屈)，其中，Q为每个粒上万方数据模式识别与人工智

23、能第29卷自助样本的个数，为损失函数梯度的Lipsehitz常数，M为特征数，占为精度要求粒特征选择结果融合的复杂度为O(PM)总之，由于运用BLB，本文算法粒化、融合两步都较为节省时间粒特征选择通过应用加速梯度下降法求解LASSO问题，得到粒的特征选择结果较快3 实验及结果分析31 实验数据及环境为了进一步验证本文算法对海量高维数据特征的选择能力，实验数据集选用人工数据集和UCI数据集，所用UCI数据集的基本信息如表1所示表1 UCI数据集Table 1 UCI datasets设计3个实验实验1在人工生成的数据集上验证本文算法对海量高维数据集进行特征选择的结果的一致性实验2、实验3在6个

24、中大规模的UCI数据集上进行，分别考察本文算法特征选择结果的分类能力及算法进行中大规模数据集特征选择的高效性实验环境为PC机，CPU Core i5 267 GHz，4 GB内存，Windows7操作系统，Matlab编程语言32 实验结果分析实验1 特征选择结果一致性检验采用人工生成数据方便精确对比实验结果与产生数据的真实生成模型为此，先按模型Y=郑+占生成模拟数据集，包含样本量为1 00 000 000，特征维度为1 000，各特征的真实系数向量为(2，1，0，1，一2，0，l，一1，3，5，0，0)，即特征1、特征2、特征4、特征5、特征7、特征8、特征9、特征10共8个特征系数不为0为

25、了选择重要特征，其余特征系数为0，是冗余特征，占一N(0，)为误差噪声，与所有特征独立实验首先将整个数据集作为1个粒进行特征选择，结果显示内存不足采用本文算法对生成的数据集进行粒化、粒特征选择、融合各粒结果，最后得到数据集的特征选择结果，同时将结果与真实值对比实验中参数r=07，即粒的大小N=100000000一=79433粒的个数_P=l刊=1 258，粒上自助抽样次数Q=50实验对比结果如表2所示，表中仅列出前10个特征的选择结果，其余特征回归系数均为0表2 人工数据集特征选择结果Table 2 Feature selection results Oil artificial datase

26、ts特征l 特征2 特征3 特征4 特征5 特征6 特征7 特征8 特征9特征10真值 2 1 0 1 2 0 1 一I 3 5估计值1903 0814 0 08351867 0 08070900 2788 4744实验2 特征选择结果有效性(分类能力)检验实验采用UCI机器学习库中的6个中、大规模数据集，对比算法为单纯应用LASSO(算法A)、基于Bootstrap的LASSO(算法B)，文献7算法(算法C)通过分析4种算法特征选择结果的分类正确率，验证本文算法特征选择的有效性实验分2阶段进行：1)特征选择，2)分类正确率对比结果如表3所示在特征选择阶段，为了公平起见，参照业界对高维数据特征

27、选择个数的讨论，实验限制4种算法特征选择结果：选择30个以内的重要特征表3中特征选择结果为按重要性降序排列的特征序列，黑体表示4种算法特征选择结果中共同的特征项算法A的结果为在原始数据集上执行50次LASSO的平均结果算法B的结果为在原始数据集上执行50次Bootstrap抽样，将50个抽样子集的特征选择结果进行平均所得算法C为运用文献7算法进行特征选择的结果本文算法为按=N(r=07)将原始数据集粒化，在粒上进行Q=50轮自助抽样，进而得到粒特征选择结果，再将各粒结果归一化，加权平均得到最后结果万方数据第7期冀素琴等：基于粒化一融合的海量高维数据特征选择算法 595在Isolet数据集上，

28、特征选择结果的特征数为27个，共有特征个数为23个在Multi-feature pixel数据集上，特征选择结果的特征数为23个，共有特征个数为20个在Musk(Version 2)数据集上，特征选择结果的特征数为28个，共有特征个数为22个在Madelon数据集上，特征选择结果的特征数为30个，共有特征个数为26个Dexter、Gisette数据集在运行算法A时产生内存溢出，在算法B、算法C与本文算法结果中共有特征数分别为27、25这充分说明本文算法可以得到与算法A、算法B及算法c较接近的重要特征，进一步验证本文算法的粒化可行性表3 4种算法在6个数据集上的有效性对比Table 3 Effe

29、ctiveness comparison of 4 algorithms on 6 datasets万方数据596 模式识别与人工智能第29卷为了验证本文算法特征选择结果的分类正确率，使用朴素贝叶斯分类器在每个数据集上分别进行20次实验对于前4个数据集，每次随机选取60的数据作为训练集，其余数据作为测试集，给出平均分类正确率在Isolet、Madelon数据集上，本文算法与其它3种算法的分类正确率相当。在Multi-feature pixel数据集上本文算法的分类正确率明显高于另外3种算法在Musk(Version 2)数据集上，本文算法和算法c的分类正确率相当，明显高于算法A和算法B对于D

30、exter和Gisette这2个大规模数据集，每次随机选取2个粒作为训练集，随机选取第3个粒作为测试集，得出20次实验的平均分类正确率从表中可看出，Dexter数据集上3种算法分类正确率相当，Gisette数据集上本文算法得到的特征选择结果分类正确率最高这同样能说明本文基于粒化一融合策略实现海量高维数据的特征选择的有效性实验3算法高效性检验实验2已证明本文算法能得到与其它算法相当甚至更有效的特征选择结果在此基础上，为了进一步验证本文算法处理大规模数据的高效性，对比本文算法与文献7算法由于2种算法主要步骤在粒化和粒上的特征选择2个阶段，因此表4列出2种算法粒化后粒的大小和粒化时间的对比，同时给出

31、算法总的执行时间对比表4 2种算法在6个数据集上的效率对比Table 4 Efficiency comparison of 2 algorithms on 6 datasets从表4可看出，不同数据集经2种算法粒化处理后，从粒的大小角度无法对比算法的优劣，但从粒化时间可看出本文算法优于算法C，这主要是因为算法c需要通过大量计算以确定粒的大小从算法总的执行时间看，本文算法也远优于算法C，只在个别数据集(Multifeature pixel)上略差这进一步说明本文算法对大规模数据集进行特征选择的高效性由上述实验可得，本文算法能得到海量高维数据集的一个有效特征选择结果需要说明的是，在运用BLB理论时

32、，涉及超参数的选择问题，对于决定粒的大小的参数r，实验中取值为07，采用该值是依据文献1 1的研究结果对于粒的个数P，实验中取值为lI，即让几乎所有的数据都参与到运算L J中对于粒上蒙特卡洛模拟的次数Q，实验中取值为50这些超参数的合理配置应该与具体数据紧密相关，而本文并未对此进行深入分析，今后将会重点研究4 结束语针对海量高维数据给现有的特征选择算法带来的巨大挑战，本文提出基于BLB和LASSO的特征选择算法首先依据粒计算的思想，运用BLB分解海量规模数据集，形成较小规模的粒。然后利用LASSO对具有较高维度的粒数据集进行特征选择，采用BLB在每个子集上进行多轮有放回抽样，同时为了解决LAS

33、SO的不稳定性，在粒上进行多轮有放回抽样，进而将多个自助样本的特征选择稀疏解进行集成，形成稳定的粒特征选择结果最后，将各粒特征选择结果按其回归系数值所占比例进行加权融合，得到原数据集的特征选择结果实际上，粒计算思想不仅可作用于大数据的数据对象粒化，还可考虑特征粒化，下一步将同时展开这2个方向的研究，进一步提高大数据挖掘的处理效率参考文献1谢娟英，谢维信基于特征子集区分度与支持向量机的特征选择算法计算机学报，2014，37(8)：17041718(XIE J Y，XIE W XSeveral Feature Selection Algorithms Basedon the Discernibil

34、ity of a Feature Subset and Suppoa Vector Machines，Chinese Journal of Computers，2014，37(8)：17041718)2 1 YU L，LIU HEfficient Feature Selection via Analysis of Relevance万方数据第7期冀素琴等：基于粒化一融合的海量高维数据特征选择算法 597and RedundancyJournal of Machine Learning Research，2004，5：120512243QIAN Y H，LIANG J Y，PEDRYCZ W，

35、et a1Positive Appmxima-tion：An Accelerator for Attribute Reduction in Rough Set TheoryArtificial InteHigence，2010，174(910)：597-6184鲍捷，杨明，刘会东高维数据的1-范数支持向量机集成特征选择计算机科学与探索，2012，6(10)：948-953(BAO j，YANG M，LIU H DEnsemble Feature Selection Basedon 1-Norm Support Vector Machine for Hiish-Dimensional DataJ

36、ournal of Frontiers of Computer Science and Technology，2012，6(10)：948-953)5LIANG J Y，WANG F，DANG c Y，et a1An Efficient Rough Featare Selection Algorithm with a Multigranulation ViewInternationalJournal of Approximate Reasoning，2012，53(6)：912-9266杨昙，冯翔，虞慧群基于多群体公平模型的特征选择算法计算机研究与发展，2015，52(8)：17421756(

37、YANG T，FENG X，YU H QFeature Selection Algorithm Basedon the Multicolony Fairness ModelJournal of Computer Researchand Development，2015，52(8)：17421756)7冀素琴，石洪波。吕亚丽基于粒计算与区分能力的属性约简算法模式识别与人工智能，2015，28(4)：327334(JI S Q，SHI H B，Lt)Y LAn Attribute Reduction AlgorithmBased on Granular Computing and Discerni

38、bilityPattern Reeognition and Artificial Intelligence，2015，28(4)：327-334)8徐计，王国胤，于洪基于粒计算的大数据处理计算机学报，2015，38(8)：14971517(XU J，WANG G Y，YU HReview of Big Data Processing Basedon Granular ComputingChinese Journal of Computers，2015，38(8)：14971517)9YANG C，ZHANG X Y，ZHONG C M，et a1A SpatiotemporalCompress

39、ion Based Approach for Efficient Big Data Processing onCloudJoumal of Computer and System Sciences，2014，80(8)：1563158310RUAN J H，WANG X P，SHl YDeveloping Fast Predictors for姆ScaleTime Series Using Fuzzy Granular Support Vector MachinesApplied Soft Computing，2013，13(9)：3981-400011KLEINER A，TALWALKAR

40、A，SARKAR P，et a1A SealableBootstrap for Massive DataJournal of the Royal Statistical Society(Series B)，2014，76(4)：79581612张海，王尧，常象宇，等Ll2正则化中国科学：信息科学，2010，40(3)：412422(ZHANG H，WANG Y，CHANG X Y，et a1Ll2 RegularizationScientia Sinica Informationis，2010，40(3)：412-422)13刘建伟，崔立鹏，刘泽宇，等正则化稀疏模型计算机学报，2015，38(

41、7)：13071325(LIU J W，CUI L P，LIU Z Y，et a1Survey on the RegularizedSparse ModelsChinese Joumal of Computers，2015，38(7)：13071325)14XU H，CARAMANIS C，MANNOR SSparse Algorithms Are NotStable：A NoFree-Lunch TheoremIEEE Trans on Pattern Analysis and Machine Intelligence，2012，34(1)：187-19315SIMON N，FRIEDMAN

42、 J，HASTIE T，et 02A Sparse Group LaSSOJournal of Computational and Graphical Statistics，2013，22(2)：231-245作者简介冀紊琴(通讯作者)，女，1972年生，硕士，讲师，主要研究方向为数据挖掘、分布式技术Email：jsq58sinacorn(JI Suqin(Corresponding author)，born in 1972，master，leeturerHer research interests include data mining and distributedtechnology)石

43、洪波，女，1965年生，博士，教授，主要研究方向为机器学习、数据挖掘E-mail：shb710163com(Sill Hongbo，born in 1965，PhD，professorHer researchinterests include machine learning and data mining)吕亚丽，女，1975年生，博士，副教授，主要研究方向为人工智能、数据挖掘E-mail：yali1v2008gmailcorn(LU Yali，born in 1975，PhD，associate professorHer research interests include artificial intelligence and data mining)郭珉，女，1978年生，博士研究生，讲师，主要研究方向为应用统计Email：guomin9617163com(GUO Mill，born in 1978，PhDcandidate，lecturerHer research interests include applied statistics)万方数据

展开阅读全文