基于PCA-SMOTE-随机森林的地质不平衡数据分类方法——以东天山地球化学数据为例 优先出版.doc

上传人:88****9 文档编号:19564 上传时间:2018-04-21 格式:DOC 页数:9 大小:776.41KB
返回 下载 相关 举报
基于PCA-SMOTE-随机森林的地质不平衡数据分类方法——以东天山地球化学数据为例 优先出版.doc_第1页
第1页 / 共9页
基于PCA-SMOTE-随机森林的地质不平衡数据分类方法——以东天山地球化学数据为例 优先出版.doc_第2页
第2页 / 共9页
点击查看更多>>
资源描述

《基于PCA-SMOTE-随机森林的地质不平衡数据分类方法——以东天山地球化学数据为例 优先出版.doc》由会员分享,可在线阅读,更多相关《基于PCA-SMOTE-随机森林的地质不平衡数据分类方法——以东天山地球化学数据为例 优先出版.doc(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第 37 卷 第 4 期 桂 林 理 工 大 学 学 报 Vol. 37 No. 4 2017 年 11 月 Journal of Guilin University of Technology Nov. 2017 文章编号: 1674 9057( 2017) 04 0587 07 doi: 10. 3969 /j issn. 1674 9057. 2017. 04. 005 基 于 PCA SMOTE 随 机 森 林 的 地 质 不 平 衡 数 据 分 类 方 法 以 东天 山 地球 化 学 数据 为 例 桂 州 ,陈建国 ,王成彬 ( 1. 中国石油大学( 华东) 地球科学与技术学院,山东

2、 青岛 257061; 2 中国地质大学( 武汉) a. 地 质过程与矿产资源国家重点实验室; b. 资源学院,武汉 430074) 摘 要: 基于 PCA 改进 SMOTE 算法,能实现不平衡数据集的均衡化,并以随机森林作为分类器,应用于 地质数据进行分类与预测。因原始数据集中的噪声数据可能会引起插值后的数据分布形态的改变,故提出 结合 PCA 算法与 SMOTE 算法,先进行除噪降维再进行数据插值,改善不平衡数据集的分类性能,并对东 天山化探样本数据进行实验,结果表明,新算法能较好地提高分类精度,为地质不平衡数据的分类与预测 提供新的思路。 关键词: 主成 分分析; SMOTE; 随机森林

3、; 不平衡数据集; 地球化学数据; 除噪 中图分类号: TP181 文献标志码: A 主要原因: 评价 标准不 匹配、少数类 样本 欠缺、 不平衡数据 是指数据集中两类样本的数量明 碎片数据、噪声数据以及归纳偏置不合适。 显失衡,通过两类样本的数量可将样本划分为多 不平衡数据集数据挖掘方面的研究多是从算 数类样本和少数类样 本 ,在地质工 作中,人 法与数据上来处理分类的有偏性问题 。数据上, 们往往根据物化探采样数据进行不同地质单元的 对训练样本集进行重组来使各类数据达到平衡状 划分。在化探数据采样中,通常采用等间距方法, 态,以 Chawla 等 提出的 SMOTE 算法为代表,在 因地质

4、现象本身存在的复 杂差异性,容易造成不 保持样本分布形态的基础上进行插值来使各类别 同地质单元上的样本数目 差别悬殊,因此根据化 数据平衡,以 此达到提高少数类的 分类精度的目 探数据进行地质单元的分类就成为不平衡数据的 的,但产生了少数类样本混入多数类样本数据空间 分类问题。传统分 类算法的关注重心在于多数类, 的现象; Han 等 提出了改进的 Borderline-SMOTE 导致少数类样本的分类精 度大大减低。在地质应 算法; 谷琼 将自适应选择近邻混 合重取样与欠 用中,少数类样本未被 识别,所带 来的损失要远 取样算法结合; 许丹丹等 提出 在少数类样本及 比多数类未被识别的损失大

5、,例如在成矿预测中, 其最近邻少数类样本间构成 n 维球体,进行内部随 有矿样本数目远远低于 无矿样本数目,但地质识 机插 值; 孙晓 燕 等 提出 以遗 传 算 法达 到 过取 别的目标是发现有矿的 少数类样本。不平衡数据 样目的; 还有研究者提出了改进的欠取样方法,如 收稿日期: 2016 07 04 基金项目: 国家科技 支撑计划项 目 ( 2011BAB06B08 2) ; 国 家自然科 学基金项目 ( 41272361) ; 中国 地质调 查局项目 ( 1212011120986) 作者简介: 桂 州 ( 1992) ,女,博士研究生,研究方向: 地学信息处理与分析, 5519343

6、72 qq. com。 通讯作者: 陈建国,博士,教授 , jgchen cug. edu. cn。 引文格式: 桂州,陈建国,王成彬 基于 PCA SMOTE 随机森林的地质不平衡数据分类方法 以东天山地球化学数据为 例 J 桂林理工大学学报, 2017, 37 ( 4) : 587 593 1, 2 2 2 , 0引 言 1 2 1 3 4 5 6 7 588 8 桂 林 理 工 大 学 学 报 2017 年 Condensed Nearest Neighbor ule 、 Neighbor- , , hood Cleaning ule 方法 规则、 One-sided Selection

7、 组合 生成的主要新变量个数少于原变量个数 。 X ( m n) 即 E 、 Tomek Link 。 , Chaw- 目标主成分 设随机变量 mn 均值向量 方法 12 算法等 在算法层面 ( X) = ; 方差矩阵 Var( X) = ,则得到主成分分 la 等 提出的 SMOTE Boost 算法是将 SMOTE 方法 13 析的模型一般式 T 来结 合 标 准 的 SMOTEboostSVM Boosting 过 程; 李 正 欣 等 SMOTE 的 Z1 = a1 X; T 集成方法的思想是将 14 算法 Z2 = a2 X; 嵌入 Adaboost 中; 李江等 利用分形自相似性提

8、 出新 的 重 采样 FXSMOTE 算法,以 及 Adacost 算 法 、 areBoost 算法 、 AucBoost 算法 等。 Zn = anX。 目前,在地质数据挖 掘方面主要使用的统计 式中: Zi( i = 1, 2, 3, ,n) 为对 X 的 ai( i = 1, 2, 学方法有证 据权模型 、 Logistic 回 归 、模糊 3, , n) 线性变换; 矩阵的目标是使 Zj( j = 1, 2, 逻辑 、 人 工神经网 络 、 分形 等 , 随机森 3, , n) 获得最大方差,即获得以 ai( i = 1, 2, 3, 林 是由 Leo Breiman 提出的一种机器

9、学习方法, , , , n) 为约束的优化解决方案: max a a; 因其集中学习 特性 并以 决策树 为基 本分 类器 , st a a = 1。 故对于由决策树引起的过 拟合问题 能够通过该 1.2 SMOTE 算法 方法很好地避 免,删 除异 常值并 去除 噪声 数据, 对于高维数据重要的并行可扩展性可以得到极大 的改进,目前已逐步应 用于地质数据处 理中。区 域地球化学数据的空间结构可能指示了某种地质 过程( 成岩、成矿) 特定的连续性变化特征 。化 探数据的采集通常采用等 间距的较密集方式,抽 样数据所指示的结构性特征是综合多种主要地质 作用的规律性变化特征,其中存在的 次要的、较

10、 弱规律性的地质作用的随机表现就形成了数据噪 声,因此本文探索 PCA SMOTE 随机森林组合算 法。由于 PCA 具有普遍适用性特征,又较多的保 留原始信息, 对多种地质数据进行降维除噪操作, 故本文从解决数据噪声着 手,避免噪声数据的过 度拟合,提出将 PCA SMOTE 算法和随机森林算 法结合,即对所要操作的地质数据进行降维处理, 运用 SMOTE 算法和随机森林方法来解决地质中的 不平衡数据集分类问题。以化探数据区分地层为 例进行应用说明,并利用 F-measure、 OC 曲线和 G-mean 方法对不平衡分类结果进行评价。 1 相关算法 1. 1 PCA PCA 是一种可以 降

11、维数据、获取高维数据的 关键信息的简化处理方法,该方法将信息分解 为相 关性几乎为 0 的低维空间数据,更有利于数据的处 理与解释。其基本原则为信息损失最小,以投影的 方式来获得多变量数据的线性组合以期得到最优 9 10 11 15 16 17 T 18 19 20 21 22 23 T T 24 合成少数类过取样算法( SMOTE) 是假设在邻 近的少数类样本之间仍为少数类样本的一种扩充 少数类数量的算法,该算法的关键思想为在邻近 的少数类样本之间人为制造一个 虚拟的少数类样 本,以期增加少数类 数量获得平衡数 据。该算法 的执行对象为每 一个少数类数据样本 X,获得 K 个距离最小样本,在

12、此基 础上以随机方式获得 N 个样本,这就实现了 对少数类原始数 据样本,进 行 K 个近邻操作获得 N 个样本,之后在当前获得 的样本之间插值。从 空间数据结构 来看,插值过 程就是获得少数类和选中的同类在连线方向上进 行不断 取 样 获 得 新 的 少 数 类 样 本 的 过 程。经 SMOTE 算法过取样后,运用当前的分类器能更好 地泛化少数类样本空 间,使得分类器预测未 知少 数类样本的效果更准 确,从而获得分类器的整体 分类更高精确度 。 Xnew = X + rand( 0, 1) ( M i X) , i = 1, 2, ,N。 new i X 的最近邻 K 个样本中选取的 N

13、个样本 。 SMOTE 在插值过程中,将其近邻都视为同类 近邻,这一过程是基于少数类样本的邻近样本都为 少数类的假设,对于数据分布的真实性考虑欠佳, 因此 SMOTE 算法在插值过程中存在一定盲目性。 1. 3 随机森林 随机森林是由 K 个决策 树基本 分类器 组成, 25 : X ; X ; rand(0, 1) 0 1 ; M 3 第 4 期 桂 州等: 基于 PCA SMOTE 随机森林的地质不平衡数据分类方法 , , 589 通过集成学习模型来获得的解决分类及预测问题 本进行降维处理 去除数据噪声 选择第一主成分 的机器学习分类器,因此决策树的分类结果决定了 随机森林输出结果的优良,

14、过程采用简单投票。 对于 K 个决策树 k 其中: K 为决策树个数; k 为独立同分布向量。 通过自变量 X 进行 K 个决策树的随机分类,获 得分类结果的最优值 。 分类结果描述为 Y i = 1 其中: 决策树组合形成随机森林分类,最终得到的 模型结果为 H( x) ; hi 为每一个决策 树分类得到的 模型结果,以 Y 形式输出。 2 基 于 PCA SMOTE 随 机森 林 的 分类算法 2. 1 算法提出 在处理地质 不平衡数据集的分类与预测问题 上, SMOTE 算法已然 成为当前 研究的热 门算法, 通过研究该算法的插值 方式可得: ( 1) SMOTE 进 行插值时,对少数类

15、的所有样本以随机方式进行 插值操作,可能导致原始数据的分布形态发生改 变,影响分类预测结果; ( 2) 当进行插值的原始数 据样本处于少数 类样本边界,且插值公式中 rand ( 0, 1) 值接近 1,可导致插值结果向多数类样本靠 拢,模糊样本分类边界。 对多维数据分析发现,只有部分条件属性对 的数据处理是重要且有 意义的,过多的属性可能 给当前的分类造成噪声影响。 PCA 对进行高维过 程参数的变化关系处理 效果良好,能去掉噪声冗 余因素,获得关键因 素,更多地关 注对于区分类 别贡献率较大的属性,通过降维处理可以大大提 高特征提取的精度,使得在数据空间分布上位于 类别核心的样本发挥 作用

16、,位于边缘或其他类别 中的本类别样本作用减弱甚至不发挥作用。 本文根据 PCA 与 SMOTE 算法的特征 ,将 PCA SMOTE 算法与随机森林进行结合,对地质数据 中的不平衡数据进行分类和预测应用。 2. 2 算法原理 根据上节中提出的算法存在的 问题,改进方 法是对原始数据插值前,先进行主成分分析,对样 中成分得分较高的样本作为样本数据的输入( 当第 一主成分不足以代表原来 n 个指标的信息,再考虑 选取第二主成分,以此类推) ,去除混入或靠近多 数类中的个别少数类,保证插值后的数据及空间特 征与原始数据集的分布形态的一致性。 2. 3 算法设计 ( 1) 第一主成分的确定。通常,主成

17、分的个数 可以通过累积贡献率或者特征值来确定,根据成分 m ( 2) 进行少数类样本插值。插值公式为 Xnew = Xm + rand( 0, 1) ( Mi Xm) , i = 1, 2, ,N。 new m i 插值的样 本中随机选取的 N 个距离最近样本。 ( 3) 处理插值后的数据集。插值后,若少数 类数据集中的样本比多数类数据集中的样本要多, 则筛除可判定为过度 拟合的样本数据,以数据集 的平衡性作为度量指标。 ( 4) 用随机森林算法对地质数据进行分类预 测操作。对不平 衡地 质数 据集 进行平 衡化 处理, 进行分类或预测,验证算法的实验效果。 2. 4 算法测试 采用 UCI

18、数据库中的 Seg、 glass 以及 wine 数 据集( 表 1) 对算法 进行验证,且选择的数据集均 呈现明显的不平衡现象。 表 1 Seg、 glass 以及 wine 数据集 Table 1 Seg, glass and wine data sets 数据集 样本数 变量数 少数类样本 多数类样本 不平衡比 Seg 2 310 19 330 ( 1) 1 980( 0 ) 6 glass 214 9 45 ( 1) 144( 其他) 3. 2 wine 178 13 59 ( 1) 119( 其他) 2 对 Seg、 glass 以及 wine 数据集进行算法测试, 将数据集对直接初

19、始数据、经 SMOTE 处理数据以 及经 PCA SMOTE 处理数据进行随 机森林分类, 对实验结果的 AUC 值( 3. 3 节将详细说明) 进行分 析( 图 1) , Seg、 glass 以及 wine 数据集在经 PCA SMOTE 处理后,分类结果均表现出优于经 SMOTE 处理后的分类结果。因此,基于 PCA SMOTE 算 法的随机森林算法有 较好的分类性能,可提高少 数类的分类精度。 h( X, ) , k = 1, 2, ,K , 26 k H( x) = arg max ( h ( x) = Y) , 590 桂 林 理 工 大 学 学 报 , 2017 年 均服从对数正

20、态分布 的形态特征 变换,使各变量满足正态分布。 对其进行对数 ( 2) 进行 PCA 降维除噪。在 PCA 算法中,根 , 据累计贡献率或特征 值选取主成分 并以得到的 第一主成分样本矩阵为变量作为 入矩阵。 SMOTE 算法的输 ( 3) 进行 PCA SMOTE 算法的插值。对步骤 图 1 Seg、 glass 以及 wine 数据集实验结果 AUC 值 ( 2) 中得到的输入矩阵进行 SMOTE 插值操作,改 进原 SMOTE 算法进行插值的缺陷,对数据集进行 平衡化处理,使多数类与少数类样本比值为 1。 Fig. 1 AUC value by the experiment resul

21、ts of Seg, glass and wine data sets ( 4) 利用随机森林对平衡后的数据集进行分 类。分 别 对 原 数 据 集、 SMOTE 算 法 处 理 结 果、 3 应 用 PCA 算法处理结果以及 , PCA SMOTE 算法处理结 选取新疆东天山火山 沉积岩层为研究对象, 将样本划分为火山 沉积岩层少数类样本 及其他 地层多数类样 本。东 天山 地处大 陆性 气候 环境, 果进行随机森林分类 评价。 3. 2 评价指标 将分类结果进行对比分析 为典型的内陆干旱荒漠地 球化学景观区, 其基岩 ( 1) 单评估指标。不平衡数据的分类算法学 ( 3) 。 风化程度髙,

22、风沙大,风成沙、风成黄土覆盖严 习结果可以用混淆矩阵 表 来 表示 重 。东天山地区岩层主要为火山 沉积岩区 、侵 表 3 二分类问题的混淆矩阵 入岩区、沉积 变质岩区和覆盖层,火山 沉积 岩中普遍相对富集 Cu、 Au、 As、 Cr、 Co、 Ni 、 Sb、 Cd、 Fe、 Ti、 V 、 Zn、 Mg、 Mo、 Ag 等多 种金属元素, 与区内 Fe、 Cu、 Au、 Ag 等 多 金 属 矿 化 关 系 密 27 Table 3 真实为多数类 真实为少数类 Confusion matrix of binary classification 预测为多数类 预测为少数类 正确多数 TN

23、错误少数 FP 错误多数 FN 正确少数 TP 切 。故本文将火山 沉积 岩区作为研 究对象, 评估指标为 准确率 pre cision = TP/ ( TP + FP) ; 选取 Ag、 As、 Au、 B、 Ba、 Be、 Bi、 Cd、 Co、 Cr 等 39 项化学元素及氧化物,共计 503 个 1 20万土 召回率 recall 2 = TP / ( TP + FN ) ; 壤样本化探数据进行应用测试,由表 2 可知,测 F measure = ( 2 rec all + precision 试数据为典型不平衡数据集 。 G mean = TP TN 。 表 2 Table 2 初始

24、不 平衡数据集 Initial imbalance data sets : TP + FN ; G TN + FP , 数据集 样本数 变量数 少数类样本 多数类样本 不平衡比 其中 为参数 mean 为几何平均准则 该指标综 test 503 39 37 466 8. 2 合考量正确少数类样本在少数类样本中的比重以 及正确多数类样本在多数类样本中的比重,将两者 进行乘积处理获得更加综合客观的指示因子。该指 本次选取的化探数据集包含 39 个变量,属高 维数据集,且各元素变量间存在一定的共生组合, 标同时关注少数类样本与多数类样本的分类精度 。 , 根据矿床统计学,以主成分的贡献率选取代表原

25、对分类的平衡性进行了全面的评价 , G 在对分类器的 始数据集的变量 , 可有效消除变量间自相关性并 分类效果进行判定时 mean 值越大分类效果越好。 + 1) recall precision ; 提高识别精度,故所选取的地球化学数据集适用 于本文 算法。 3. 1 实验步骤 ( 1) 数据集预处理。根据各变量分布直方图 ( 2) OC 曲线与 AUC。 OC 曲线可显示分类 模型的真正率与假正率之间 的关系 ,可从多 角度全方位描述分类器的好坏,克服无法定量分析 的缺陷,引入 OC Area 值 。 AUC 为 OC 曲线下的面积,定义为 28 30 29 第 4 期 桂 1 n+ 州等

26、: n 基于 PCA SMOTE 随机森林的地质不平衡数据分类方法 mean 591 而经过 OC Area( AUC) : n = 2 i =1 j= 1 ; Pr( f( x n i ) f(x j ) ) 。 PCA SMOTE 算 法平 衡 数 据集 后 ,分 类 结 果的 其中 为少数类样本数量 为多数类样本数 G mean = 0. 962, AUC = 0. 90。分 析 得 知, PCA 量; f 为定义分类算法 。可见,模型的预测效果越好 SMOTE 算法的分类效果较其他两种算法的分类效 时, OC Area 值越接近 1,以此评判分类性能。 3. 3 结果及分析 本研究中的

27、实验是运用 语言完成的 。 果显著提高 的。 ,这表明本文提出的算法改进是有价值 获得训练集和测试集,为达到数据平衡状态对 训练集运 用 PCA SMOTE 算法,以随机森林为分 类器分 类。同 时,对 训练 集 进 行直 接 样 本分 类、 SMOTE 算法处理后分类、 PCA 算法处理后分类,并 与 PCA SMOTE 分类进行结果对比( 表 4) ,包括 measur e 值、 Gmean值和 OC 曲线图( 图 2) 。 从表 4 可知,如果原始数据集不经任何操作直 mean 0. 783, AUC = 0. 53; 经过 SMOTE 算法平衡数据集 表 4 数据集算法实验结果比较 T

28、able 4 Experiment results of data sets 误判率 误判率 原始数据 0. 013 0. 378 0. 697 0. 53 0. 783 SMOTE 0. 013 0. 351 0. 716 0. 67 0. 800 PCA 0. 024 0. 351 0. 667 0. 79 0. 796 PCA SMOTE 0. 036 0. 041 0. 962 0. 90 0. 962 实验过程中,参数的变化也会引起 SMOTE 和 随机森林结果 的较 大波动。在 随机森 林算 法中, 本实验采用 ntree = 500,由于 SMOTE 方法中的新样 本都 是 插

29、值 得来 的,不 是 真 实样 本,因 此 per- c. over 与 perc. under 应适当选取,避免数据集分类 质量下降,合理提高分类精度。 根据地质数据样 本多、变量广 的特点,将降 维 算法 MDS、 ISOMAP、 LLE 与 PCA 进行 对 比: MDS 在处理共生关系较为密切的元素关系时可能 存在丢失有效 信息的现 象; ISOMAP 和 LLE 在处 理大样本数据集时会 受到一定限制,且对噪声数 据极为敏感。故普适性更高的 PCA 算法更适合改 进 SMOTE 算法,以随机森林为分类器应用到地质 不平衡数据集。 4 结束语 本文将不平衡数据分类问题引入到地质 数据

30、的应用中,恰好满足了人们关注的重心多在于少数 图 2 数据集算法实验 OC 曲线 Fig. 2 OC curve of experiment by data sets , G = 0. 8, AUC = 0. 67; + 31 、 、 F 、 AUC , , G = 多数类 少数类 F G measure mean 592 桂 林 理 工 大 学 学 报 2017 年 类样本 SMOTE ( 有 矿少 数类 或异 常少数 类 ) 的要 求, 且 769 772 12 Chawla N V, Lazarevic A, Hall L O, et al SMOTEBoost: 算法在处理不平衡数据集

31、的平衡性问题上 效果较佳。 ( 1) 在地 质 不平 衡 数据 集 的分 类 中, 运用 SMOTE 算法对数 据集进行平衡处 理的效 果良好, 再增加 PCA 算法后,分类效果得到显著提高。 13 improving prediction of the minority class in boosting C / / Proc of the 7th European Conference on Principles and Prac- tice of Knowledge Discovery in Databases, 2003: 107 119 李正欣,赵林 度 基 于 SMOTEBoost

32、 的 非均 衡数 据集 SVM 分类器 J 系统工程, 2008, 26 ( 5) : 116 119 ( 2) 该 算法 通 过 “先去 噪、后插 值 ” 的方 14 Zhang D M, Liu W, Gong X S, et al A novel improved SMOTE resampling algorithm based on fractal J Journal of Computer- 式,有效避免插值数据后改变原始少数类数据集 分布形态的问题。 ( 3) 在东天山化探数 据分类实验中,得到了 较好的结果,为实际地质不平衡数据应用提供新 的解决途径。 参考文献: 1 Chawl

33、a N V, Japkowicz N, A Editorial: special issue on learning from imbalanced data sets J ACM SIGKDD Explorations Newsletter, 2004, 6 ( 1) : 1 6 2 陶新民 郝思媛 张冬雪 等 不均衡数据分类算法的综述, , , J 重庆邮电大学学报( 自然科学版) , 2013, 25( 1) : 101 110 3 Chawla N V, Bowyer K W, Hall L O, et al SMOTE: syn- thetic minority over-sampl

34、ing technique J Journal of Arti- cial Intelligence esearch, 2002, 16 ( 1) : 321 357 4 Han H, Wang W Y, Mao B H Borderline-SMOTE: a new o- ver-sampling method in imbalanced data sets learning C / / International Conference on Intelligent Computing Springer, Berlin, Heidelberg, 2005: 878 887 5 谷琼 面向非均

35、衡数据集的机器学习及在地学数据处理 中的应用 D 武汉: 中国地质大学 ( 武汉) , 2009 6 许丹丹,王勇,蔡立军 面向不均衡数据集的 ISMOTE 算 法 J 计算机应用, 2011, 31 ( 9) : 2399 2401 7 孙晓燕,张化祥,计华 用于不均衡数据集分类的 KNN 算 法 J 计算机工程与应用, 2011, 47 ( 28) : 143 145, 236 8 Hart P E The condensed nearest neighbor rule J IEEE Transactions on Information Theory, 1968, 14( 3) : 51

36、5 516 9 Laurikkala J Improving identification of difficult small classes by balancing class distribution C / /The 8th Conference on AI in Medicine in Europe: Artificial Intelligence Medieine, 2001: 63 66 10 Kubat M, Matwin S Addressing the curse of imbalanced train- ing sets: one-sided selection C /

37、 / Proceedings of the 14th In- terntional Conference on Machine Leaming, 1997: 179 186 11 Tomek I Two modifications of CNN J IEEE Transac- tions on Systems, Man, and Cybernetics, 1976, 6 ( 6 ) : ational Information Systems, 2011, 7( 6) : 1027 1034 15 Fan W, Stolfo S J , Zhang J, et al AdaCost: miscl

38、assifica- tion cost-sensitive boosting C / /The 16th International Con- ference on Machine Learning( ICML99) , 1999: 97 105 16 Joshi M, Kumar V, Agarwal Evaluating boosting algo- rithms to classify rare classes: comparison and improvements C / /The lst IEEE International Conference on Data Min- ing,

39、 2001: 257 264 17 李跃波,王丽珍 AUCBoost 算法 处理不平衡分类问题 J 云南大学学 报 ( 自然科学 版) , 2007, 29 ( S2) : 313 318 18 Agterberg F P, Cheng Q M Conditional independence test of weights-of-evidence modeling J Natural esources e- search, 2002, 11 ( 4) : 249 255 19 Carranza E J M, Hale M Logistic regression for geologicall

40、y constrained mapping of gold potential, Baguio district, Phil- ippines J Exploration and Mining Geology, 2001, 10 ( 3) : 165 175 20 Luo X, Dimitrakopoulos Data-driven fuzzy analysis in quantitative mineral resource assessment J Computers Geosciences, 2003, 29 ( 1) : 3 13 21 igol-Sanchez J P, Chica-

41、Olmo M, Abarca-Hernandez F Artificial neural networks as a tool for mineral potential map- ping with GIS J International Journal of emote Sens- ing, 2003, 24 ( 5) : 1151 1156 22 Gumiel P, Sanderson D J, Arias M, et al Analysis of the fractal clustering of ore deposits in the Spanish Iberian Pyrite Belt J Ore Geology eviews, 2010, 38 ( 4) : 307 318 23 Breiman L andom forests J Machine Learning, 2011, 45 ( 1) : 5 23 24 徐士宏 地球化学数据中的自相关结构 J 物

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 期刊短文 > 期刊

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁