《基于DAP_SVDD长春地区未来24小时雾霾预测模型研究_鲁安妮.docx》由会员分享,可在线阅读,更多相关《基于DAP_SVDD长春地区未来24小时雾霾预测模型研究_鲁安妮.docx(59页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、分 类 号 : TP391 研究生学号: 20013534021 单位代码: 10183 密 级:公开 吉 林 大 学 硕士学位论文 基于 DAP-SVDD长春地区未来 24小时雾霾预测模型研究 The Research of Fog-haze Prdiction Model Based on DAP-SVDD Algorithm of Changchun in the Next 24 Hours 作者姓名:鲁安妮 专 业:计算机技术 研究方向:知识工程与知识科学 指导教师:欧阳继红教授 培养单位:计算机科学与技术学院 2016年 4月 未经本论文作者的书面授权,依法收存和保管本论文书面版 本
2、、电子版本的任何单位和个人,均不得对本论文的全部或部分 内容进行任何形式的复制、修改、发行、出租、改编等有碍作者 著作权的商业性使用(但纯学术性使用不在此限 ) 。否则,应承 担侵权的法律责任 吉林大学硕士学位论文原创性声明 木人郑重声明:所呈交的硕士学位论文,是本人在指导教师的指导下, 独立进行研究工作所取得的成果 。 除文中已经注明引用的内容外,本论文 不包含任何其他个人或集体已经发表或撰写过的作品成果 .对本文的研究 做出重要贡献的个人和集体,均己在文中以明确方式标明 本人完全意识 到本声明的法律结果由本人承担。 学位论文作者签名 :奪汹 t 日期: 2016年 S JJW日 基于 DA
3、P-SVDD长春地区未来 24小时雾霾预测模型研究 The Research of Fog-haze Prdiction Model Based on DAP-SVDD Algorithm of Changchun in the Next 24 Hours 作者姓名:鲁安妮 专业名称:计算机技术 指导教师:欧阳继红教授 学位类别:工学硕士 答辩日期: 2016年 月 日 摘要 摘要 基于 DAP-SVDD长春地区未来 24小时雾霾预测模型研宄 随着社会对雾霾天气关注程度的上升,雾霾预测势必成为一个新的研究领域,但目 前针对雾霾天气发生情况尚没有成形完整的理论模型。现有的针对雾霾相似性天气霾以
4、及 PM2.5预报主要利用神经网络建模,但是由于雾霾成因复杂度较高且数据不平衡的特 点,在利用神经网络建立雾霾预报模型时易陷入维数灾害,从而降低预报准确率。 本文针对上述雾霾样本数据特点,提出了一种基于二分法自动搜寻偏向参数的 DAP 聚类与支持向量数据描述 ( SVDD)相结合的建模方法。传统的 AP聚类虽然可以形成 若干个凸型数据簇,但是由于偏向参数选择的随机性使得聚类效果不稳定,无法确定最 优解从而导致最终预测模型分类精度的不稳定。针对这个问题,本文引入二分法,在全 局范围内搜寻偏向参数并通过 Smiouette指标确定最优解,进而得到最优聚类效果。由 于样本数据不平衡导致传统的分类模型
5、很难精准进行预测分类,因此本文选用单分类模 型 SVDD算法作为下游处理器,在各个数据簇上分别建模,最终统一打包封装形成 DAP-SVDD预测模型。具体工作如下: (1) 分析了研宄背景、目的意义及研宄现状 近些年来雾霾天气越来越受到社会的关注, 对人类的日常生活产生了较大的负面影 响,因此若能建立一套雾霾预测系统,精准的预测出雾霾发生情况,则可以方便市民提 前采取预防措施减少不必要的危害。但是目前国内尚没有成型的雾霾预测模型可以应用 到现实生活中以方便人们提前采取措施预防雾霾可能造成的危害。基于雾霾样本数据的 不平衡性,传统的二分类 SVM机器学习模型很难精准的对雾霾发生情况其进行预测, 于
6、是本文系统的了解了常用于故障点诊断的 SVDD算法以及 AP聚类算法之后,发现 SVDD算法在小样本不平衡高维数据集上的分类预测具有较高的准确率,而 AP聚类则 可以自 动生成若干小样本凸型数据集,因此本文将结合二者进行结合与改进,充分发挥 二者的优点。 (2) 提出了基于二分法寻找偏向参数的 DAP-SVDD雾霾预测模型 由于样本数据较大且分布特征不确定,在应用 SVDD预测分类模型之前,需要利用 I _ 摘 要 _ AP聚类算法对其进行聚类且转化成若干个凸型数据簇,以提高预测精准度。而偏向参 数的设定直接影响聚类效果好坏,传统的偏向参数统一选取各样本相似度均值的一半作 为确定值,但是由于每
7、个样本数据集特点不同,导致统一选取固定值会造成聚类实现效 果的不确定性,无法判别其是否为最佳聚类效果。针对这个问题,本文提出了 AP聚类 的改进算法 DAP算法,即利用二分法在参数选取范围内依次代入计算,利用评价指标 评判出最优参数,之后利用 SVDD算法作为下游处理器建立预测模型。 (3) 设计并实现了基于 DAP-SVDD的长春市雾霾预测模型 首先将搜集到的长春地区空气质量数据以及大气污染数据分为测试集和训练集,再 利用 SPSS数据分析软件以及 MATLAB仿真软件对设计好的 DAP-SVDD模型进行训练 建立预测判别建模,之后再利用测试集对模型进行测试得到模型预测准确率。 (4) 雾霾
8、预测结果分析、对比和仿真 在对建立好的 DAP-SVDD预测模型进行仿真并得到预测准确率后,再将样本数据 分别在采用传统偏向参数的 AP-SVDD模型、未进行数据上游处理的 SVDD模型、以及 传统的二分类C-SVM模型进行建模测试,将其测试准确率结果进行比较分析,结果表 明改进后的模型比育有传统模型在训练时间、预报准确率上都有很大提高。 关键词: AP聚类,支持向量数据描述,二分法,雾霾预测 Abstract Abstract The Research of Fog-haze Prdiction Model Based on DAP-SVDD Algorithm of Changchun i
9、n the Next 24 Hours Fog-haze prediction is becoming a new research field with the rising attention of fog-haze weather. But no complete theoretical model has been established until now. Though most of the weather prediction model use neural network method, it will be caught in44dimension disaster5 w
10、hen building fog-haze prediction model. This paper proposes a new clustering method - DAP algorithm which is using dichotomy to search preference according to the characteristics of the fog sample data. Then combines the DAP algorithm with SVDD model to predict the fog-haze weather in the 24 hours l
11、ater. For the number of t4fog-haze day?, is quite smaller than normal day , that leads to the unbalance of the data and a low accuracy. So in this paper, we chose SVDD algorithm to build the prediction model to solve the unbalance problem. And we use AP algorithm as a pretreatment method to rise the
12、 accuracy. Details are as follows: Introduce the research background purpose significance and the research status of the papers. Fog-haze weather receives more and more attention in recent years, it has a great negative impact on peopled health traffic produce and so on. So if we could build a fog-h
13、aze prediction model to forcast this weather. It will be very convenience for people to take measures to reduce the unnecessary harm.But there has no complete model for people to use. Because of the imbalance of data, traditional SVM machine learning can not predict accurately. So ater we study the
14、algorithm of SVDD and SVM, find that the SVDD algorithm do well in predicting and classing the small sample and imbalance data. What5s more, AP clustering will turn the big sample data into some Convex type of small sample data set. From what has been discussed above, this article put these two meth
15、ods together and improve it could Give full play to the advantages of both. Proposed DAP-SVDD fog-haze prediction model which is based dichotomy to search preference. Before building the Classification model with SVDD algorithm, we should use AP HI Abstract clustering algorithm to get some mall data
16、 cluster to improve the prediction accuracy. Clustering results have much to do with preference, traditionally, we set the preference as half of the similarity matrixs mid-value. But as we know, every sample has its own trait, choose the fixed value will lead to the uncertain results of clustering,
17、we could not sure if this is the best clustering results. In order to solve this problem, this article introduce dichotomy on the basis of AP clustering tofind the best preference in order to get the best clustering results. We named it DAP algorithm, then we choose SVDD algorithm as Downstream proc
18、essors to build the prediction model. Design and implement DAP-SVDD fog-haze prediction model of Changchun . Firstly, dividing the air quality data and the atmosphere pollution data of Changchun area into test and training two sets. Then training DAP-SVDD model with SPSS data analysis software and M
19、ATLAB software to establish the prediction model. Finally we get the model prediction accuracy with the set of test data. The analysis and compare of the result of prediction model. After making the simulation and getting the accuracy of DAP-SVDD prediction model, we use the method of comparison to
20、valid the fesibility of this model. Using the data to establish a AP-SVDD models SVDD model C-SVM model, then using the test data set to get the accuracy of each model. From the results we can easy sea that DAP-SVDD in dealing with fog-haze prediction problem have the best accuracy and the fastest e
21、fficiency. Keywords: Affinity Propagation ? Support Vetor Domain Description ? dichotomy ? Fog-haze prediction IV 目录 目录 第 1 章绪 论 . 1 1.1研宄背景 . 1 1.1.1研宄意义及目的 . 1 1.1.2研究现状 . 2 1.2本文工作 . 3 第 2章 背 景 知 识 简介 . 4 2.1 主成分分析方法 (Principal Component Analysis, PCA) . 4 2.2聚类分析方法 . 7 2.2.1聚类分析一般原理 . 7 2.2.2 AP
22、 聚类 . 9 2.3遗传算法基本原理 . 11 2.4 SVDD方法概述 . 14 2.4.1支持向量数据描述 . 14 2.4.2核函数 . 16 2.4.3支持向量描述学习的实现算法 . 17 2.5本章小结 . 19 第 3 章基于 DAP-SVDD雾霾预测模型设计 . 20 3.1建模方法的选择 . 20 3.2 改进 AP-SVDD 算法 DAP-SVDD . 21 3.2.1 DAP-SVDD 算法 . 21 3.2.3算法的实现 . 22 3.3基于 DAP-SVDD雾霾预测系统结构 . 23 3.4基于 DAP-SVDD雾霾预测模型设计流程 . 24 I _ 目 录 _ 3.
23、4.1数据预处理 . 24 3.4.2 DAP-SVDD 模型实现 . 25 3.5本章小结 . 30 第 4章 DAP-SVDD模型在长春未来 24h雾霾天气预测中的应用 . 31 4.1研宄 I、司题描述 . 31 4.2基于 DAP-SVDD长春地区雾霾预测模型的训练 . 31 4.2.1样本数据选取 . 31 4.2.2样本数据预处理 . 32 4.2.3 DAP-SVDD模型各训练参数设置 . 35 4.2.4 DAP-SVDD预测模型训练、 . 38 4.3基于 DAP-SVDD长春地区雾霾预测模型的仿真及分析 . 39 4.3.1基于 DAP-SVDD长春市雾霾预测模型测试实验
24、. 39 4.3.2基于 DAP-SVDD长春市雾霾预测模型结果分析 . 39 4.3.3基于 DAP-SVDD长春市雾霾预测模型结果对比 . 40 4.3.4基于 DAP-SVDD长春市雾霾预测模型仿真 . 42 4.4本章小结 . 43 第 5 章结论与展望 . 45 5.1结论 . 45 5.2进一步工作 . 45 参考文献 . 47 作者简介及在学期间所取得的科研成果 . 49 至夂 i射 . 50 第 1章绪论 第 1 章绪论 1.1研究背景 从 2013年伊始, “ 雾霾 ” 一词便逐渐走入人们的生活, 2014年 1月 4日,国家首 次将雾霾天气纳入自然灾情进行通报, 2015年
25、 11月 18日在环保部 74个城市空气质量 倒数排名榜中,长春位列第二。严重的雾霾天气已经对人们的身体健康、日常出行造成 了较为严重的影响,因此,建立一套针对长春地区的雾霾预测系统,使得市民可以提前 预知雾霾发生情况并及时采取有效防护措施对减轻雾霾造成的灾害极为重要。 由于雾霾天气相关数据具有严重的不平衡性,而传统的分类模型(比如支持向量机 SVM)在处理不平衡数据时准确率较低,容易发生误判,而应用较多的神经网络又会容 易陷入“ 维数灾难 ” 导致无法正确预测。于是本文采取了常用于故障点检测的单分类预 测模型 SVDD算法建模,但是由于数据样本较大且无法确定数据分布特征,会造成建模 效率以及
26、准确率的降低,于是,本文采用了最新的 AP聚类算法作为上游数据处理器, 可以将数据集规模降低且形成若干个凸型数据簇,在提高了运行效率的基础上使得预测 准确率也有所提升。 1.1.1研究意义及目的 雾霾由于其成分复杂,可以对人体和环境造成严重危害。雾霾中的颗粒物,一旦进 入呼吸道并粘着在肺泡上,轻则造成鼻炎等鼻腔疾病外,重则造成肺部硬化。而雾霾天 气时接近底层的紫外线明显减弱,空气中细菌很难被杀死,传染病的概率大大増加。所 以能够提前预测出雾霾天气就尤为重要,人们已将雾霾当成是一种灾害性天气进行预报 预警。 目前针对雾霾第二天发生情况的预测方法很少,仅有的雾霾天气预报系统多采用单 一的参数因子进
27、行建模预测雾霾,并且不能明确界定雾与雾霾,从而误将雾的天气预报 变成雾霾天气预报,给生活带来了不便。并且由于我国各地气候不同和地势差异的影响, 同一雾霾预测模型很难通用,而长春现有的雾霾预测系统由于阈值过窄等原因,准确率 _ 第 1章绪论 _ 较低,误报率较高。为了有效地预测出长春地区雾霾天气,应当针对长春地区单独开发 一个只属于长春的且高准确率以及低误报率的雾霾预测系统。 1.1.2研究现状 雾霾是近几年刚刚受到大家重视的灾害性天气,尚没有成形的预测系统建立。目前 的预测方法主要是利用神经网络及其改进算法建立的 PM2.5及霾的天气预报模型。 2009年, Weiqiang Wang等人 W
28、利用综合自回归移动平均模型预测 PM2.5,该模型 的一般表达式具有周期性,可以有效的预测空气污染指数。 2009年,刘洪年等人 通过空气质量数值预报模式计算大气中污染物浓度分布和变 化规律,再根据污染物浓度计算能见度 .建立了城市灰霾的数值预报模型,该方法难度大、 计算量大,却具有完善的理论基础。 2010年, W. Geoffrey Coboum等人 3结合非线性回归模型和后向轨迹浓度模型来预 测路易斯维尔的 PM2.5值。 2010年, PabloE. Saide等 人 利 用 WRF-Chem模型(化学天气预报模型 ) 解决了 在 PM2.5预测中,由于地形复杂和气象初始条件及边界不确
29、定而导致的误报问题,可以 实现 48小时预测是这个系统最大的优势。 2011年,毛宇清等人 5使用支持向量机模型和回归方法建立了南京地区霾日发生预 报模型,试验结果表明准确率均达到 85%以上,可以给实际业务提供参考。 2011年 , Dimitris Voukantsis等人利用主成分分析和人工神经网络方法预测第二天 的 PM10和 PM2.5浓度值。 2012年,杨琳等人 m对深圳市灰霾天气的出现规律及影响要素特征进行概括分析, 在此基础上运用逐步回归的方法,建立灰霾预报模型。 2013年, Z.Haiming等 人 利 用 RBF神经网络模型预测 PM2.5浓度,预测结果准 确率比传统
30、BP神经网络预测模型准确率提高了 37.5%。 综上所述,在传统的数值预报模型中,虽然准确率可以保证,但是该方法对测量仪 器的精准度以及型号具有严格的要求,设备投入较高 ;而神经网络相关的预测模型虽然 实现方法较简单,但是由于雾霾的成因复杂影响因素较多,在训练建模过程中极易陷入 “ 维数灾难 ” 从而导致准确率较低。 从历史研宄可以看出雾霾天气建模数据具有以下几个特点: 数据样本数较大,分 2 _ 第 1章绪论 _ 布形态不确定; 影响因素多,数据维数较高; 雾霾天数与非雾霾天数样本数目不平 衡 各影响因素的数据观测值量纲不同。于是我们可以采用 AP聚类算法解决第一和第 四个问题,利用 SVD
31、D算法解决第二和第三个问题,结合二者的优势,建立预测模型。 1.2本文工作 本文针对样本数据的特点,提出了将改进的 AP聚类算法与支持向量数据描述算法 相结合的长春地区雾霾预测模型,选择将改进的 AP聚类作为上游处理器对数据进行分 簇,之后在每个数据簇上分别采用支持向量数据描述建立预测模型,根据实验结果证明 这种预测模型的优越性与可行性。主要工作包括:介绍了本文的相关背景知识;分析和 总结了现有雾霾预测方法;系统的介绍了主成分分析数据预处理方法、用于参数选取的 遗传算法、支持向量数据描述以及 AP聚类算法的理论基础 知识,对传统的 AP-SVDD 算法进行改进,提出一种搜索 AP算法的偏向指数
32、空间的 DAP-SVDD算法;最后在 MATLAB环境下,利用搜集到的样本数据对 DAP-SVDD算法进行验证,检验其性能。 全文分为五章,具体安排如下: 第 1章主要介绍了本文的研宄背景、研宄意义及目的,总结了近些年来有关雾霾 相关天气预测模型的研宄现状。 第 2章具体介绍了本文相关的理论背景知识,包括主成分分析、 AP聚类算法、 SVDD支持向量数据描述以及遗传算法的技术原理,本章的工作作为后续几章研宄的理 论基础。 第 3章围绕雾霾预测系统样本数据的特征,提出了一种基于改变 AP算法的偏向参 数空间来实现的 DAP-SVDD算法,详细阐述了基于 DAP-SVDD算法的雾霾预测系统结 构以
33、及预测模型的设计流程。 第 4 章通过 MATLAB软件设计并实现了基于 DAP-SVDD长春地区雾霾预测模型 的训练及仿真分析,并且与常用的二分类预测模型 SVM、 单分类 SVDD模型、传统的 AP-SVDD模型预测结果及实测值进行比较分析。 第 5章对全文工作做了总结,并对下一步研宄工作进行展望,提出了今后的一些 研宄方向。 第 2章背景知识 第 2 章 背 景 知 识 简 介 在上一章讨论了研究背景、目的、意义之后确定了本文建模思想之后,本章主要针 对建模过程中所涉及到的相关原理概念进行描述讲解,包括主成分分析、聚类分析、支 持向量数据描述、遗传算法。 2.1 主成分分析方法 (Pri
34、ncipal Component Analysis, PCA) 在实际问题中,研究多指标问题是经常遇到的,然而在多数情况下,不同指标之间 是有一定相关性的。由于指标较多,再加上指标之间具有一定的相关性,势必增加了分 析问题的复杂性。主成分分析通过线性组合将原变量综合成几个主成分,用较少的综合 指标来代替原来较多指标(变量 ) 。在多变量分析中,某些变量间往往存在相关性。主 成分分析主要用于: 减少分析变量个数; 通过对变量间相关关系探测,将原始变量 进行分类。即将相关性高的变量分为一组,用共性因子代替该组变量 9。我们主要从以 下三个方面来探讨主成分分析基本原理: (1) 因子分析模型 首先,
35、定义观测值所构成的矩阵如下: 其中 M为样本观测的次数,户为变量数, X,. =(x1;, x2,.,x3,., ., xj, / = 1, 2,3, ., ;?。 然后将 X中的数据进行标准化处理,则处理后的变量的方差为 1,均值为 0。为了叙述 简单,假设经过标准化后的矩阵仍记为 X。所以相关系数矩阵为: R = XX (2.2) 设的; ?个非负特征值为 &,毛。记对应于特征值的正交特征矢量矩阵如 下 : 4 第 2章背景知识 令 F = 则有下面等式 : 上式中 F为主因子阵,并且 f =C/,JT, / = 1, 2,3, .,; 7,即 f为第 /个样品的主因子 得分。下面选择 7
36、(7 0。则上述结构风险最小化问题转为 15 第 2章背景知识 (2.30) (2)求 maxi(足 a, a, ,) a , R , 4 由此得到最终规划问题: (2.31) 计算得到最优解 = (; %,a2, , aj,超球体球心可以通过 a = fax计算所得,称 a,_ 1=1 为的样本点为非支持向量, ,.不为 0且小于 C的样本点为支持向量。分别记支持向量 机和支持向量点的数目为双和 。超球半径只为: (2.33) 对于一个待测样本 z,如果它到超球心的距离小于超球半径,则接受样本;如果大 于超球半径,则拒绝样本。则待测样本接受条件为: (2.34) 2.4. 2 核函数 对解决
37、线性分类问题,此时的支持向量描述是一种非常有效的方法。但是,有时分 类问题是非线性问题,这时将要使用核函数,将低维特征空间上升到高维空间中去。 常用的核函数有: (1)多项式核函数 ( ploynomial kernel function) 16 第 2章背景知识 对应的支持向量数据描述是一个 P次多项式分类器。 (2)高斯核函数 ( gaussian kernel function) (2.36) 对应的支持向量数据描述是高斯径向基函数 ( radial basis funtion)分类器。 如图 2.2所示,引入了高斯径向基函数后,整个分类模型更加接近于真实模型的形 状,更好的描述样本点实
38、例。 图 2.2高斯径向基函数分类问题 2.4.3支持向量描述学习的实现算法 我们知道支持向量数据描述的学习问题可以形式化为求解凸二次规划问题。这样的 凸二次规划具有全局最优解,并且有许多最优化算法可以用于这一问题的求解。但是当 训练样本容量很大时,这些算法往往变得非常低效以致无法使用。 SMO (Sequential minimal optimization)算法是支持向量描述学习的实现算法。它是 一种启发式算法,基本思想是:如果所有的变量的解都满足此最优化问题的 KKT条件 , 那么这个最优化问题的解就找到了;否则选择两个 变量,固定其他变量,针对这两个变 量构建一个二次规划问题。使得这次
39、二次规划问题更接近于全局最优化问题的解。重要 的是,这时的问题可以通过解析方法求解,大大提高了整个算法的计算速度。 (l)KKT条件,工作集选取及停止准则 在求最小包围球的过程中,迭代没有结束前,每轮迭代会有一个新点被选中,核集 中加入新的点后,在核集中的点是下面三种情况之一: 核向量,满足 KKT条件; 处在球内的非核向量,对应的 a;为 0,也满足 KKT条件 ; 17 第 2章背景知识 (2)规模为 2的解析解 找出核集中违反 KKT条件的训练点后,更新其对应的 Lagrange因子值。这里我们 依然采用 SMO算法,解规模为 2的原问题的对偶问题。 不失一般性,在 2.1对偶问题中将和
40、 ,看成待求变量,其他看成已知参数,得到 求解 的 优 化 问 题 如 下 : 18 第 2章背景知识 2.5本章小结 本章介绍了本文必需的理论知识。主要包括利用主成分分析进行数据降维的基本原 理;聚类分析的一般原理以及刚刚出现不久的 AP算法的原理及实现步骤;利用遗传算 法进行参数优化的基本原理;支持向量数据描述算法的基本概念、原理及实现算法。 19 第 3章基于 DAP-SVDD模 型 在 长 春 未 来 24h雾 霾 天 气 预 测 中 的 应 用 第 3章基于 DAP-SVDD雾霾预测模型设计 在上一章系统介绍了建模所用到的理论知识后,本章将对传统的算法 AP聚类进行 改进,提出了一种
41、基于二分法自动寻找偏向参数的 DAP聚类算法,之后结合 SVDD算 法形成 DAP-SVDD预测模型,以期达到对数据处理的结果达到最优状态。在确定好建 模算法以后,详细介绍了 DAP-SVDD预测模型的原理及算法的实现,并基于此模型设 计了针对长春地区雾霾预测模型的组织结构以及设计流程。 3.1建模方法的选择 雾霾预测问题的研宄可以归结为一个一般的分类问题,即针对一组样本数据,根据 某一判别标准,是将其划分为有雾霾还是无雾霾这两个类别当中。而针对分类问题,目 前应用效果最好的要属继神经网络之后发展起来的一种机器学习方法一一支持向量机。 较神经网络相比,不仅具有较强的鲁棒性,而且特别适合解决高维
42、数据问题,而神经网 络则在处理高维复杂问题时,易陷入 “ 维数灾难 ” ,从而降低预测分类准确性,且耗时 较长。因此,在建模时算法的选择需要根据数据的特点而有针对性的选择,根据历史研 宄总结,可以发现雾霾样本数据具有以下几个特点: 数据样本数较大,分布形态不 确定; 影响因素多,数据维数较高; 雾霾天数与非雾霾天数样本数目不平衡 各影 响因素的数据观测值量纲不同。于是,我们可以选择一下几种方法进行建模研究: 二分类支持向量机 ( Support Vector Machine, SVM):判别数据点属于 “ 有雾霾 ” 和 “ 无雾霾 ” 是一个典型的二分类问题,可用传统的二分类支持向量机解决。
43、即对于若 干个高维的数据样本集合,将其通过引进核函数,将其映射到另外一个高维空间中,使 得可以在这个高维空间中可以寻找到一个超平面,可以正确的分隔开这两类样本点,超 平面一侧的点为 “ 有雾霾 ” 的样本点,另外一侧为 “ 无雾霾 ” 样本点。于是这个超平面 的公式就是我们需要的判别函数,当我们输入一组数据时,若这个数据通过映射计算, 落到了 “ 有雾霾 ” 一侧,贝 U这个样本的标签就是 “ 有雾霾 ” ,反之 “ 无雾霾 ” 。这种方 法虽然可以处理高维样本数据的分类问题,但是只限于两种样本的数据大小相近时准确 率较高,一旦两种样本数据点数量不平衡则会迅速降低准确率。 支持向量数据描述 ( support vector data description,SVD