《基于决策树的数据挖掘算法在空气质量评估中的应用.pdf》由会员分享,可在线阅读,更多相关《基于决策树的数据挖掘算法在空气质量评估中的应用.pdf(58页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、南昌大学硕士学位论文基于决策树的数据挖掘算法在空气质量评估中的应用姓名:汪滢申请学位级别:硕士专业:计算机软件与理论指导教师:陈炼20091220摘要摘要空气质量评估是人类保护自然资源、兼顾环境与效益、合理控制污染排放及预防严重污染事件发生的重要评估手段。其中空气质量评估算法则是空气质量评估中的关键。目前常用的空气质量评估算法有空气污染指数法、模糊综合评价法、欧几里得贴近度法等。但这些算法中存在单因子评价、指数范围的人为因素、指数值界限过于清晰等缺点,在日常使用中还是存在评估的误差。本课题综合分析国内外研究现状,在探讨空气质量评估常用方法的基础上提出结合决策树算法的评估方法。它基于I D 3
2、算法多值偏向的特点和属性相似度的决策树具有少值偏向的特点,并将两者结合起来,在选择测试属性时采用属性相似度作为校正系数的信息增益计算方法对空气质量进行评估。本文结合某市空气质量的具体数据进行仿真实验,分析实验结果表明改进的算法对于决策树的建立和规则的生成,在分类的效率和正确性上都有显著的提高。基于决策树的空气质量评估算法,不仅能指导研究人员正确地分析和掌握空气中污染物的迁移变化规律,而且具有良好的社会经济效益与应用前景。关键词:空气质量评估;决策树;I D 3 算法;A B S T R A C TA B S T R A C TA i rq u a l i t ya s s e s s m e
3、n ti sa l li m p o r t a n ta s s e s s m e n tt o o l so fh u m a np r o t e c t i o no fn a t u r a lr e s o u r c e s,t a k i n gi n t oa c c o u n tt h ee n v i r o n m e n ta n db e n e f i t s,r e a s o n a b l ec o n t r o lo fp o l l u t i o ne m i s s i o n sa n dp r e v e n ts e r i o u sp
4、 o l l u t i o ni n c i d e n t A i rq u a l i t ya s s e s s m e n ta l g o r i t h mi st h ek e Yt oa i rq u a l i t ya s s e s s m e n t N o wc o m m o n l yu s e di na i rq u a l i t ya s s e s s m e n ta l g o r i t h mf o ra i r-p o l l u t i o ni n d e xm e t h o d,f u z z yc o m p r e h e n
5、s i v ee v a l u a t i o nm e t h o d,E u c l i dc l o s et ot h ed e g r e em e t h o d B u tt h e r ea r es o m es h o r t c o m i n gi ns i n g l e f a c t o re v a l u a t i o n,t h ei n d e xr a n g eo fh u m a nf a c t o r s t h ei n d e xv a l u el i m i ti st o oc l e a r T h eP r o j e c tc
6、 o m p r e h e n s i v ea n a l y s i so ft h ep r e s e n ts t u d yo ft h es t a t u sa th o m ea n da b r o a d,t Oe x p l o r et h ea i rq u a l i t ya s s e s s m e n tm e t h o d sc o m m o n l yu s e dd e c i s i o nt r e ea l g o r i t h mb a s e do nt h ec o m b i n a t i o no fa s s e s s
7、m e n tm e t h o d s I ti sb a s e do nI D 3a l g o r i t h mf o rm u l t i v a l u e db i a so ft h ec h a r a c t e r i s t i e sa n dp r o p e r t i e so fs i m i l a r i t yo ft h ed e c i s i o nt r e eh a saf e wc h a r a c t e r i s t i c so ft h ev a l u eo fb i a s,a n dc o m b i n a t i o
8、no ft h et w o t h ec h o i c eo ft e s tp r o p e r t i e sa t t r i b u t es i m i l a r i t yu s e da sac o r r e c t i o nf a c t o ro fi n f o r m a t i o ng a i nc a l c u l a t i o n I nt h i sp r o j e c t,ac i t yo fs p e c i f i ca i rq u a l i t ys i m u l a t i o nd a t aa n a l y s i sr
9、 e s u l t ss h o wt h a tt h ea l g o r i t h mi m p r o v e dt h ee s t a b l i s h m e n ta n dr u l e sf o rd e c i s i o nt r e eg e n e r a t i o n,t h ee 衔c i e n c ya n dc o r r e c t n e s so ft h ec l a s s i f i c a t i o no nb o t has i g n i f i c a n ti n c r e a s e T h ea i rq u a l
10、i t ya s s e s s m e n tb a s e do nd e c i s i o nt r e ea l g o r i t h m,n o to n l yt og u i d eU St oc o r r e c t l ya n a l y z ea n dc o n t r o lt h em i g r a t i o no fp o l l u t a n t si nt h ea i rc h a n g e si nt h el a w,b u ta l s oh a sag o o ds o c i a la n de c o n o m i cb e n
11、e f i t sa n da p p l i c a t i o np r o s p e c t s K e yW o r d s:A i rq u a l i t ya s s e s s m e n t;d e c i s i o nt r e e;I D 3a l g o r i t h m;学位论文独创性声明学位论文独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得直昌态堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做
12、的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名(手写):汪j 莹签字日期唧年嗍们学位论文版权使用授权书本学位论文作者完全了解南昌大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权直昌太堂可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编本学位论文。同时授权中国科学技术信息研究所将本学位论文收录到中国学位论文全文数据库,并通过网络向社会公众提供信息服务。(保密的学位论文在解密后适用本授权书)学位论文作者签名(手写):;五蕴导师签名(手写):签字嗍干p 月谚日签字醐
13、:呷年,咱馏日第1 章绪论1 1 选题的背景和意义1 1 1 研究背景第1 章绪论随着我国现代经济和社会的不断发展,人们的物质文化生活都得到了很大的提升,但在经济和社会不断发展的同时许多问题也随之而来。例如:能源的过度开发使用、人口的过快增长、大型工业高速发展导致的各种气体和颗粒物的排放,这些都引起了各个地区气候的急剧变化。气候变化导致了沙尘暴、灰霾、酸雨等极端天气,也使得干旱、洪水、海啸等气候事件发生的频率和强度增大,同时环境污染使空气质量不断下降,给人类社会带来许多疾病,更加剧了疾病的传播。人类在饱经了环境污染的危害之后,逐步开始重视环境保护。如今环境与发展,是国际社会普遍关注的重大问题之
14、一。其中大气污染尤为严重,它不仅危害人体健康,而且还影响植物生长及农业和林业的发展。与此同时我国的污染排放总量也在不断增加,污染范围逐步扩大。以颗粒物、氮氧化物、二氧化碳、二氧化硫等为主要污染物的大气环境污染问题也日趋严重。为了加强空气污染防治工作,减少由于空气污染造成对人体健康的危害和对环境造成的污染,采取有效的空气评估方法对海量的空气质量数据进行评估,并以此为基础进一步减少大气污染、优化空气质量,就显得尤为重要。1 1 2 研究意义在物质文明高度发展的同时,亟待解决的问题有:如何及时、准确、全面的提供未来大气污染变化的信息;如何密切监视环境污染变化动态;如何保护好人类有限的自然资源;如何兼
15、顾环境与效益;如何合理控制污染排放;如何预防严重污染事件的发生。目前采用的解决方法有:通过及时净化空气和有效控制污染物排放等措施。但这些措施都只是杯水车薪,根本无法从根源彻底的解决空气污染的情况。只第l 章绪论有在污染未发生之前就采取有效措施进行有效处理,才能从根本上解决空气污染。由此看见,采取有效的评估方法,及时对空气质量进行评估及预测显得十分重要。采用高效的评估算法有以下意义:(1)更清楚、更全面地分析和预测空气中污染物的变化规律、污染源和气象条件变化对空气质量的影响。(2)预测严重空气污染事件的发生以及可能发生的污染事故采取措施,避免或减轻污染危害,从而促进企业进行重工业的废气治理,实行
16、清洁生产,提倡节能减排的国家政策。如今许多科学研究工作者都针对空气质量评估以及提高模拟能力等方面做了大量的研究工作。这些成果在预报大气污染、保护人类健康、避免经济和社会遭受严重损失等方面都具有十分重要的研究价值和意义。1 1 3 国内外研究现状随着经济的不断发展,人们的生活水平不断提高,日常生活中人类越来越开始关注自身的生存环境。与此同时,国内外关于空气质量的评价方法的研究也日趋活跃。各种评估方法也不断衍生。在海量的评估方法中,无论是处理的数据量,还是处理的速度以及预测的准确性等各方面都取得了显著的成绩。而空气质量的评估是环境质量中的一个重要组成部分,在环境质量的评估中发挥着重要的作用。目前在
17、空气质量评价领域的方法有很多。例如:空气污染指数法(A i rP o l l u t i o nI n d e x,简称A P I)、模糊综合评判法、欧几里德贴近度法、粗糙集方法等。特别是将模糊数学理论和贴近度理论应用于环境和空气质量评价中。空气污染指数法n 帕(A P I 法)是目前我国普遍采用的一种评价方法,应用最广。其特点是:综合、简便、直观。目前我国各城市都采用该法对空气质量进行评价。空气污染指数方法比较适合于表示城市的短期范围内的空气质量状况和变化趋势,A P I 方法是将常规监测的几种空气污染物因子的浓度值简化成为单一的概念性指数值形式,并分级表示评估样本数据的空气污染程度和空气质
18、量的状况。日常空气质量报告中所用的空气污染指数的分级标准一般H 1 有以下三点:第一:A P I 的值若为5 0 点,则说明污染物浓度为国家空气质量日均值l 级标准;2第1 章绪论第二:A P I 的值若为1 0 0 点,则说明对应的污染物浓度为国家空气质量日均值2级标准;第三:A P I 的值若为更高值段,则说明分级对应于各种污染物对人体健康产生不同影响时的浓度限制。目前普遍使用空气污染指数的指数为氮氧化物、二氧化硫、总悬浮颗粒物。但是随着大气保护工作的不断发展和监测技术水平的提高,或许将丢空气污染指数的污染项目进行调整,可能进行增加部分污染因子等改革。以便更为客观地反映不同地区的污染状况。
19、聚类分析n 鄙作为一种多元分析方法用以研究数理统计中的类聚问题,也就是用数学模型来定量分析被分类对象之间的相似程度,客观地进行类别划分,使得划分在一个类中的对象具有一定的相似性,然后再不同种类的事物具有高度差异性。模糊聚类法们是大气监测采集不同分布点优化研究中最常用的聚类分析方法。为了收集城市区域内空气污染现状和污染时间空间分布特点对城市区域布点进行监测。实际上由于人力、物力和财力等因素的限制,需要对密集的大气采样点进行优化。模糊聚类分析法通过把需要进行分类的对象和模糊等价关系变换,从而分析确定不同数据样本之间的亲疏关系。把这种对样本进行科学分类的方法称之为模糊聚类分析法。因为事物本身在很多情
20、况下都存在模糊性,所以把模糊数学方法引入聚类分析,就能使聚类分析更符合实际。模糊数学的综合评判法嘲,利用空气质量分级差异的中间过渡的模糊性,通过建立隶属函数,对单项污染指标依次求出属于各等级的隶属度。通过用模糊数学方法进行空气质量的综合评估,能够相对客观地反映当地的空气质量情况,其方法简便,结果较好,如今看来在空气质量评估中相对有效的方法。欧几里德贴近度法,此方法虽然也需建立隶属函数,但其过程较为简单,只须要通过建立监测值隶属函数和标准级隶属函数。在整个评价过程中也没有丢失信息的现象,每一个监测获得的有效数据都会对评估结果产生影响。该方法能够对评估样本作出迅速的评估,评估结果较为真实。粗糙集方
21、法口,它是将粗糙集作为处理模糊性和不确定性知识的一种新型数学工具,它的个重要特点就是:不需要提供问题所需处理的数据集合之外的任何先验知识,而是直接从给定的数据集中如实地提取数据间的相互依赖关系。把粗糙集方法应用于空气质量评估,通过对空气数据库的分析提取其规则,3第1 章绪论从而对空气数据进行有效的分析,这也是环境空气质量现状综合评估非常有效方法的方法。1 2 决策树算法的应用前景通过对以往的空气质量评估方法的研究发现:将决策树的相关方法引入到评估过程中是不多见的,而决策树算法在很多情况下能够帮助人们更加客观的来评估空气质量。决策树算法具有许多特点,这些特点是其它算法所不具备的,我们可以将它和其
22、它方法有效的结合起来,以此来达到高效分类的目的。相对于决策树算法n 叼来看,它具有许多分类优势:(1)决策树容易理解并且效率较高,生成的规则也容易解释和理解。(2)因为树的规模独立于数据库规模,所以决策树对于大型数据库具有很好的延展性。虽然决策树技术存在许多优点,但是也存在不稳定的缺点,因此给决策树带来了较大的变动。这样又衍生出一个新的概念也就是模糊决策树。人们利用模糊集的融通性理论来解决决策树的不稳定问题,目前取得了不错的效果。决策树算法n 们已经广泛应用于各个领域,如医疗诊断、语音识别、模式识别、客户关系管理、专家系统等。决策树的各类算法各有优缺点,现实中必须根据数据类型的特点和数据集的大
23、小,选择适用的算法。但是目前存在着大量问题等待着研究人员去研究,例如:如何更好的发掘数据预处理方法用以支持决策树方法;如何提高决策树分类过程中的预测精度;如何将决策树与其他分类算法相互结合使用;如何更好的优化决策树方法;如何将决策树技术与软件相结合,功能更好的实现算法等。1 3 本文的研究内容及其组织结构1 3 1 本文研究内容本文主要针对A P I 法、模糊综合评判法、欧几里德贴近度法等的优缺点进行研究;讨论了决策树学习算法的基本思想、工作原理和适用范围。并对决策树归纳学习中常见的问题进行了综合分析与比较包括:分类过程中的过度拟合问4第1 章绪论题、样本采集的时候处理连续属性问题、采集过程中
24、存在的缺省属性问题以及决策树产生之后的剪枝和优化等问题。经过对问题的研究,找出解决问题的方法并提出改进的决策树算法,同时在基于真实数据的基础上,利用m e t l a b 进行仿真得出结果。将仿真得到的结果与以往算法进行对比,证明算法的可行性和优先性。1 3 2 本文组织结构本文共分为六章。第1 章介绍了选题的背景和意义、空气质量评价方法研究的国内外现状及其发展方向;第2 章介绍一些常见的评估方法:例如A P I 法、聚类分析法、欧几里得贴近度法、粗糙集法;第3 章介绍决策树的基础理论和常见的几种决策树算法作了初步的研究,为后面章节奠定了理论基础;同时分析了决策树中的一些常见的问题,包括如何处
25、理属性空缺值、如何处理连续属性值、如何避免过度拟合训练数据、如何处理增量数据集和如何利用属性问的相关性来构造多变量决策树的问题;第4 章提出了优化决策树算法的策略,并且分析算法的可行性;第5 章将改进的决策树算法应用于空气质量真实数据。利用m a t l a b仿真工具进行仿真,验证算法的有效性及实际应用价值;并将其与普通的I D 3算法、分类工具进行分析对比。最后概括了本文的主要研究成果,分析存在的问题,指出有待进一步解决的问题。5第2 章空气质量评估方法研究第2 章空气质量评估方法2-1 空气污染指数法空气污染指数法将评价空气质量高低的程度作为一种量化的指标。A P I 的形成是基于美国污
26、染物标准指标(P S I)的基础上。该方法在评估过程中通过日常工作中检测污染物因子,得到空气中含有污染物浓度值并量化成污染物指数。通过污染物指数来划分空气质量的等级,同时评估空气的污染程度。2 1 1 分指数的计算空气中污染物指数的计算n 朝如下:如果设置样本数据中I i 为污染物的分指数,C i 为监测的空气污染物浓度值。指数计算可以通过分段线性方程方法来计算I i 的值。详情如表2 1 所示。表2 1 污染分指数对应的污染物浓度限值表污染污染物质量浓度(m g m 3)指数S O zN O zP M l 0C O0 3A P I日均值日均值日均值小时均值小时均值5 00 0 50 0 8O
27、 0 550 1 21 0 00 1 50 1 2O 1 51 00 22 0 00 80 2 80 3 56 00 43 0 01 60 5 6 50 4 29 0O 84 0 02 10 7 50 51 2 015 0 02 6 2O 9 40 61 5 01 2假设第i 种污染物浓度C i,j _ C i 3 0 0V差(重度健康人明显强烈症污染)状,降低运动耐受力,提前出现某些疾病2 2 聚类分析法2 2 1 基本原理1 聚类分析能够结合实际情况客观的划分样本,使得在同一个样本类中的事物具有高度的相似性,相反如果在不同的事物样本中具有高度的差异性。聚类分析作为一种多元的分析方法,一般情
28、况下在聚类分析过程中,训练数据是不提供类标号的,因为在数据训练开始的时候并不知道类标号。但是可以通过聚类产生标号。样本对象根据最大化类内部样本的相似性、最小化类之间的相似性的原则进行聚类和分组。同时也表明,对象的簇的形成是在相比之下在一个簇中的对象具有很高的相似性,但是相对于其他簇中的对象很不相似。所形成的每个簇可以看作一个对象类,通过每个簇的解析可以导出规则。8第2 章空气质量评估方法研究2-2 2 模糊聚类分析法将空气质量评估数据进行分类的时候,需要分析样本对象:例如监测的地点、污染物中存在的污染因子等,而后将其作为样本。这些评估样本之间存在着多元模糊的关系,经过变换两者之间的模糊等价关系
29、,从而定量地分析每个评估样本之间的相似度和差异度。因此对评估样本进行科学有效的分类方法称为模糊聚类分析法。由于事物的发展过程中,在不同的情况下产生的结果都带有模糊性,因此很多研究人员把模糊数学方法结合聚类分析,这就能使聚类分析的过程更切合实际并且具有实际的研究意义。2 2 3 灰色聚类法与模糊聚类方法不一样,灰色聚类法n 町是充分利用已知的数据信息,通过将灰色系统淡化、白化等过程。然后通过聚类对象针对不同的聚类指标所包含的白化数。按照灰类的个数进行归纳,从而判断分析聚类对象属于何种灰色统计方法,以此来达到聚类的目的。2 3 欧几里德贴近度法2 3 1 数学模型。欧几里得贴近度方法是常用的空气质
30、量评估方法,它的评估过程是:若样本中有n 个空气污染的指标,其中每个污染指标都包含个子的污染级别,若设置为h:同时假定:S=,五以)为样本数据中污染物的统一化级别特征值的向量。,=协,筋厶)为空气数据样本中评价单元每个污染物的归一化监测值。那么该评价单元对应的级别j(j=1、2、H)的欧式贴近度具体的定义n u 为:q|2式中仍一空气质量样本数据评价单元对级另I J j 的贴近度;W 广样本数据中污染物i 的权重值;9(2 4)第2 章空气质量评估方法研究X i 一样本数据中污染物i 的监测值:衍一样本数据中污染物i 的第j 个级别的特征值;若下式满足:,7。=m i n r j)I,hp【l
31、、2 h】则此评价单元与级别P 的值最贴近,那么可以下结论它的污染级别应为p 级。2 3 2 评价过程2 3 2 1 评估实例分析本节将结合某空气检测站提供的详细基础数据,利用欧几里得贴近度法进行分析评估,详细数据信息如表2 3 所示。表2 3 大气监测数据(单位m g m 3)监测点S 0 2N O XT S PA l0 0 3 0 8 00 0 1 9 5 00 1 0 0 8 0A 20 0 3 7 0 00 0 11 0 00 0 9 0 0 0A 30 0 7 7 0 00 0 1 7 0 00 1 4 3 0 02 3 2 2 评价的标准为了进行空气质量评估,首先需要确定评价标准。
32、它是确定各污染指标划分的质量等级和空气质量污染的级别。为了使评估的结果更具有对比性,有利于每个不同地区之间进行空气质量的比较,所以在确定空气等级评定时,可以以国家空气质量标准作为基本的评估依据。处于某些评估的地区存在,污染指标的实际测试浓度的结果可能会高于国家空气质量三级标准,为了解决这一问题,可以通过增设若干级质量标准作为评价参考在基于国家标准的基础上。假设在数据评估中污染物的质量级别确定为四个等级。具体的级别划分可以参考信息表2 4 所示。1 0第2 章空气质餐评估方法研究表2 4 污染物级别划分表(单位m g m 3)污染物一级二级三级四级S 0 20 0 50 1 5O 2 5 0 2
33、 5N O X0 0 50 1 00 1 5 O 1 5T S P0 1 50 3 00 5 0 0 5 02 3 2 3 污染物级别特征如果需要划分污染级别的特征值,需要由以下公式来确定:j=2、3、h 1(2 5)J=h公式2 5 中:4 为污染指标i 的第j 个等级的特征值;s o 为污染指标i 的第j个等级的标准值,它的污染等级特征值计算结果如表2 5 所示。表2 5 染级别特征值污染物II II I IAS 0 20 0 2 50 1 0 00 2 0 00 3 0 00 1 5 6N O X0 0 2 50 0 7 50 1 2 50 1 7 50 1 0 0T S P0 0 7
34、50 2 2 50 4 0 00 6 0 00 3 2 52 3 2-4 污染物权重确定空气污染指标3 i 的权重W i 可以由以下公式确定:形:善立她(2 6)(毛+ZI)(虿)公式2 6 中:Z 为空气中污染物i 的监测值;丑为空气污染指标i 的各级特征值的均值。其中各个空气污染物权重计算结果如表2 6 所示。I I,产陀哪X1 J“一”2卜卜化+仔即嗡磷-I I岛第2 章空气质量评估方法研究表2 6 污染物权重结果测点W S 0 2W N O XW T S PA 10 3 4 10 3 1 30 3 4 6A 20 3 5 20 3 0 30 3 4 6A 30 6 2 00 1 7 4
35、0 2 0 72 3 2 5 归一化级别特征值空气污染归一化级别特征值口3,由下式给定:毛=如I 毛(2 7)公式2 7 中,屯为空气污染指标i 的归一化过程中第j 个等级特征值。结果值如表2 7 所示。表2 7 归一化级别特征值污染物一级二级三级四级S 0 20 0 8 30 3 3 30 6 6 7IN O X0 1 4 30 4 2 9O 7 1 4IT S P0 1 2 50 3 7 50 6 6 7I2 3 2 6 归一化监测值归一化监测值指的是实际污染检测值与相应污染物最高特征值的比值,即:五=置I 毛i=K2、”j h;(2 8)公式2 8 中:置为污染指标i 的归一化监测值;置
36、为污染指标i 的原始监测值。当)(i 大于l 时,将其定为l,结果如表2 8 所示。表2 8 归一化监测值监测点S 0 2N O XT S PA l0 1 0 2 7O 1 1 1 40 1 6 8 0A 20 1 2 3 30 0 6 2 80 1 5 0 0A 30 2 5 6 70 0 9 7 10 2 3 8 31 2第2 章空气质量评估方法研究2 3 2 7 贴近度的计算欧几里得贴近度的计算公式如下如下:仉=厮,基于不同的观测点关于不同级别的贴近度结果如表2 9 所示。表2 9 贴近度与评价结果观测点II Il J I评价结果B 10 0 1 8 90 1 4 5 50 3 2 0
37、00 5 0 3 4IB 20 0 2 9 40 1 5 4 30 3 2 8 00 5 1 2 2IB 30 1 1 0 50 1 1 6 50 2 9 0 00 5 1 1 8I2。3 2 8 确定评价级别空气质量评估单元针对不同级别的贴近度中。将最小的欧几里得贴近度值选择出来,此贴近度所对应的级别就被评估为应属的污染级别。因此,该地区空气质量为I 级。2 3 2 9 结果分析通过欧几里得贴近度法来评价结果可认识到,监测点B 1、B 2、B 3 的污染级别属于I 级。基于实地监测的数据分析来看,此结果相对准确与实际情况接近。欧几里得贴近度法整个评价计算过程中并不存在任何的信息丢失,任何一个
38、监测数据都会对评估的结果产生差异。因此,欧几里得贴近度法的综合评价准确率较高。与此同时欧几里得贴近度法数据处理方式相对比较简单,并不需要复杂的隶属函数,被广泛的认为是一种有发展前途的空气质量评价方法。2 4 模糊数学法模糊数学【5 1 方法就是把数学的使用范围从精确现象衍生到模糊现象,采用了1 3第2 章空气质量评估方法研究人脑识别和二义性问题的模糊特征。通过隶属函数来分析差异的不同状态,从而对于处理模糊性问题提供了具有实用价值的途径,符合日常空气质量评估系统中不同因素间的随机性和模糊性。2 4 1 模糊数学模型的建立模糊数学的原理通过描述大气环境的判断和各种定性描述转化为模糊语言,基于前者的
39、基础上建立模糊数学模型,从而对空气质量进行综合分析和判断,以此得到更为合理的评估结果。2 4 1 1 权重集的确定一般情况下不同因子拥有的重要程度不同,所以对于每个因子U i 指定一个相应的权重a i(i=0,19o,*9 n)以此来构成权重向量A。a i 的确定方法:q2qy q o)qI-e C,公式2 1 0 中,C i 是因子U i 实际测量的浓度值,C。i 是因子U i 不同等级空气质量标准的算术均值。在模糊综合评估中,a i 本质上是因子U i 对被评价事物的重要程度。若需要进行模糊运算,需要对各项因子的权重值进行统一的归一化运算从而得出因子的权重a i。其中的n 项因子指标,在分
40、别计算权重之后,结果就会组成一个l n。模糊权重集如公式2 I I 所示:A=a l,a 2,a i,a n(2 11)2 4 1 2 隶属度向量A 的确定如果空气质量分为m 个级别,那么l HI,I I,I n)。假设隶属度的函数为线性函数,若用X i 来标记空气质量中要素的第i 种污染物的实际测量值,而X i 在空气质量等镯的隶属函数口1 可以表示为如下形式:1 4第2 章空气质蕈评估方法研究翔=1 时:翔-2,3,I l 一1 时:当j-m 时:足(x)=R(x)=R(x)=S。+l 一工s t。H s i。j兰:墨:!)c i j s t。i _ IO(x S j+,)(2 1 2)(
41、墨x s 小。)(s,z 墨川)(墨川x 既)(2 1 3)(x s 小。,x 墨,)(墨,J 一x s。,)(2 1 4)(x s+)(i=l,n;j=l,m),以上公式中:1 3 表示评价的污染因子个数;m 表示空气质量级别数;s 为空气样本集中的第j 种污染因子莉级的标准浓度。由此可得空气样本集隶属度矩阵如2 1 5 所示。尺=酸叠翻亿均L 足,(工)垦栅(x)j、72 4 2 实例应用分析在实例分析过程中,本文采用某地区空气质量监测的原始数据。通过整理后作为空气评估的基础信息。利用该地区连续几年的平均值进行模糊处理,具体数据如表2 1 0 所示。1 5蔓吨监,Os 一&q 一”鬟。第2
42、 章空气质量评估方法研究表2 1 0 空气监测结果统计表(r a g m 3)年度S 0 2N 0 2P M l O2 0 0 40 1 0 30 0 3 90 0 8 62 0 0 50 0 5 50 0 2 80 0 7 92 0 0 60 0 5 40 0 2 80 0 8 5根据中华人民共和国大气质量标准和目前国内一些城市大气实际污染水平的分析,一般情况下将其划分成I,I I,I I I 和I V。它们分别代表空气质量程度中的无污染,轻污染,中污染和重污染4 个不同水平程度。具体信息,如表2 1 1所示。表2 1 1大气环境质量分级标准(m g m 3)污染物名称评价标准I 级I I
43、级I I I 级I V 级S 0 2O 0 20 0 60 1 00 1 4N 0 2O 0 40 0 80 1 20 1 5P M I O0 0 40 1 0O 1 50 2 0通过获取因素集U S 0 2,N 0 2,P M I O 和评估集R l,I I,I I I,通过统计结果分别求出不同级别的隶属度r。如果以2 0 0 4 年空气污染物监测数据为例来说,它所建立的隶属度矩阵如表2 1 2 所示。表2 1 2 环境空气质量模糊关系矩阵表级别2 0 0 4 年2 0 0 5 年2 0 0 6 年S 0 2N 0 2P M l OS 0 2N 0 2P M l OS 0 2N 0 2P M
44、 l OI 级0l0 2 3 30 1 2 510 3 5 00 1 5 010 2 5 0I I 级0O0 7 6 70 8 7 5O0 6 5 00 8 5 000 7 5 0I 级0 9 2 500O00000I V 级0 9 7 50O0O0000根据公式2 1 6 所示:q=口jI q a j=G G1 6(2 1 6)第2 章空气质量评估方法研究各项污染物权重如表2 1 3 所示。表2 1 3 权重计算结果年度S 0 2N 0 2P M l 02 0 0 40 5 4 00 1 6 70 2 9 32 0 0 50 4 2 60 1 7 90 3 9 52 0 0 60 4 1 0
45、0 1 7 50 4 1 6在进行大气环境质量评价过程中,如果采取复合运算,那么模糊评价结果如表2 1 4 所示。表2 1 4模糊数学法综合评价结果年度评价级别评价结果I 级I I 级I 级I V 级2 0 0 40 2 3 30 2 9 30 5 4 00 0 7 5I I I 级(中污染)2 0 0 50 3 5 00 4 2 60O级(轻污染)2 0 0 60 2 5 00 4 1 60OI I 级(轻污剃通过以上实验分析可以得出:模糊数学法中采用隶属度函数进行空气质量的评估,不仅能反映污染等级还能反映各种污染物的隶属情况。该方法提高露评价的科学性,与此同时也存在着缺点:例如隶属函数建立
46、不当,权重函数设置不合理等问题的产生都会造成评价结果的不准确。因此在实际应用中需要针对其中存在的问题进一步完善。2 5 粗糙集法2 5 1 粗糙集的基本概念粗糙集是一种新的处理模糊和不确定性知识的数学工具。如今粗糙集已经作为一种新的处理模糊和不确定性知识的数学工具,它的一个重要特点就是:具有很强的分析能力,即不需要任何先验知识,而是直接从给定问题中如实地提取经验数据间的相互依赖关系。通过大量历史数据和依靠这种相互一来关系来确定各类数据间的重要性,那么空气等级的评估也可通过这一过程来获得。在空气质量评估过程中,对于空气的等级评估有着许多的方法,但是这些传统的方法都反应了决策者对评价决策的各个因素
47、权重的主观判断,而在空气1 7第2 章空气质量评估方法研究质量评估中,没有考虑经验历史数据,所以在等级评估的时候,受主观影响很大。2 5 2 粗糙集评估过程利用粗糙集方法,对空气质量数据进行评估的一般步骤为:1 评估属性的确定应用粗糙集理论对空气质量进行评估时,必须明确评估时的参数,从而进行等级分类。依靠相关专业文献指定属性离散标准表,对数据进行离散化处理。2 将空气质量数据进行离散化,得到空气数据信息表;3 对信息表进行处理,生成分明矩阵;4 得到分明函数;5 得到约简后的决策表;6 条件属性和决策属性的依赖程度;7 从处理后的决策表中提取规则,即从数据中导出用I FT H E N 规则形式
48、描述的知识;粗糙集引入核,化简等有力的概念与方法,从数据中导出用I FT H E N 规则形式描述的知识,这些精练的知识更便于存储和使用。其次粗糙集理论还处在继续发展之中,它是一种较有前途的处理不确定性的方法,随着研究工作的不断深入,相信今后将会在更多的领域中得到更广泛的应用。2 6 本章小结本章首先介绍了空气质量评估的常用方法:空气污染指数法、聚类分析法、欧几里得贴近度法及粗糙集法;并且具体分析各个方法的使用过程及存在的优缺点,为后面引入决策树方法奠定理论基础。1 8第3 章决策树分类算法研究第3 章决策树分类算法研究3 1 分析方法分类一般来说根据数据挖掘的挖掘深度来划分,大体可以分为两种
49、:深层挖掘和浅层挖掘。前者大部分是通过现有数据库管理系统进行基于数据信息关键字的决策查询。在深层挖掘中,根据挖掘数据中的关联性和结构模式和相似性的聚类等信息。在这个基础上形成基本的模型,并且通过模型来发现隐含的知识。而相对于浅层挖掘来说,它所涵盖的广度和深度都不如深度挖掘,发现的隐含规则也都相对较低。普遍来说分类都可以用于在一些样本数据的预测,而通过预测我们可以从历史数据记录根据一定的推导规律,从而给定数据的一种趋势,从而实现对未来数据的预测。数据挖掘中的分类和统计学中的回归方法的概念既相互联系又相互区别。一般地来说,分类输出的是离散的类别值,然而回归输出的则是连续数值。通过分类方法的有效使用
50、能够产生一定的应用价值,例如:信用卡信用分级系统、专家诊断系统、超市货架摆放系统等。分类过程中可以使用许多现有的技术,例如:机器学习方法,神经网络方法等。其中又包含了贝叶斯方法和非参数方法等。在机器学习方法中,常见的方法有决策树方法和规则归纳方法。该方法能够表示为决策树和决策表,以及产生式规则等。另外,许多技术,如粗糙集等,都可以应用于分类器构造中。3 2 数据挖掘算法数据挖掘算法可以是基于数学理论的,也可以是非数学的;可以是演绎的,也可以是归纳的。从研究历史上看,它们可能是数据库、人工智能、数理统计、计算机科学以及其他方面的学者和工程技术人员在数据挖掘的探讨性研究过程中创立的理论体系。数据挖