《悬浮颗粒物PM10与PM2_5的统计分析与预测_秦珊珊.docx》由会员分享,可在线阅读,更多相关《悬浮颗粒物PM10与PM2_5的统计分析与预测_秦珊珊.docx(61页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 原创性声明 本人郑重声明:本人所呈交的学位论文,是在导师的指导下独立进行研宄所 取得的成果。学位论文中凡引用他人己经发表或未发表的成果、数据、观点等, 均已明确注明出处。除文中已经注明引用的内容外,不包含任何其他个人或集体 己经发表或撰写过的科研成果。对本文的研究成果做出重要贡献的个人和集体, 均已在文中以明确方式标明。 本声明的法律责任由本人承担。 本人在导师指导下所完成的论文及相关的职务作品,知识产权归属兰州大 学。本人完全了解兰州大学有关保存、使用学位论文的规定,同意学校保存或向 国家有关部门或机构送交论文的纸质版和电子版,允许论文被查阅和借阅;本 人授权兰州大学可以将本学位论文的全部
2、或部分内容编入有关数据库进行检索, 可以采用任何复制手段保存和汇编 本学位论文。本人离校后发表、使用学位论 文或与该论文直接相关的学术论文或成果时,第一署名单位仍然为兰州大学。 本 位论文研究内容: w 可以公开 不宜公开,已在学位办公室办理保密申请,解密后适用本授权书。 (请在以上选项内选择其中一项打 V ) 关于学位论文使用授权的声明 悬浮颗粒物 PM10 与 PM2.5 的统计分析与预测 摘要 随着工业化和城市化的发展,化石燃料地不断消耗,致使空气质量日益恶化, 以致雾霾天气越来越高频率与大范围的在全国发生,对全国人民的正常生活、工 作以及身体健康造成了不良影响。这已经成为政府与民众共同
3、关注的热点问题, 也是亟需研宄与解决的问题。雾霾产生以及具有危害的最主要原因即是空气中存 在的悬浮颗粒物, PM10 与 PM2.5。 因此,对空气中的悬浮颗粒物浓度进行检测, 以及进一步基于检测数据进行科学有效的预测已经可不容缓。 首先,本文从气象因素与空气污染物等角度出发 ,探宄影响悬浮颗粒物 PM10 与PM2.5 浓度的 关键因素。其次,我们利用 Granger 因果关系检验对 PM10、 PM2.5 与气象因素及空气污染物之间的动态相关关系也进行了探宄。再次,为了 能够更好的做好空气中悬浮颗粒物 PM10 与 PM2.5 的预报工作,本文提出了传 统的 ARIMA 模型与基于人工智能
4、优化神经网络模型对 PM10 与 PM2.5 进行预 测 ,用于探宄其预测能力。最后,考虑到传统的预测结果一般都是确定的预测值, 而忽视了预测结果的波动范围。本文首次提出利用 ARIMA 模型与智能优化的混 合神经网络模型对空气中悬浮颗粒物 PM10与 PM2.5浓度的区间预测进行 了探 究,旨在对未来的 PM10与 PM2.5浓度的波动范围给出合理的预测。 关键词: PM10 与 PM2.5, 关联性分析,差分自回归移动平均模型 (ARIMA),神 经网络 (BPNN),统计预测。 STATISTICAL ANALYSIS AND FORECASTING OF SUSPENDED PARTI
5、CULATE MATTERS, PM10AND PM2.5 Abstract With the rapid urbanization and industrialization, fossil fuel consumption in China is gradually increasing, resulting in the worsening of air quality. Recently, pollutant hazes occur more frequently and widely around the country, which makes a negative influen
6、ce on peopled normal life and activities. It has become a social concern and needs to be researched and solved urgently. Suspended particulate matters, PM 10 and PM2.5, is the main reasons of the haze, resulting in harmfulness to human beings. Thus, it is necessary to detect and record the eoncentra
7、tions of suspended particulates, and based on the recorded data we need to forecast its future trends and variations scientifically and effectively. Firstly, from the prospect of meteorological factors and air pollutants, this paper explores the key factors influencing the concentration of PM10 and
8、PM2.5. Secondly, the Granger causality test tool is proposed to examine the dynamic relationship between particulate matters and meteorological factors together with air pollutants. Thirdly, in order to obtain better prediction of PM10 and PM2.5, this paper proposes ARIMA model and artificial intell
9、igence algorithm as well as Neural Networks based hybrid models to conduct PM 10 and PM2.5 forecasting. Moreover, considering the fact that most traditional predictions are generally deterministic, that is, a certain predictive value. It is not reasonable to be regardless of the possible variations
10、of the forecasts, which may convey detailed information. Therefore, this paper initially proposes ARIMA and CS- based BPNN model to construct interval forecast models, aimed at supplying reasonable fluctuation ranges of the PM 10 and PM2.5 concentrations. Key words: PM10 and PM2.5, correlation analy
11、sis, Auto-Regressive Integrated Moving Average (ARIMA), Back Propagation Neural Networks (BPNN), statistical forecasting. n 目录 m w . .i Abstract . II 胃 一 #雜 . 1 l. i 研宄背景 . 1 1.2 空气污染颗粒物 (PM10、 PM2.5)国内外研究现状 . 3 1.2.1 PM10 与 PM2.5 的基本特征 . 3 1.2.3 空气颗粒物 (PM10 与 PM2.5)的预测现状 . 5 1.3 本文的研宄工作 . 5 1.4 创新点
12、 . 6 第二章关联性分析 . 8 2.1 数据来源 . 8 2.2 数据预处理 . 8 2.2.1 缺失数据处理 三次样条 Hermite 插值 . 8 2.2.2 异常数据检测与 7-5-3-Hanning 平滑处理 . 10 2.3 相关性分析 . 12 2.4 Granger 因果关系分析 . 17 2.4.1 原理 . 17 2.4.2 结果分析 . 18 2.5 本章小结 . 22 第三章悬浮颗粒物 PM10 与 PM2.5 的确定值预测 . 24 3.1 确定值预测性能的评估标准 . 24 3.2ARIMA 模型 . 24 3.2.1 模型概述 . 24 3.2.2 ARIMA
13、模型建立的过程 . 25 3.2.3 预测结果分析 . 28 3.3 人工智能优化算法与 BP 神经网络预测模型 . 30 3.3.1 BP 神经网络概述 . 30 3.3.2 布谷鸟 (Cuckoo Search)优化算法 . 32 3.3.3 遗传算法 (Genetic algorithm) . 33 3.3.4 基于权重选择的人工智能算法优化 BP 神经网络预测模型 .33 3.3.5 确定值预测结果的分析与讨论 . 34 3.4 本章小结 . 38 第四章悬浮颗粒物 PM10 与 PM2.5 的区间预测 . 39 4.1 预测区间性能评估标准 . 39 4.2 基于 ARIMA 模型的
14、区间预测 . 40 4.3 基于 CS-BPNN 模型的区间预测 . 41 4.4 区间预测结果分析 . 43 4.5 本章小结 . 49 第五章结论与展望 . 50 5.1 组仑 . 50 5.2 廳 . 51 #嫌 . 52 致 m . 55 IV r 兰州大学硕士学位论文 悬浮颗粒物 PM10 与 PM2.5 的统计分析与预测 第一章绪论 1.1 研究背景 随着工业化与城市化的发战,化石燃料不断的消耗,从而致使空气质量日益 的恶化。雾霾已经由局部的环境影响因素变为全国范围内的环境灾害。雾霾天气 越来越大范围与高频率的在全国发生,使其对全国人民的正常生活生产活动以及 身体健康造成的不良影响
15、已经开始超过其他环境污染问题带来的影响,成为政府 与民众共同关注的热点问题,也是亟需研宄与解决的问题。 雾霾天气给环境、经济、气候、人类健康等方面造成了一定的不同程度的负 面影响,譬如使慢性病加剧、呼吸系统及心脏系统疾病恶化、影响生殖能力、改 变人体的免疫结构以及肺功能等;导致空气能见度下降,从而阻碍陆地、空中、 水面交通等。要改善空气质量状况,遏制雾霾进一步扩展,研究雾霾的成因也是 最重要的步骤之一。 雾霾是雾和霾的混合物,由于空气中的湿度不同,因而雾与霾的比例有所不 同。湿度大时,雾的成分多。湿度小是,霾则占据主力,相对湿度在 80%到 90% 之间。其中 雾是自然天气现象,总体对人体是无
16、毒无害;而霾的主要成分是空气 中的悬浮颗粒物。粒度相对较小的颗粒物能直接被人体吸入,并粘附在下呼吸道 和肺叶中,严重影响并损害人体健康 6由此可知,雾霾天气带来的恶劣影响其实 是雾霾中的霾所造成的。 由上述分析可知霾的成因有两点:一是空气中存在的对人体有害的颗粒物, 如工厂、汽车等排放的尾气等,这些废弃中均存在着大量难以自然降解的且对人 体有害的颗粒物,这是形成霾最主要的成因,也是霾之所以有害的最本质原因; 二是空气相对湿度低于 80%,这也是霾区别雾的一个主要特征。由此可以初步 得 出一个待验证设想,即加强空气湿度或许可以有效降低霾的发生。 综上所述,霾产生以及具有危害性的最主要原因即是空气
17、中存在的悬浮颗粒 物(PM)。 其中,粒径小于或等于 10 微米的颗粒物称为可吸入颗粒 (PM10);粒径 小于或等于 2.5微米的颗粒物称为细颗粒物 (PM2.5)。 许多研宄己证实颗粒物的 粒度大小决定了其在呼吸道中的位置以及对人类健康的危害程度。粒径较大的空 气颗粒物往往会被鼻子中的纤毛和黏液过滤,因而其危害程度较小。而可吸入颗 粒物 PM10 与细颗粒物 PM2.5,则可以穿透这两道屏障进入到支气管和肺泡。 此 外,更易吸附毒害物质(如,多环芳烃等有机污染物和重金属 ) 的 PM2.5,因其 1 兰州大学硕士学位论文 悬浮颗粒物 PM10 与 PM2.5 的统计分析与预测 体积小,穿透
18、力更强,可最终抵达细支气管壁,干扰肺内的气体交换传递,影响 其它器官的功能。美国医学会杂志研宄表明, PM2.5 可以使动脉斑块沉积, 引发动脉粥样硬化和血管炎症,甚至是心脏病或其它心血管问题。当空气中 PM2.5的浓度长期高于 l ng/m3,致使死亡的风险便会上升; PM2.5 浓度每增力口 10jxg/m3,其导致人类死亡风险会上升 4%,由心肺疾病和肺癌致使的死亡风险 则分别上升 6%和8%左右 1。更有甚者,有证据表明最小的颗粒物(直径小于或 等于 0.1 微米)可以通过细胞膜到达大脑及其它器官,可能引发脑损伤 ( 包括老 年痴呆症 )。 空气颗粒物可以引起雾霾进而危害人类身体健康的
19、现象其实很早就引起人 们的关注。 20 世纪 70 年代,人们就开始意识到空气颗粒物污染与人类健康之间 的关系。据报道 ( 2000 年数据 ), 在美国,每年因空气颗粒物污染造成大约 2.2- 5.2 万人次死亡,而在欧洲则高达 20 万人次 2。在中国,据中国科学院陈竺院士 等学者的研宄结果显示,每年因室外空气污染导致早死的人数大约在 35 万 -50 万 人次 3。由此可见,PM2.5 对人类健康的危害是非常严重的。 空气中颗粒物的成分很复杂,对颗粒物的分类归纳一般采用其来源为依据 W。 来源一:地表扬起的尘土,其中含有氧化物矿物和其它成分,是颗粒物 PM10 最主要的来源。 来源二:海
20、盐,其成分与海水的类似,源自火山爆发、沙尘暴、森林火灾、 浪花等过程而产生。 来源三:由氮和硫的氧化物转化而成。属于 PM2.5 的主要来源,也是危害性 最强且最难以防治的空气 颗粒物。最主要的原因是人类对化石燃料、煤炭和垃圾 的燃烧造成的。 近年来,中国雾霾天气逐渐的增多,其主要的原因之一是过多的消耗化石燃 料造成空气中污染物排放过重。排放来源主要为重化工生产、热电、汽车尾气、 冬季供暖以及居民生活。此外,由人类生产活动带来的光化学产物、汽车尾气、 局地烹饪等,都可使挥发性的有机物再次转化为有机气溶胶,这都将加重雾霾天 气的频繁发生。 综上所述,引起霾进而危害人类健康的最主要原因是空气中颗粒
21、物 PM10 和 PM2.5。 因此,从客观上来讲,测量空气中颗粒物 PM10 和 PM2.5 的浓度, 己成 为人类日常生活中不可或缺的空气质量指标。对这两种颗粒的浓度进行监测以及 进一步基于监测的历史数据对未来某段时间的颗粒物浓度进行预测已经刻不容 缓。 对于这项影响到人、车出行的重要指标做出准确预报,其目的是提供未来某 段时间的空气颗粒物浓度信息,以使在某个特定的时间段内(空气污染超标时) 2 兰州大学硕士学位论文 悬浮颗粒物 PM10 与 PM2.5 的统计分析与预测 减少暴露,提高市民工作、生活的效率,加强呼吸道健康、行车安全等方面的保 障,是一项利国利民的工作。因此探宄 PM10
22、和 PM2.5 的预测模型是非常具有现 实意义的。 1.2 空气污染颗粒物 (PM10、 PM2.5)国内外研究现状 20 世纪 90 年代以来,国际上对可吸入颗粒物的研宄主要集中在以下几个方 面:颗粒物的化学组成、物理化学特征、存在状态等及其在大气中的变化、沙尘 颗粒物、大气颗粒物对人体健康的影响以及大气颗粒物的气候效应、能见度的影 响、源解析等 5。近些年来,随着雾霾天气的频繁出现,为了能够更好的做好预 警工作,保障市民工作、生活的效率,加强呼吸道健康、行车安全等方面的措施, 国内外一些学者也开始注重空气颗粒物的有效预测研宄。 1.2. 1 PM10 与 PM2.5 的基本特征 空气颗粒物
23、的基本特征有:数量浓度、质量浓度、大小及形状、颗粒的聚集 特性、有机和无机化学组分、矿物组成、可溶性等,这些基本特征是评价空气颗 粒物的健康效应以及对能见度的影响、气候效应、来源解析的基础。此外,大气 颗粒物的数量浓度和质量浓度决定了人体的暴露度,是评价大气环境质量的基本 依据。颗粒物的物理和化学性质与粒径密切相关,所以空气颗粒物的时空分布规 律也是被人们关注的焦点之一。不同地区的污染源不同,因而其 粒度分布规律也 不相同 &8。 李卫军等 9应用高分辨率场发射扫描电镜获得北京西城区 2002 年春季可吸 入颗粒物的显微镜图片,结合图像分析软件获得 PM10 和 PM2.5 中矿物、烟尘集 合
24、体等几种主要颗粒物的数量 -粒度分布数据。结果表明,该地区可吸入空气颗 粒物的粒径分布在 lpm 到 2.5nm 之间。 目前,很多国家都建立了空气颗粒物浓度的检测点,并出台了空气颗粒物的 国家标准。而我国新的空气质量标准增加了 PM2.5、 臭氧和一氧化碳 3 个检测指 标,并增设了 PM2.5 浓度限值和臭氧 8 小时平均浓度限值,污染物控制项目实 现与世界卫生组织的最低标准接轨,即 24 小时的平均浓度小于 75(ig/m3,年平 均浓度低于35ng/m3f1G。 由于空气颗粒物的健康效应可能同数量浓度而不是质 量浓度有关,所以测量大气颗粒物数量浓度对评价流行病学资料可能是非常重要 的叫
25、。 可吸入颗粒物具有明显的粒径分布特点,研究表明:在 Sachsen-Anhah 州的 ZerbstBitterfeld 和 Hettstedt 市, O.lum 到 0.5nm 粒度范围内的颗粒物的质量占 3 兰州大学硕士学位论文 悬浮颗粒物 PM10 与 PM2.5 的统计分析与预测 PM2J 总质量的 80%ra; Clark 等 6在英国 Leeds 市进行的研究表明:在空气颗粒 物 PM10中,小于 0.43irn 的颗粒物占总质量的 10%-25%,小于 1.5m 的颗粒物 则占总质量的50%,小于 5.0 啤的颗粒物占总质量的 80%; 丁 1511等 12测量了前 ErfUrt
26、 市空气颗粒物的数量和质量粒度分布,结果显示: 01nm-0.5nm 粒度范围的 颗粒物占总质量的 83%,小于 O.ltmi 的颗粒物占总质量的 72%,而另一些城市, 粗颗粒物对 PM10 的贡献可能很大。 Kasparisan 等 I3在法国里昂进行的大气颗粒 物浓度分布研宄表明,小于 1 pm的非挥发性气溶胶数量上占 80%,但对 PM10 的 贡献却只占 5.6%,或 PM2.5 质量的30%,所以少数几个粗颗粒物影响了颗粒物 的质量 -粒度分布。此外,空气颗粒物的粒度分布还受气象因素(风向、温度、相 对湿度等)的影响。 在对空气中的颗粒物进行源解析,并探宄其毒性时,了解颗粒物的化学
27、组成 是首要的。目前,测试的空气颗粒物的主要化学成分有有机组分如多环芳烃、有 机碳等,以及无机离子 ( S |_, NOJ,NH; 重金属离子等 )。 1.2.2 空气颗粒物的源解析 近年来,国内外对空气颗粒物的源解析进行了大量的研究,进一步探究污染 来源分布。根据污染源不同的分布特征,确定颗粒物与污染源的定性、定量关系, 为空气污染治理提供科学引导。 目前,进行颗粒物源解析的手段很多,并以受体模型和扩散模型为主。受体 模型是通过分析空气环境受体以及污染源的性质,对有贡献于受体的污染源进行 定性识别,而对储污染源的分担率 进行定量的计算。同扩散模型相比,受体模型 更得以广泛推广,其原因如下:不
28、需要考虑污染源的地形、气象及排放条件等因 素,空气颗粒物的迁移过程也无需追踪。经过探索,目前已经有多种受体模型: 多元线性回归 CMLR)M, 主成分分析 (PCA) 151 因 子 分 析 投 影 寻 踪 回 归 法 (PPR), 化学质量平衡 (CMB)。 Chan 等 17通过受体模型分析得出澳大利亚布里 斯班的 PM10 主要来自扬尘 25%,二次污染物和碳元素 15%,机动车尾气 13%, 海盐 12%,钕化合物和富钙 11%。中华人民共和国环境保护部规定解析污染源的 方法主要使用受体模型。张晶等 18探宄了北京市空气颗粒物源解析,所采用的模 型是化学质量平衡模型,结果表明燃煤、汽车
29、尾气和尘土是北京市的三大污染源。 王灿星等 119利用同样的方法研宄了杭州市区空气颗粒物 PM10 来源,其主要的污 染源为汽车尾气、燃煤尘、道路建筑尘和二次粒子,它们占到了 PM10 总量浓度 的 90%。;韩力慧等根据同位素示踪法,估算出北京矿物气溶胶中本地源与外 来源的相对贡献值,探究出在春节、冬季外来源对北京地区的矿物气溶胶的贡献 要高于夏季。显然,这与春季、夏季和冬季的气候差异有很大差异。 沙尘暴期间 兰州大学硕士学位论文 悬浮颗粒物 PM10 与 PM2.5 的统计分析与预测 外来源的贡献可达到 97%,成为北京大气颗粒物的主要来源。 1.2. 3 空气颗粒物 (PNI10 与 P
30、M2. 5)的预测现状 为了更好地做好空气颗粒物的预报问题,众多国内外学者开展了长期且广泛 的研究,且以传统的统计模型和神经网络模型为主。统计模型可以确立输入变量 和输出变量的关系,而不用详述它们关系的原由。随机的多元线性回归模型 18_22 以及神经网络模型 23已经被探究并应用于空气污染物浓度预测领域,取得了显著 的效果。虽然自回归移动平均模型 (ARIMA)和多元线性回归模型 (MLR)被广泛的 应用于空气污染预测分析,但是由于这两种模型均为线性模式,从而导致一些非 线性的关系很难被准确预测 24。然而,神经网络模型 _,作为一种非线性映射 工具,也被广泛应用于污染物预测领域,尤其是多层
31、感知结构 252在众多的空 气污染物预测模型中,用于对 PM2.5、 PM10 进行预测的文献却并不是很多,但 也有部分研究取得一定的效果。如, Perez 等 28】 利用 模型对圣地亚 哥,智利 的每小时 PM2.5 浓度进行预测,该模型以风速以及湿度作为解释变量,预测误差 在 30%到 60%之间。在希腊,雅典, Grivas等 29利用 NN 模型,以前一天的 PM10 浓度、风速、温度、相对湿度等作为输入变量,对每小时的 PM10 浓度进行预测。 该模型对预测期进行预测的平均误差大约在 25%到 30%之间。 对于中国来说, 2012 年 3 月国家发布新的空气质量评估标准,将空气颗
32、粒 物污染分成 PM10 与 PM2.5 两项指标,继而污染物监测变为 6 项。因此,到目前 为止有关 PM10 与 PM2.5 数量浓度研究的资料还比较缺乏,对其进行定量分析 预测的文章更是稀少。本文将利用收集到的数据对空气颗粒物浓度进行定量的分 析、研宄与预测,提出具有普适性与稳健性的预测模型,为 PM 浓度的预警工作 提供保障。 1.3 本文的研究工作 本文从以下几个方面对空气颗粒物 (PM10 与 PM2.5)进行定量研宄(图 1.1 给 出本文的基本结构图 ): 首先,本文从气象因素与空气污染因素等角度出发,选取风速、风向、温度、 压强、湿度等气象指标以及一氧化碳 (CO)、 二氧化
33、氮 (N02)、 二氧化硫 (so2)、臭 氧 ( 3: 等空气污染物作为影响因素,利用 Pearson 与 Spearman 相关分析探宄其与 PM10、PM2.5 之间的静态相关关系。 其次,从实际问题的角度考虑, PM10、 PM2.5 与气象指标和空气污染物在 时间上可能存在先导或滞后的关系,即一个变量过去的行为在影响另一个变量的 兰州大学硕士学位论文 悬浮颗粒物 PM10 与 PM2.5 的统计分析与预测 当前行为,或者双方的过去行为在相互影响对方的行为。因此,我们利用 Granger 因果关系检验对 PM10、 PM2.5 与气象因素及空气污染 物之间的动态相关关系也 进行了探宄。
34、 再次 ,为了能够更好的做好 PM10 与 PM2.5 的预报工作,本文选取了 ARIMA 模型与 Back-propagation 神经网络 (BPNN)模型对 PM10 与 PM2.5 进行预测,用 于探究模型对其预测的能力。此外,为了提高预测的精度,布谷鸟算法 (CS)与遗 传算法 (GA)等优化算法也被用于优化 BPNN 的结构参数。 最后,考虑到传统的预测结果一般都是确定性的,即给定一个确定的预测值, 却无法给出预测结果可能的波动范围,显然这是不合理的。鉴于此,本文利用 ARIMA模型与 BPNN 模型对研究地区的空气污染颗粒物 PM10 与 PM2.5 的区间 预测进行了探宂,旨在
35、对未来的 PM10 与 PM2.5 浓度的波动范围给出合理的预 测,从而提供了更为可靠的 PM10 与 PM2.5 预报结果。 1.4 创新点 (1) 本文选取北京、上海、广州、兰州四个城市为研宄区域,首次对这些地 区的空气中悬浮颗粒物 (PM10 与 PM2.5)浓度进行定量地探究分析。 (2) 本文从静态相关性和动态相关性的角度出发,探究空气颗粒物与气象因 素(风向、风速、温度、湿度、压强 ) 以及其它空气污染物 (CO、 N02、 3、 S02) 之间的作用机理。 (3) 本文提出的基于人工智能优化的混合预测模型对空气中悬浮颗粒物浓 度可进行有效的短期多步预测。 (4) 此外,本文不仅对
36、 PM 浓度进行了短期确定值预测,并且还创新性地对 其进行了不同等级的区间预测。基于 CS 优化的 BPNN 模型能够很好的抓住 PM 浓度的变化特点,为 PM 浓度的预测提供了更多并且更精准的预测信息。 6 兰州大学硕士学位论文 悬浮颗粒物 PM10 与 PM2.5 的统计分析与预测 图 1. 本文研宄基本内容结构图 7 兰州大学硕士学位论文 悬浮颗粒物 PMIO 与 PM2.5 的统计分析与预测 第二章关联性分析 2.1 数据来源 本文模拟数据来自中华人民共和国环境保护部官方网站以及中国科学院 大气物理研宄所。其中,温度、压强、风速、湿度、风向等气象因素来自大气物 理研究所历史天气查询服务
37、器。 PM10、 PM2.5、 03、 CO、 S 2、 N02 浓度来自国 家环境监测总站实时发布平台。由于国家环境监测总站提供的数据是实时更新的, 并不能获得历史数据,因此,我们自主开发了一个基于 Java 的网页解析程序,实 时获取网页中的空气质量数据,历时三个月。 本文根据中国历史空气质量状况,选取空气污染较为严重的四个核心城市: 北京、上海、广州以及兰州。分别作为华北、华东、华南、西北地区的代表性城 市,因此本文选取的研宄区域具有一定的代表性和全面性。研宄时间段为 2013 年 12 月 3号 13:00 到 2014 年 3 月 2 号 12:00。该时间段为冬季, PM 浓度相对
38、也 较高,具有更高的研宂意义。 2. 2 数据预处理 在数据搜集过程中,因传输网络不稳定、断电、气象条件或质控检査等因素 都会产生一些零值、负值、异常高值或低值甚至缺失值。当采用时间序列自回归 模型进行建模时,数据集序列必须是连续的。因此,在进行统计分析与模型建立 之前,我们将利用分段三次 Hemiite 插值以及 7-5-3-Haxming 平滑技术对收集的 原始数据 进行预处理,旨在填补缺失数据以及处理序列中的异常数据。 2. 2. 1 缺失数据处理 三次样条 Her mite 插值 数据插值对时间序列的数据挖掘具有重要的作用: (1) 填补缺失值:插值技术是一种能够有效填补空缺值得方法
39、31。 (2) 数值预测:插值技术不仅可以估计序列内部的数值,也可以估计预测 序列的发展趋势 t32。 插值法是一种利用离散函数进行逼近的重要方法,通过离散函数在有限个点 处的取值情况,可以估算出该函数在其它点(缺失点)处的近似值。插值技术可 分为以下几种:线性 (linear)插值,三次样条 (cubic spline)插值和分段三次埃尔米 特 (Hermite)插值。本文提出利用分段三次 Hermite 插值,对缺失数值进行填补处 8 兰州大学硕士学位论文 悬浮颗粒物 PM10 与 PM2.5 的统计分析与预测 (2-2) (2-3) (2-4) 因为分段三次 Hermite 插值函数具有
40、连续一阶导数,插值后的轨迹在控制点 处十分光滑,消除了棱角,并且其它部分非常接近于直线,避免了因过度光滑而 造成的误差。所以采用分段三次 Hermite插值技术对 PM2.5和 PM10的缺失数据 进行补充,更有利于建立有效模型。 因此 ,为了更好的实现时间序列的连续性,本文利用 matlab 软件中的 interplG 函数实现了 PM2.5 和 PM10 序列的分段三次 Hermite 插值。具体函数为 沙 Me,其中为原始数据序列,乃为插值点。 CMWC 指的是插值所用的方法,即分段三次 Hermite 插值。对于该插值方法,可命令 inte/yl 调用函数 cw 况 c, 用于对向量执
41、行分段三次 Hermite 插值,该方法保 留单调性和数据的外形。为了能够更好的阐释分段三次 Hermite 插值技术处理效 果 ,本文选取部分部分数据对其进行图例展示,图 2.1给出了部分 PM10 与 PM2.5 序列插值前后的的趋势对比情况: 9 兰州大学硕士学位论文 悬浮颗粒物 PM10 与 PM2.5 的统计分析与预测 其中,蓝色和天蓝色线段分别表示的是收集到的 PM10和 PM2.5原始时间 序列(带有缺失值 ), 而红色与黑色则为经过分段三次 Hermite 插值技术处理后 的对应的填补数据。从图 2.1 中可以看出,处理后的数据序列保持了原有序列的 波动趋势,因此可以利用该插值
42、序列进行一步的相关性分析。 2. 2. 2 异常数据检测与 7-5-3-Hanning 平滑处理 在数据采集过程中由于外界条件和不可控因素等原因会导致产生一些异常 数据。含有异常值的数据序列是不可信赖的,是对观测数据真实性的一种扭曲, 因此,在数据分析与建立模型之前需要予以检测并处理。 在统计分析中,对异常数据进行有效的挖掘与识别也是非常重要的数据分析 手段。在对异常数据的平滑处理过程中,异常的信号数据点被修改,明显地高于 或低于毗邻数据点的点被降低或提升,从而使得处理后的序列可实现平滑化。若 平滑的假设是合理的,则利用平滑数据集进行数据的分析,我们可以从数据中获 得更多的信息,也可以提供灵活而且稳健的 分析结果。许多不同的算法被应用于 平滑处理,常用的类型有: Additive平滑,巴特沃斯滤 ( Butterworth)滤波器, 数字滤波器,核 ( Kernel)平滑,拉普拉斯( Lapladan)算法,延伸网格法,低 通滤波器,递归滤波器, Savitzky-Golay 平滑,局部回归,平滑样条,道格拉斯 - 普克 ( Ramer-Douglas-Peuckr)算 法 , 移 动 平 均 ,指数平滑以及 Kolmogorov- Zurbenko 滤波等。 本文