时间序列预处理.ppt

上传人:石*** 文档编号:50355023 上传时间:2022-10-14 格式:PPT 页数:51 大小:2.23MB
返回 下载 相关 举报
时间序列预处理.ppt_第1页
第1页 / 共51页
时间序列预处理.ppt_第2页
第2页 / 共51页
点击查看更多>>
资源描述

《时间序列预处理.ppt》由会员分享,可在线阅读,更多相关《时间序列预处理.ppt(51页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、时间序列预处理现在学习的是第1页,共51页时间序列之概念n(1)从统计意义上,将某一指标在不同时间上的不同数值,按照时间的先后次序排列而成的数列。各种偶然因素的影响,表现出某种随机性,存在统计上的依赖关系。n(2)从系统意义上,某一系统在不同时间(地点,条件等)的响应。n(3)从数学意义上,对某一过程中的某一个变量或一组变量X(t)进行观察测量,在一系列时刻t1 t2 t3 等得到的离散有序数集合X(t1),X(t2),称为离散时间序列。2现在学习的是第2页,共51页第二章时间序列的预处理现在学习的是第3页,共51页本章结构n时间序列的建立(补充)n平稳性检验n纯随机性检验4现在学习的是第4页

2、,共51页补充:补充:时间序列的建立时间序列的建立n 要分析时间序列,就必须建立一个时间序列。一般来说,研究者是运用记录仪或通过观察测量来获得所研究系统的真实有限的数据集合。有时也可以直接用二手资料。但是,不论是通过哪一种途径获得的时间序列,在进行分析处理前,必须对所依据的资料进行认真地检查、整理,有时还需要进行适当的预处理。我们把获取时间序列以及对其进行检查、整理和预处理等工作,称为时间序时间序列的建立列的建立。5现在学习的是第5页,共51页一、时间序列数据的采集n 1 采样:按照一定的时间间隔对所研究系统的响应进行记录和观察。n 2 采样间隔(时间频率):记录和观察的时间间隔。一般采样是等

3、间隔的,比如年、月、日等。时间的频率。n 3 采样原则:关键采样间隔的选择,希望所采到的样本没有信息损失,也没有信息冗余。6现在学习的是第6页,共51页(一)离群点(outier):指在一个时间序列里,远离序列一般水平的极端大值和极端小值。也称奇异值或者野值。(二)离群点产生的原因1、采样中的误差。2、被研究现象本身由于受各种偶然非正常的因素影响而引起的。(三)离群点的主要影响 1、影响模型的拟合精度,甚至得到虚假信息;被认为是一个“坏值”。2、同时可以提供重要信息。如关于系统稳定性和灵敏性等信息。二二、离群点、离群点(outiler)的检验与处理的检验与处理7现在学习的是第7页,共51页(四

4、)离群点的分类(四)离群点的分类 8现在学习的是第8页,共51页(四)离群点的分类(四)离群点的分类9现在学习的是第9页,共51页(五)离群点的检验 1、确定离群点范围,如果某一时刻数值超出该范围,则说明该点是离群点。2、对数据进行模型分析,然后根据拟合模型后的残差序列计算特定的统计量,测出离群点及其类型,并用相应的模型修正。在统计分析中如何识别极端值在统计分析中如何识别极端值 江苏统计1999、11 郭莉 1、四分展步法 2、3 法 3、茎叶图法10现在学习的是第10页,共51页三、缺损值三、缺损值(Missing value)的补足的补足 缺损值:在采集时间序列时,由于种种原因,引起在某些

5、观测点上未能记录下来观测值。缺损值的影响:破坏了系统运行的连续性,违背了时间序列“顺序的重要性”的原则。方法:增长量推算法、发展速度推算法 比例推算法、平滑法、插值估算法 11现在学习的是第11页,共51页n在SPSS中,缺失值填充方法:n1、series mean 全体序列的均数,默认值n2、mean of nearby points 相邻若干点的均数n3、median of nearby points:相邻若干点的中位数n4、linear interpolation:线性内插,缺失值相邻两点的均数,但缺失值在序列的最前/最后,则无法被填充。n 5、linear trend at point

6、.该点的线性趋势,将记录号作为自变量,序列值作为应变量回归,求得该点的估计值。12现在学习的是第12页,共51页n最后对序列中的每一个数据的指标口径、计算范围、计算方法、计量单位等进行认真检查,对经济时间序列来说,还必须检查计算价格等方面是否一致。13现在学习的是第13页,共51页四 时间序列建立的实例n 1 确定时间序列的时间间隔n 2 确定指标计算范围n 3 确定计算方法n 4 确定指标口径n 5 检查数据n 6 调整数据14现在学习的是第14页,共51页时间序列的预处理时间序列的预处理时间序列平稳性平稳性检验检验平稳性时间序列非平稳性时间序列纯随机纯随机性检验性检验白噪声序列(纯随机序列

7、)平稳非白噪声序列无规律可循,分析结束ARMA模型1.确定性分析2.随机性分析(ARIMA模型)15现在学习的是第15页,共51页2.1平稳性检验 n特征统计量n平稳时间序列的定义n平稳时间序列的统计性质n平稳时间序列的意义n平稳性的检验 16现在学习的是第16页,共51页概率分布n概率分布的意义n随机变量族的统计特性完全由它们的联合分布函数或联合密度函数决定。n时间序列概率分布族的定义n实际应用的局限性17现在学习的是第17页,共51页特征统计量n均值 n方差n自协方差n自相关系数18现在学习的是第18页,共51页平稳时间序列的定义n严平稳n严平稳是一种条件比较苛刻的平稳性定义,它认为只有当

8、序列所有的统计性质都不会随着时间的推移而发生变化时,该序列才能被认为平稳。n宽平稳n宽平稳是使用序列的特征统计量来定义的一种平稳性。它认为序列的统计性质主要由它的低阶矩决定,所以只要保证序列低阶矩平稳(二阶),就能保证序列的主要性质近似稳定。19现在学习的是第19页,共51页平稳时间序列的统计定义 n满足如下条件的序列称为严平稳序列n满足如下条件的序列称为宽平稳序列20现在学习的是第20页,共51页严平稳与宽平稳的关系n一般关系n严平稳条件比宽平稳条件苛刻,通常情况下,严平稳(低阶矩存在)能推出宽平稳成立,而宽平稳序列不能反推严平稳成立n特例n不存在低阶矩的严平稳序列不满足宽平稳条件,例如服从

9、柯西分布的严平稳序列就不是宽平稳序列n当序列服从多元正态分布时,宽平稳可以推出严平稳21现在学习的是第21页,共51页n(1)严平稳不一定宽平稳。n(2)宽平稳不一定严平稳。n(3)严平稳+二阶矩存在=宽平稳。但反过来一般不成立。n(4)对于正态过程来说,有严平稳宽平稳22现在学习的是第22页,共51页平稳时间序列的统计性质 n常数均值 n自协方差函数和自相关函数只依赖于时间的平移长度而与时间的起止点无关 n延迟k自协方差函数 n延迟k自相关系数23现在学习的是第23页,共51页自相关系数的性质n规范性 n对称性 n非负定性 n非唯一性 24现在学习的是第24页,共51页平稳时间序列的意义 n

10、时间序列数据结构的特殊性n可列多个随机变量,而每个变量只有一个样本观察值n平稳性的重大意义n极大地减少了随机变量的个数,并增加了待估变量的样本容量n极大地简化了时序分析的难度,同时也提高了对特征统计量的估计精度25现在学习的是第25页,共51页平稳性检验方法(1)通过时间序列的趋势图来判断(2)通过自相关函数(ACF)判断特征根检验法单位根检验法非参数检验法图检验方法图检验方法返回本节首页下一页上一页26现在学习的是第26页,共51页图检验(特点)n这种方法是通过观察时间序列的趋势图和自相关图来判断时间序列是否存在趋势性或周期性。n优点:简便、直观。对于那些明显为非平稳的时间序列,可以采用这种

11、方法。n缺点:对于一般的时间序列是否平稳,不易用这种方法判断出来。27现在学习的是第27页,共51页(1)时序图检验(判断准则)u根据平稳时间序列均值、方差为常数的性质,平稳序列的时序图应该显示出该序列始终在一个常数值附近随机波动,而且波动的范围有界、无明显趋势及无周期特征28现在学习的是第28页,共51页(2)自相关图检验(判断准则)u平稳序列通常具有短期相关性。该性质用自相平稳序列通常具有短期相关性。该性质用自相关系数来描述就是随着延迟期数的增加,平稳序关系数来描述就是随着延迟期数的增加,平稳序列的自相关系数会很快地衰减向零。列的自相关系数会很快地衰减向零。若时间序列的自相关函数在k3时都

12、落入置 信区间,且逐渐趋于零,则该时间序列具有平稳性;若时间序列的自相关函数更多地落在置信区间外面,则该时间序列就不具有平稳性。29现在学习的是第29页,共51页n若序列无趋势若序列无趋势,但是具有季节性但是具有季节性,那末对于按月采集的数据,时滞12,24,36的自相关系数达到最大(如果数据是按季度采集,则最大自相关系数出现在4,8,12,),并且随着时滞的增加变得较小。30现在学习的是第30页,共51页n若序列是有趋势的,且具有季节性,其自相关函数特性类似于有趋势序列,但它们是摆动的,对于按月数据,在时滞12,24,36,等处具有峰态;如果时间序列数据是按季节的,则峰出现在时滞4,8,12

13、,等处。31现在学习的是第31页,共51页例题n例2.1n检验1964年1999年中国纱年产量序列的平稳性n例2.2n检验1962年1月1975年12月平均每头奶牛月产奶量序列的平稳性n例2.3n检验1949年1998年北京市每年最高气温序列的平稳性32现在学习的是第32页,共51页例2.1时序图33现在学习的是第33页,共51页例2.1自相关图34现在学习的是第34页,共51页例2.2时序图35现在学习的是第35页,共51页例2.2 自相关图36现在学习的是第36页,共51页例2.3时序图37现在学习的是第37页,共51页例2.3自相关图38现在学习的是第38页,共51页2.2 纯随机性检验

14、 n纯随机序列的定义n纯随机性的性质n纯随机性检验39现在学习的是第39页,共51页纯随机序列的定义n纯随机序列也称为白噪声序列,它满足如下两条性质 40现在学习的是第40页,共51页标准正态白噪声序列时序图 41现在学习的是第41页,共51页白噪声序列的性质 n纯随机性 n各序列值之间没有任何相关关系,即为“没有记忆没有记忆”的序列 n意义:纯随机性是判断相关信息是否提取充分的一个判别标准n方差齐性 n序列中每个变量的方差都相等n根据马尔可夫定理,只有方差齐性假定成立时,用最小二乘法得到的未知参数估计值才是准确的、有效的42现在学习的是第42页,共51页纯随机性检验 n检验原理n假设条件n检

15、验统计量 n判别原则43现在学习的是第43页,共51页Barlett定理 n如果一个时间序列是纯随机的,得到一个观察期数为 的观察序列,那么该序列的延迟非零期的样本自相关系数将近似服从均值为零,方差为序列观察期数倒数的正态分布44现在学习的是第44页,共51页假设条件n原假设:延迟期数小于或等于 期的序列值之间相互独立n备择假设:延迟期数小于或等于 期的序列值之间有相关性 45现在学习的是第45页,共51页检验统计量nQ统计量:适合于大样本情况nLB统计量:46现在学习的是第46页,共51页判别原则n拒绝原假设n当检验统计量大于 分位点,或该统计量的P值小于 时,则可以以 的置信水平拒绝原假设

16、,认为该序列为非白噪声序列n接受原假设n当检验统计量小于 分位点,或该统计量的P值大于 时,则认为在 的置信水平下无法拒绝原假设,即不能显著拒绝序列为纯随机序列的假定 47现在学习的是第47页,共51页例2.4:标准正态白噪声序列纯随机性检验样本自相关图样本自相关图48现在学习的是第48页,共51页检验结果延迟统计量检验统计量值P值延迟6期2.360.8838延迟12期5.350.9454由于P值显著大于显著性水平 ,所以该序列不能拒绝纯随机的原假设。49现在学习的是第49页,共51页例2.5n对1950年1998年北京市城乡居民定期储蓄所占比例序列的平稳性与纯随机性进行检验 50现在学习的是第50页,共51页例2.5时序图51现在学习的是第51页,共51页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁