《第四讲-时间序列分析的预处理..优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第四讲-时间序列分析的预处理..优秀PPT.ppt(61页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四节第四节 时间序列数据的预处理时间序列数据的预处理一、动态数据的正态性检验一、动态数据的正态性检验二、动态数据的离群点二、动态数据的离群点三、动态数据的缺失值填充三、动态数据的缺失值填充四、动态数据的平稳性检验四、动态数据的平稳性检验五、动态数据的纯随机性检验五、动态数据的纯随机性检验1获获得得观观察察值值序序列列平稳性平稳性检验检验差分差分运算运算YN纯随机纯随机检验检验Y分分析析结结束束N拟合拟合ARMA模型模型时间序列的预处理时间序列的预处理(续续)1.平稳性定义平稳性定义学问回顾学问回顾若时间序列有有穷的二阶矩,且若时间序列有有穷的二阶矩,且 Xt 满足如下两个条件:满足如下两个条
2、件:则称该时间序列为平稳序列。则称该时间序列为平稳序列。包括严平稳序列和宽平稳序列。包括严平稳序列和宽平稳序列。四、四、平稳性检验平稳性检验在对实际的时间序列进行建模之前,应首先检验序在对实际的时间序列进行建模之前,应首先检验序列是否平稳,若序列非平稳,应先通过适当变换列是否平稳,若序列非平稳,应先通过适当变换将其化为平稳序列,然后再进行模型的建立。将其化为平稳序列,然后再进行模型的建立。2.关于非平稳序列的处理关于非平稳序列的处理序列的非平稳包括序列的非平稳包括均值非平稳均值非平稳和和方差非平方差非平 稳。稳。均值非平稳序列平稳化的方法:均值非平稳序列平稳化的方法:差分变换。差分变换。方差非
3、平稳序列平稳化的方法:方差非平稳序列平稳化的方法:对数变换、对数变换、平方根变换平方根变换等。等。3.平稳性检验方法平稳性检验方法非参数检验法非参数检验法特征根检验法特征根检验法单位根检验法单位根检验法(1)通过时间序列的趋势图来推断通过时间序列的趋势图来推断(2)通过自相关函数通过自相关函数(ACF)推断推断图检验方法图检验方法 非参数检验法:非参数检验法:游程检验游程检验一个游程定义为一个具有相同符号的连续串,在它前一个游程定义为一个具有相同符号的连续串,在它前后相接的是与其不同的符号或完全无符号。后相接的是与其不同的符号或完全无符号。例如,视察的结果用加、减标记表示,得到一组这样例如,视
4、察的结果用加、减标记表示,得到一组这样的记录依次:的记录依次:+-+-+-+这个样本的视察结果共有这个样本的视察结果共有7个游程。个游程。(1)什么是游程什么是游程(2)游程检验的基本思想游程检验的基本思想假如符号序列是随机的,那么假如符号序列是随机的,那么“+”和和“-”将随机将随机出现,因此它的游程数既不会太多,又不会太少;出现,因此它的游程数既不会太多,又不会太少;反过来说假如符号序列的游程总数太少或太多,我反过来说假如符号序列的游程总数太少或太多,我们就可以认为时间序列存在某种趋势性或周期性。们就可以认为时间序列存在某种趋势性或周期性。a.小样本状况小样本状况零假设零假设H0:加号和减
5、号以随机的方式出现:加号和减号以随机的方式出现检验方法:取显著性水平检验方法:取显著性水平(一般取一般取0.05),查单样本游查单样本游程检验表,得出抽样分布的临界值程检验表,得出抽样分布的临界值rL、rU判定:若判定:若rL r rU 或或r rL则拒绝零假设,则拒绝零假设,序列是非平稳的。序列是非平稳的。(3)检验方法检验方法b.大样本状况大样本状况零假设零假设H0:加号和减号以随机的方式出现:加号和减号以随机的方式出现检验方法:给定显著性水平检验方法:给定显著性水平(一般取一般取0.05)查标准正态分布查标准正态分布表,得出抽样分布的临界值表,得出抽样分布的临界值-z,+z。并计算统计量
6、。并计算统计量:判定:若判定:若-z z3时都落入置信区间,且时都落入置信区间,且渐渐趋于零,则该时间序列具有平稳性;渐渐趋于零,则该时间序列具有平稳性;u若时间序列的自相关函数更多地落在置信区间外面,则若时间序列的自相关函数更多地落在置信区间外面,则该时间序列就不具有平稳性。该时间序列就不具有平稳性。l 若序列无趋势,但是具有季节性,那末对于按月采若序列无趋势,但是具有季节性,那末对于按月采集的数据,时滞集的数据,时滞12,24,36的自相关系数达到最的自相关系数达到最大大(假如数据是按季度采集,则最大自相关系数出现在假如数据是按季度采集,则最大自相关系数出现在4,8,12,),并且随着时滞
7、的增加变得较小。,并且随着时滞的增加变得较小。n若序列是有趋势的,且具有季节性,其自相关函数特若序列是有趋势的,且具有季节性,其自相关函数特性类似于有趋势序列,但它们是摇摆的,对于按月数性类似于有趋势序列,但它们是摇摆的,对于按月数据,在时滞据,在时滞12,24,36,等处具有峰态;假如时等处具有峰态;假如时间序列数据是按季节的,则峰出现在时滞间序列数据是按季节的,则峰出现在时滞4,8,12,等处。等处。应用举例应用举例例例1 时序图时序图检验检验1951年年2005年我国居民住院消费价格指数年我国居民住院消费价格指数的平稳性的平稳性例例2 时序图时序图检验检验1990年年1月月1997年年1
8、2月我国药品总产值序月我国药品总产值序列的平稳性列的平稳性例例1 居民住院消费价格指数时序图居民住院消费价格指数时序图平平稳稳序序列列例例2 药品总产值时序图药品总产值时序图非非平平稳稳序序列列(1)选择菜单)选择菜单GraphSequence。绘制序列图的基本操作绘制序列图的基本操作(2)将需绘图的序列变量选入)将需绘图的序列变量选入Variables框中。框中。(3)在)在Time Axis Labels框中指定横轴(时间轴)标记变量。该标记变量框中指定横轴(时间轴)标记变量。该标记变量默认的是日期型变量。默认的是日期型变量。(4)在)在Transform框中指定对变量进行怎样的变更处理。
9、其中框中指定对变量进行怎样的变更处理。其中Natural log transform表示对数据取自然对数,表示对数据取自然对数,Difference表示对数据进行表示对数据进行n阶(默认阶(默认1阶)差分,阶)差分,Seasonally difference表示对数据进行季节差分。表示对数据进行季节差分。(5)单击)单击Time Lines 按钮定义序列图中须要特殊标注的时间按钮定义序列图中须要特殊标注的时间点,给出了无标注(点,给出了无标注(No reference Lines)、在某变量变更时)、在某变量变更时标注(标注(Line at each change of)、在某个日期标注()、
10、在某个日期标注(Line at date)三项供选择。)三项供选择。(6)单击)单击Format 按钮定义图形的格式,按钮定义图形的格式,可选择横向或纵向可选择横向或纵向序列图;对于单变量序列图,可选择绘制线图或面积图,还序列图;对于单变量序列图,可选择绘制线图或面积图,还可选择在图中绘制序列的均值线;对多变量的序列图,可选可选择在图中绘制序列的均值线;对多变量的序列图,可选择将不同变量在同一时间点上的点用直线连接起来。择将不同变量在同一时间点上的点用直线连接起来。通过自相关函数通过自相关函数(ACF)进一步推断进一步推断一个时间序列的一个时间序列的样本自相关函数样本自相关函数定义为:定义为:
11、可可以以证证明明:随随着着k的的增增加加,样样本本自自相相关关函函数数下下降降且且趋趋于零。于零。()()()=-=+-=nttkntkttXXXXXX121序列的自相关函数序列的自相关函数(ACF)要么是截尾的,要么是拖要么是截尾的,要么是拖尾的。因此我们可以依据这个特性来推断时间序列尾的。因此我们可以依据这个特性来推断时间序列是否为平稳序列。是否为平稳序列。从下降速度来看,平稳序列要比非平稳序列快得多。从下降速度来看,平稳序列要比非平稳序列快得多。平稳序列的自相关系数常常表现出截尾,而非平平稳序列的自相关系数常常表现出截尾,而非平稳序列的自相关系数常常是拖尾的。稳序列的自相关系数常常是拖尾
12、的。应用举例应用举例例例3 自相关图自相关图检验检验1951年年2005年我国居民住院消费价格指数年我国居民住院消费价格指数的平稳性的平稳性例例4 自相关图自相关图检验检验1990年年1月月1997年年12月我国药品总产值序月我国药品总产值序列的平稳性列的平稳性例例2 居民住院消费价格指数自相关图居民住院消费价格指数自相关图平平稳稳序序列列自自相相关关图图例例3 药品总产值相关图药品总产值相关图非非平平稳稳序序列列自自相相关关图图(1)选择菜单)选择菜单GraphTimeSeriesAutocorrelations。绘制自相关函数图的基本操作绘制自相关函数图的基本操作(2)将需绘制的序列变量选
13、入)将需绘制的序列变量选入Variables框框(3)在)在Display框选择绘制哪种图形,框选择绘制哪种图形,其中其中Autocorrelations表示绘制自相关函数图;表示绘制自相关函数图;Partial autocorrelations表示绘制偏自相表示绘制偏自相 关函数图。一般可同时绘制两种图形。关函数图。一般可同时绘制两种图形。(4)单击)单击Options按钮定义相关参数,按钮定义相关参数,Maximum Number of Lags表示相关表示相关函数值包含的最大滞后期函数值包含的最大滞后期(时间间隔时间间隔h)。一般选择两个最大周期以上的数。一般选择两个最大周期以上的数据。
14、在据。在Standard Error Method框中指定计算相关系数标准差的方法,确框中指定计算相关系数标准差的方法,确定相关函数图形中的置信区间。其中定相关函数图形中的置信区间。其中Independence model表示假设序列表示假设序列是白噪声的过程;是白噪声的过程;Bartletts approximation表示用估计自相关系数和偏自表示用估计自相关系数和偏自相关系数方差的近似式计算方差。该方法适合序列是相关系数方差的近似式计算方差。该方法适合序列是k-1阶的移动平均过阶的移动平均过程,且标准差随阶数的增大而增大的状况。程,且标准差随阶数的增大而增大的状况。(5)选中)选中Dis
15、play autocorrelation at periodic lags表示只显示时表示只显示时间序列周期整数倍处的相关函数值。一般假如只考虑序列中间序列周期整数倍处的相关函数值。一般假如只考虑序列中的周期因素可选中该项。否则该步可略去。最终就的周期因素可选中该项。否则该步可略去。最终就OK了。了。五五 纯随机性检验纯随机性检验(一)纯随机序列的定义(一)纯随机序列的定义(二)纯随机性的性质(二)纯随机性的性质(三)纯随机性检验(三)纯随机性检验(一)纯随机序列的定义(一)纯随机序列的定义纯随机序列也称为白噪声序列,它满足如下两纯随机序列也称为白噪声序列,它满足如下两条性质条性质并不是全部平
16、稳序列都值得建模!并不是全部平稳序列都值得建模!纯随机序列无法预料,无法进一步建模!纯随机序列无法预料,无法进一步建模!方差方差齐性齐性纯随纯随机性机性0标准正态白噪声序列时序图标准正态白噪声序列时序图(二)白噪声序列的性质(二)白噪声序列的性质 纯随机性纯随机性 各序列值之间没有任何相关关系,即为各序列值之间没有任何相关关系,即为“没有记没有记忆忆”的序列的序列 方差齐性方差齐性(平稳平稳)依据马尔可夫定理,只有方差齐性假定成立时,依据马尔可夫定理,只有方差齐性假定成立时,用最小二乘法得到的未知参数估计值才是精确的、用最小二乘法得到的未知参数估计值才是精确的、有效的有效的(三)纯随机性检验(
17、三)纯随机性检验 1.检验原理检验原理2.假设条件假设条件3.检验统计量检验统计量 4.判别原则判别原则5.应用举例应用举例1.检验原理检验原理:Barlett定理定理 假如一个时间序列是纯随机的,得到一个视察期假如一个时间序列是纯随机的,得到一个视察期数为数为 的视察序列,那么该序列的延迟非零期的的视察序列,那么该序列的延迟非零期的样本自相关系数将近似听从均值为零,方差为序样本自相关系数将近似听从均值为零,方差为序列视察期数倒数的正态分布列视察期数倒数的正态分布Bartlett公式公式若若 在在 时趋于零,则在时趋于零,则在N足够大的足够大的状况下其方差为状况下其方差为并且,当并且,当 时,
18、时,近似于正态分布。近似于正态分布。47自相关自相关系数系数协方差函数协方差函数自相关函数自相关函数2.假设条件假设条件原假设:原假设:延迟期数小于或等于延迟期数小于或等于 期的序列值之期的序列值之间相互独立间相互独立备择假设:备择假设:延迟期数小于或等于延迟期数小于或等于 期的序列值期的序列值之间有相关性之间有相关性 3.检验统计量检验统计量Q统计量统计量(大样本)(大样本)LB统计量统计量(小样本)(小样本)4.判别原则判别原则拒绝原假设拒绝原假设当检验当检验统计量大于统计量大于 分位点分位点,或该统计量的,或该统计量的P值小于值小于 时时,则可以以,则可以以 的置信水平拒绝原假设,的置信
19、水平拒绝原假设,则认为该序列为非白噪声序列则认为该序列为非白噪声序列接受原假设接受原假设当检验统计量当检验统计量小于小于 分位点,或该统计量的分位点,或该统计量的P值值大于大于 时,则认为在时,则认为在 的置信水平下无法拒绝原假的置信水平下无法拒绝原假设,即不能拒绝序列为纯随机序列的假定设,即不能拒绝序列为纯随机序列的假定 若若 为白噪声的自相关系数,则在为白噪声的自相关系数,则在M=0依据统计检验的依据统计检验的 准则,当准则,当时,便可认为时,便可认为 为为0的可能性是的可能性是95%,从而接受,从而接受 这一估计,即数据是独立的。这一估计,即数据是独立的。51或或5.应用举例应用举例例例
20、3:标准正态白噪声序列纯随机性检验。:标准正态白噪声序列纯随机性检验。例例4 对对19491998年北京市流感发病率序列年北京市流感发病率序列做白噪声检验。做白噪声检验。例例5 对对1950年年1998年北京市城乡居民医年北京市城乡居民医疗保险占比例序列的平稳性与纯随机性进疗保险占比例序列的平稳性与纯随机性进行检验。行检验。例例3:标准正态白噪声序列纯随机性检验:标准正态白噪声序列纯随机性检验样样本本自自相相关关图图检验结果检验结果延迟延迟Q统计量检验统计量检验Q统计量值统计量值P值值延迟延迟6期期4.34350.63延迟延迟12期期14.1710.29由于由于P值显著大于显著性水平值显著大于
21、显著性水平 ,所以该序列不能拒绝,所以该序列不能拒绝纯随机的原假设。纯随机的原假设。例例4 19491998年北京市流感发病率序列年北京市流感发病率序列的白噪声检验。的白噪声检验。样样本本自自相相关关图图例例4 白噪声检验结果白噪声检验结果延迟阶数延迟阶数Q统计量检验统计量检验Q检验统计量检验统计量的值的值P值值65.3840.496126.17210.907由于由于P值显著大于显著性水平值显著大于显著性水平 ,所以不能拒绝序列纯随机的,所以不能拒绝序列纯随机的原假设。因而可以认为北京市流感发病的变动属于纯随机波动。原假设。因而可以认为北京市流感发病的变动属于纯随机波动。这说明我们很难依据历史
22、信息预料将来年份的流感发病状况。这说明我们很难依据历史信息预料将来年份的流感发病状况。例例5 时序图时序图例例5 自相关图自相关图例例5 白噪声检验结果白噪声检验结果延迟阶数延迟阶数Q统计量检验统计量检验Q检验统计量检验统计量的值的值P值值665.1510.00011271.7730.0001由于由于P值显著小于显著性水平值显著小于显著性水平 ,所以我们可以以很大的把,所以我们可以以很大的把握断定北京市城乡居民医保比例序列属于非白噪声序列。握断定北京市城乡居民医保比例序列属于非白噪声序列。结合前面的平稳性检验结果,说明该序列不仅可以视为是平稳的,而且还蕴含着值得我们提取的相关信息。这种平稳非白噪声序列是目前最简洁分析的一种序列。习题四习题四 用上次的数据作时序图和自相关图,并根用上次的数据作时序图和自相关图,并根 据图形探讨序列是否具有平稳性和随机性?据图形探讨序列是否具有平稳性和随机性?