《探索性数据分析简介.pptx》由会员分享,可在线阅读,更多相关《探索性数据分析简介.pptx(29页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、2023/3/17试验优化技术1一、探索性数据分析的主要特点一、探索性数据分析的主要特点研究从原始数据入手,完全以实际数据为依据 传统的统计分析方法是先假定数据服从某种分布,如多数情况下假定数据服从正态分布,然后用适应这种分布的模型进行分析和预测。但客观实际的多数数据并不满足假定的理论分布(如正态分布),这样实际场合就会偏离严格假定所描述的理论模型,传统统计方法就可能表现很差,从而使其应用具有极大的局限性。EDA则不是从某种假定出发,而是完全从客观数据出发,从实际数据中去探索其内在的数据规律性。第1页/共29页2023/3/17试验优化技术2 分析方法从实际出发,不以某种理论为依据 传统的统计
2、分析方法是以概率论为理论基础,对各种参数的估计、检验和预测给出具有一定精度的度量方法和度量值。EDA则以不完全正式的方法处理数据。在探索数据内在的数量特征、数量关系和数量变化时,什么方法可以达到这一目的就采用什么方法,灵活对待,灵活处理。方法的选择完全服从于数据的特点和研究的目的,并且更重视数据特征值的稳健耐抗性,而相对放松对概率理论和精确度的刻意追求。第2页/共29页2023/3/17试验优化技术3 分析工具简单直观,更易于普及 传统的统计分析方法应用的数学工具越来越深奥,统计研究也越来越理论化,这样就使应用的人越来越害怕统计。EDA提供多种多样丰富多彩的详细考察数据的方法。例如,它运用简单
3、直观的茎叶图、箱线图、残差图、字母值、数据变换、中位数平滑等与传统统计方法截然不同的方法,使得具有一般数学知识的人就可以进行复杂的数据分析。这不仅极大地扩大了统计分析的用户群体,而且为统计思想注入了新的活力。第3页/共29页2023/3/17试验优化技术41.耐抗性(Resistance)所谓耐抗性即对于数据的局部不良行为的非敏感性,它是EDA追求的主要目标之一。对于具有耐抗性的分析结果,当数据的一小部分被新的数据代替时,即使它们与原来的数值很不一样,分析结果也只会有轻微的改变。人们关注耐抗性,主要是因为“好”的数据也难免有差错甚至是重大差错,因此数据分析时要有防御大错的破坏性影响的措施。ED
4、A是一种耐抗分析方法,其分析结果具有较强的耐抗性。中位数平滑是一种耐抗技术。中位数(Median)是高耐抗统计量,而样本均值不是。二、探索性数据分析的四大主题二、探索性数据分析的四大主题第4页/共29页2023/3/17试验优化技术52.残差(Residuals)残差是数据减去一个总括统计量或模型拟合值以后的残余部分,即:残差数据拟合。例如:用若干对(xi,yi)拟合 ,则残差为 。EDA认为,分析一组数据而不仔细考察残差是不完全的。EDA可以而且应该利用耐抗分析把数据中的主导行为与反常行为清楚地分离开。当数据的大部分遵从一致的模式,这个模式就决定一个耐抗拟合。耐抗残差包含对于这个模式的剧烈偏
5、离及机遇起伏。第5页/共29页2023/3/17试验优化技术63.重新表达(Reexpression)重新表达即找到合适的尺度或数据表达方式以更利于简化分析。EDA强调,要尽早考虑数据的原始尺度是否合适的问题。如果尺度不合适,重新表达成另一个尺度可能更有助于促进对称性、变异恒定性、关系直线性或效应的可加性等。重新表达亦称变换(Transformation),一批数据x1,x2,xn的变换是一个函数T,它把每个xi用新值T(xi)来代替,使得变换后的数据值是 T(x1),T(x2),T(xn)。第6页/共29页2023/3/17试验优化技术74.启示(Revelation)EDA强调启示。所谓启
6、示就是通过EDA新的图解显示和各种分析显示,发现规律,得到启迪,满足分析者的需要:看出数据、拟合、诊断量度以及残差等行为,从而抓住意想不到的特点以及常见的一贯行为。第7页/共29页2023/3/17试验优化技术81.批(Batch)或数据批 批即由n个观测值x1,x2,xn组成的数据组。在传统统计中,这个数据组常称为样本,但批只是原始数据组,没有像对样本那样的任何假设,如数据间独立、服从正态分布等。注意:在传统统计中,常用的样本均值、方差等统计量是不耐抗的,即使只有一个异常数据也会对它们产生巨大的有害影响。而在EDA中,为了探索性目的,用基于排序和计数的简单的总括统计量,如中位数,常常是耐抗的
7、,即一批数据的一小部分不论怎样变化也只对这个总括统计量有很小的影响。三、探索性数据分析的常用术语三、探索性数据分析的常用术语第8页/共29页2023/3/17试验优化技术92.次序统计量(Order Statistics)若把数据批x1,x2,xn排成从小到大的次序,即 则 叫做数据批x1,x2,xn的次序统计量。而x(i)是第i个次序统计量。在排序的基础上,从最小值到最大值各个数据值的先后名次,即为观测值的升秩(Upward rank),即x(1)的升秩为1,x(2)的升秩为2,x(i)的升秩为i;类似地,有降秩的概念,在排序基础上,从最大值到最小值的先后名次即为降秩(Downward ra
8、nk),x(i)的降秩为n+1-i,同一个数据有:升秩降秩n+1第9页/共29页2023/3/17试验优化技术103.深度(Depth)数据批中一个数据值的深度是它的升秩与降秩两者中的最小值。在EDA中规定:次序统计量中,两个极端值x(1)和x(n)的深度为1 两个次极端值x(2)和x(n-1)的深度为2 第i个数据值和第n+1-i个数据值的深度皆为i在EDA中,用深度的概念可以规定怎样从数据批中提炼出各种探索性总括值。第10页/共29页2023/3/17试验优化技术114.中位数(Median)中位数是处于次序统计量中间的数据,它用计数的方法给出数据批的中心,中位数将次序统计量分成“低值”和
9、“高值”两部分。中位数用字母M表示,即 中位数的深度记为d(M)第11页/共29页2023/3/17试验优化技术125.四分数(Fourth)EDA规定:深度为 的点为四分点,相应的数分别称为四分数。四分数有下、上两个,分别记作 ,则 表示取整运算,当d(F)遇有1/2时,表示四分数取深度d(F)相邻两数的平均。第12页/共29页2023/3/17试验优化技术13 由四分数的定义可知,每个四分数都在中位数和那个相应的极端值的半中间,从而两个四分数括住了这批数据的中间那一半,这一半通常被认为具有典型意义。显然,在次序统计量中,下四分数以下为“低值”部分,上四分数以上为“高值”部分。把中位数、四分
10、数和极端数放在一起组成五数总括,可以给出一些又用的信息。第13页/共29页2023/3/17试验优化技术14【例1】Bendixen(1977)给出了需要24小时以上呼吸支持(一种强化治疗)的11类病人的生存百分率。分析什么百分率是典型的。次序统计量为 i:1 2 3 4 5 6 7 8 9 10 11 x(i):36 37 45 52 56 58 66 68 75 90 100 由于n=11,中位数深度d(M)=(11+1)/2=6,中位数Mx(6)58;四分数深度d(F)=(6+1)/2=3.5,因而下四分数Fl=(x(3)+x(4)/2=48.5,上四分数Fu=(x(9)+x(8)/2=
11、71.5 将中位数、极端数、四分数放在一起的五数总括可知:这11类病人生存百分率的典型值是58%,尽管生存率可以高达100,低到36,但其中一半的生存率是48.5%71.5%第14页/共29页2023/3/17试验优化技术156.展布(Spread)展布是反映数据集中程度的一个指标,在EDA中,通常用两个分位点的差距来定义。如一个简单的耐抗量度是四分展布dF,它定义为 dF=FuFl 它给出数据批的中间一半的宽度,简称四分展布或F展布。F展布强调数据批中心部分的行为而不强调极端值,它是对边远值不敏感的展布,这一点极差和标准差都做不到。当然,两个极端值之差即极差也是展布,但是离群值对极差影响太大
12、,一般极差没有什么耐抗性。第15页/共29页2023/3/17试验优化技术167.临界值(Critical value)在EDA中,称Fl1.5 Fl与Fu1.5 Fl分别为下、上内界值,称最接近它们的数据为临界值,将小于下内界值和大于上内界值的数据称为界外值或离群值。进一步,又称Fl3 Fl与Fu3 Fl为下、上外界值,而称这之外的数据为远外值或异常值。EDA要求总括统计量要对离群值特别是异常值具有耐抗性。第16页/共29页2023/3/17试验优化技术17四、耐抗线性回归 传统回归使用最广泛的是最小二乘回归,但最小二乘回归不能提供耐抗性。耐抗线性回归避免了这一困难。它把数据分成3个组,用组
13、内中位数达到耐抗性。基本思路是:首先把n个数据点(x1,y1),(xn,yn)分成3个组,每个组内用中位数形成一个总括点,再在这3个总括点的基础上得到一条线,然后通过迭代调整或平滑这条直线。这种方法称为三组耐抗线法。第17页/共29页2023/3/17试验优化技术181.形成3个组 首先把x的值排序,使得 ,在此基础上,把n个数据点(xi,yi)分成左、中、右3个组,使组的大小尽可能相等。当xi之间没有等值结时,组内的数据点数依赖于n除以3得到的余数:组 n=3k n=3k+1 n=3k+2 左 k k k+1 中 k k+1 k 右 k k k+1第18页/共29页2023/3/17试验优化
14、技术19 当xi之间有等值结时,各组数据点个数可能不能达到上述配置,因为有同样x值的点应该进入同一组。第19页/共29页2023/3/17试验优化技术202.确定总括点 在所形成的3个组内,先求组内x值的中位数,然后单独求y值的中位数,得到总括点的x坐标和y坐标:(xL,yL)(xM,yM)(xR,yR)得到的这3个总括点可能是数据点,也可能不是数据点,因为x和y的中位数是单独确定的。这种确定组内总括点的方法给了拟合直线耐抗性。第20页/共29页2023/3/17试验优化技术213.计算斜率和截距或中心值 若回归直线为 ,则,初始直线的斜率 初始直线的截距 当所有的数据点的x值都远离0时,用斜
15、率和截距来表示拟合直线意义不大,以斜率和中心值来表示通常更有用。第21页/共29页2023/3/17试验优化技术22以斜率和中心值来表示的初始直线是式中,斜率b0的计算和前面一样,中心值(又称水平)a0*用下式计算:第22页/共29页2023/3/17试验优化技术234.残差拟合与迭代 得到初始直线后,计算每个数据点的残差 按先前的分组找出eL,eM,eR,利用三个残差数据的总括点用相同的方法拟合直线,得到斜率和水平(xL,eL)(xM,eM)(xR,eR)第23页/共29页2023/3/17试验优化技术24 用残差拟合得到的斜率和水平对初始直线的斜率和水平进行调整,得到调整后的斜率和水平 然
16、后用新的直线再计算残差,并进行残差拟合,并用拟合结果对直线进行调整,直到斜率的调整值(即残差方程的斜率)不超过初始斜率绝对值的1或0.01%,这种迭代过程终止。第24页/共29页2023/3/17试验优化技术25【例2】某学校儿童的年龄与身高的数据如下表,试用三组耐抗线法拟合儿童身高y与年龄x间的关系。编编号号年龄年龄x x/月月身高身高y/cmy/cm残差残差e ei i编编号号年龄年龄x x/月月身高身高y/cmy/cm残差残差e ei i1 1109109137.6137.60.720.721010129129148.3148.31.551.552 2113113147.8147.88.
17、958.951111130130147.5147.50.260.263 3115115115115138.8138.8-3.04-3.041212133133148.8148.80.080.084 4116116116116140.7140.70.370.371313134134133.2133.2-16.01-16.015 5119119132.7132.7-9.11-9.111414135135148.7148.7-1.01-1.016 6120120145.4145.43.093.091515137137152.0152.01.311.317 7121121135.0135.0-7.80
18、-7.801616139139150.6150.6-1.08-1.088 8124124133.0133.0-11.28-11.281717141141165.3165.312.6312.639 9126126148.5148.53.233.231818142142149.9149.9-3.26-3.26第25页/共29页2023/3/17试验优化技术26第26页/共29页2023/3/17试验优化技术27第27页/共29页2023/3/17试验优化技术28继续迭代两次后,达到精度要求,最后得到的直线方程是:采用传统方法得到的方程是第28页/共29页2023/3/17试验优化技术29感谢您的观看。第29页/共29页