《输入数据分析.ppt》由会员分享,可在线阅读,更多相关《输入数据分析.ppt(44页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、一、输入数据的收集一、输入数据的收集第八章第八章 输入数据分析输入数据分析?模型的输入数据哪里来?模型的输入数据哪里来?输入数据分析输入数据分析生产仿真结果的准确性生产仿真结果的准确性生产模型的准确建立仿真数据的准确性仿真数据的准确性输入数据是仿真模型的动力输入数据是仿真模型的动力GIGO(garbage in garbage out)系统名称系统名称典型的输入数据典型的输入数据排队系统排队系统 顾客到达的间隔时间顾客到达的间隔时间 顾客被服务时间的分布顾客被服务时间的分布自动化物流自动化物流系统系统 货物到达间隔时间货物到达间隔时间 装载时间装载时间 卸载时间卸载时间生产系统生产系统 作业到
2、达的间隔时间作业到达的间隔时间 作业类型的概率作业类型的概率 每种作业每道工序服务时间的分布每种作业每道工序服务时间的分布可靠性系统可靠性系统 生产无故障作业时间生产无故障作业时间 系统的仿真依靠这些原型系统的运行数据,缺乏这系统的仿真依靠这些原型系统的运行数据,缺乏这些数据的实验和实验值的提取,仿真也就毫无意义。些数据的实验和实验值的提取,仿真也就毫无意义。收集原始数据收集原始数据 基本统计分布基本统计分布的辨识的辨识 参参 数数 估估 计计 拟合度检验拟合度检验 可信否?可信否?否是是输入数据分析的基础,需要分析的经验,对是输入数据分析的基础,需要分析的经验,对收集的方法、数据需要做预先的
3、设计和估算。收集的方法、数据需要做预先的设计和估算。因此这是一个关键的、细致的工作。因此这是一个关键的、细致的工作。通过统计的数学手段(计数统计、频率分析、通过统计的数学手段(计数统计、频率分析、直方图制作等),得出统计分布的假设函数直方图制作等),得出统计分布的假设函数(如:正态分布、负指数分布、(如:正态分布、负指数分布、Erlang分布分布等)等)根据统计特征,计算确定系统的假设分布参根据统计特征,计算确定系统的假设分布参数。数。运用统计分布的检验方法,对假设的分布函运用统计分布的检验方法,对假设的分布函数进行可信度检验。通常采用的是数进行可信度检验。通常采用的是 2检验。检验。正确输入
4、数据正确输入数据 一、输入数据的收集一、输入数据的收集 做好仿真计划,详细规划仿真所需要收集的数据做好仿真计划,详细规划仿真所需要收集的数据在收集数据过程中要注意分析数据在收集数据过程中要注意分析数据数据的均匀组合数据的均匀组合收集的数据要满足独立性的要求收集的数据要满足独立性的要求数据自相关性的检验数据自相关性的检验 根据问题的特征,进行仿真的前期研究。分析影根据问题的特征,进行仿真的前期研究。分析影响系统的关键因素。从相关事物的观察入手,尽响系统的关键因素。从相关事物的观察入手,尽量收集相关的数据。为此可以事先设计好调研表量收集相关的数据。为此可以事先设计好调研表格,并注意不断完善和修改调
5、研方式,使收集的格,并注意不断完善和修改调研方式,使收集的数据更符合仿真对象的数据需要。数据更符合仿真对象的数据需要。数据的收集与仿真的试运行是密切相关的,应当是边收集数数据的收集与仿真的试运行是密切相关的,应当是边收集数据、边进行仿真的试运行。然而系统仿真是一项专业性很强据、边进行仿真的试运行。然而系统仿真是一项专业性很强的工作,要正确认识的工作,要正确认识“仿真仿真”的含义,抓住仿真研究的关键,的含义,抓住仿真研究的关键,避免求全、求精。确信所收集的数据足以确定仿真中的输入避免求全、求精。确信所收集的数据足以确定仿真中的输入分量,而对仿真无用或影响不显著的数据就没有必要去多加分量,而对仿真
6、无用或影响不显著的数据就没有必要去多加收集。收集。针对仿真所收集的各个数据需要进行相关性检验。为针对仿真所收集的各个数据需要进行相关性检验。为了确定在两个变量之间是否存在相关。要建立两个变了确定在两个变量之间是否存在相关。要建立两个变量的散布图。通过统计方法确定相关的显著性。量的散布图。通过统计方法确定相关的显著性。尽量把均匀数据组合在一组里。校核在相继的时间周期尽量把均匀数据组合在一组里。校核在相继的时间周期里以及在相继日子内的一时间周期里的数据的均匀性。里以及在相继日子内的一时间周期里的数据的均匀性。当校核均匀性时,初步的检验是看一下分布的均值是相当校核均匀性时,初步的检验是看一下分布的均
7、值是相同。同。考察一个似乎是独立的观察序列数据存在自相关的可能考察一个似乎是独立的观察序列数据存在自相关的可能性。自相关可能存在于相继的时间周期或相继的顾客中。性。自相关可能存在于相继的时间周期或相继的顾客中。例如,第例如,第i个顾客的服务时间与个顾客的服务时间与(i+n)个顾客的服务时间相个顾客的服务时间相关。关。数据收集过程中的注意事项数据收集过程中的注意事项二、分布的识别二、分布的识别直方图1 1直方图的构造方法如下:直方图的构造方法如下:取取值值区区间间划划分分水水平平 区区坐坐 间间标标 标标轴轴 注注的的计计 区区算算 间间确确 内内定定 的的每每 发发一一 生生 数数垂垂直直 标
8、标坐坐 注注标标 频频轴轴 数数上上绘绘 上上制制 的的各各 发发个个 生生区区 频频间间 数数绘绘制制直直方方图图直方图分组区间数量的选取1 1F分组区间的组数依赖于观察次数以及数据的分散或散分组区间的组数依赖于观察次数以及数据的分散或散布的程度。布的程度。F一般分组区间组数近似等于样本量的平方根。即:一般分组区间组数近似等于样本量的平方根。即:如果区间太宽(如果区间太宽(m太小),则直方图太粗或呈短粗状,这样,它的形太小),则直方图太粗或呈短粗状,这样,它的形状不能良好地显示出来。状不能良好地显示出来。如果区间太窄,则直方图显得凹凸不平不好平滑如果区间太窄,则直方图显得凹凸不平不好平滑 合
9、适的区间选择(合适的区间选择(m值)是直方图制作,分布函数分析的基础。值)是直方图制作,分布函数分析的基础。二、分布的识别二、分布的识别二、分布的识别二、分布的识别离散数据离散数据汽车数量汽车数量(p215)(p215)连续数据连续数据电子元器件寿命电子元器件寿命(p217)(p217)三、参数估计三、参数估计样本均值和样本方差(p221)(p221)1 1设某一个随机过程设某一个随机过程X,其,其n个抽样样本为个抽样样本为x1,x2,xn,该样本的均值为,该样本的均值为该样本的方差为该样本的方差为如果离散数据已按频数分组,则如果离散数据已按频数分组,则k是是X中不相同数值中不相同数值的个数即
10、分组数,的个数即分组数,fi是是X中数值中数值Xj的观的观察频数察频数 参数估计量(p222)2 2分分 布布参参 数数建议使用的估计量建议使用的估计量泊松泊松指数指数在(在(0,b)上)上的均匀分布的均匀分布正态正态,仿真中常用的一些分布参数建议值仿真中常用的一些分布参数建议值 三、参数估计三、参数估计?理论分布和实际分布的差异程度?理论分布和实际分布的差异程度?拟合度检验拟合度检验四、拟合度检验四、拟合度检验k=6 Ei 是在该分组区间的期望频数。每一分组区间的期是在该分组区间的期望频数。每一分组区间的期望频数是望频数是 Ei=n pi,这里这里pi是理论值,是对应第是理论值,是对应第i个
11、分组区间的假设概率。个分组区间的假设概率。2拟合度检验拟合度检验式中,式中,Oi是在第是在第i个个分组区间的观察频数。分组区间的观察频数。Oi=ni/n 可以证明:可以证明:02近似服从具有自由度近似服从具有自由度 f=k-s-1的的 2分布。分布。这里这里 s 表示由采样统计量所估计的假设分布的参数个数。表示由采样统计量所估计的假设分布的参数个数。假设检验:假设检验:H0:随机变量:随机变量X服从参数是由参数估计给出的分布假设服从参数是由参数估计给出的分布假设。H1:随机变量随机变量X不确认不确认若若 2太大则拒绝太大则拒绝H0,若拟合是好的,则期望值,若拟合是好的,则期望值 2很小。很小。
12、拟拟合合程程度度的的判判定定四、拟合度检验四、拟合度检验首先划分区间,定义首先划分区间,定义k值值计算各组的观察频数计算各组的观察频数计算计算 0查阅查阅 2表,得到表,得到如果如果 ,则拒绝,则拒绝H0拟拟合合度度检检验验步步骤骤指定拟合度的检验指定拟合度的检验我们可以根据拟合度检验的要求,设定一个拟合度的我们可以根据拟合度检验的要求,设定一个拟合度的显著性指数显著性指数,根据设定的,根据设定的显著性指数显著性指数 以及以及 2分布的分布的自由度数自由度数f=k-s-1,可以查,可以查 2表得到表得到 ,f2。如果 则检验未通过,H0不成立。如果 则检验通过,H0成立。在应用这个检验时,如果
13、期望的频数太小,将对检验的有效性有在应用这个检验时,如果期望的频数太小,将对检验的有效性有所影响。一般情况下区间的个数所影响。一般情况下区间的个数k宜在宜在3040以下,并能使最小期以下,并能使最小期望频数望频数Ei5。如果。如果Ei值太小,可以把它和相邻分组区间的期望频值太小,可以把它和相邻分组区间的期望频数相合并,对应的数相合并,对应的Oi值也应该合并起来,同时每当合并一个单元,值也应该合并起来,同时每当合并一个单元,k值应该减去值应该减去1。四、拟合度检验四、拟合度检验四、拟合度检验四、拟合度检验注意:(1)被检验的分布离散)被检验的分布离散 除非必须合并相邻分组区间以满足最小期望频数的
14、除非必须合并相邻分组区间以满足最小期望频数的需要,否则随机变量的每个值应该是一个分组区间需要,否则随机变量的每个值应该是一个分组区间(2)被检验的分布连续被检验的分布连续连续连续分布分分布分组组区区间间数量的推荐数量的推荐值值样样本容量本容量2050100100分分组组区区间间个数个数k不使用不使用 2检验检验5101020五、输入数据分析例题五、输入数据分析例题1p215在在5分分钟钟周期内的到达数周期内的到达数每个周期的到达数每个周期的到达数频频度度每个周期的到达数每个周期的到达数频频度度0126711075219853179341010358111收集数据1 1分布辨识2 2五、输入数据
15、分析例题五、输入数据分析例题1分布辨识2 2五、输入数据分析例题五、输入数据分析例题1参数估计3 3五、输入数据分析例题五、输入数据分析例题1拟合度检验4 4五、输入数据分析例题五、输入数据分析例题1假设:假设:泊松分布的概率质量函数:泊松分布的概率质量函数:五、输入数据分析例题五、输入数据分析例题1对于对于=3.64,不同,不同x值的概率从概率质量函数得到:值的概率从概率质量函数得到:xi观测频观测频度度Oi期望期望频频度度Ei0122.67.871109.621917.40.1531721.10.8041019.24.415814.02.57678.50.26754.411.62852.0
16、930.81030.310.1合合计计10010027.682212.2177.6五、输入数据分析例题五、输入数据分析例题1计算出:计算出:在显著性水平在显著性水平=0.05下,查表得出下,查表得出(p409):五、输入数据分析例题五、输入数据分析例题1电子元件寿命记录电子元件寿命记录79.91979.9196.7696.769144.695144.6950.6240.6247.0047.0043.0813.08159.89959.8992.6332.6335.385.3831.76431.7646.20E-026.20E-021.1921.19217.96717.9673.1483.1481
17、.0051.0051.9611.96134.7634.769.10E-029.10E-027.0787.0781.1471.1475.8455.8455.0095.0099.0039.00323.9623.960.2190.2193.0273.02718.38718.3870.9410.9410.590.593.2173.2176.5056.5050.1410.1410.8780.8781.9281.92814.38214.3822.10E-022.10E-0243.56543.5653.3713.3710.30.31.0081.0081.30E-021.30E-0224.4224.422.1
18、572.1572.00E-032.00E-032.3362.3360.1230.1230.4330.4337.5797.5790.5430.5434.5624.562五、输入数据分析例题五、输入数据分析例题2 p216p216假设:假设:令令k=8,则每个区间,则每个区间p=0.125具有相等概率 2的检验五、输入数据分析例题五、输入数据分析例题2五、输入数据分析例题五、输入数据分析例题2分分组组区区间间观测频观测频度度Oi期望期望频频度度Ei0,1.590)196.2526.011.590,3.425)106.252.253.425,5.595)36.250.815.595,8.252)66
19、.250.018.252,11.677)16.254.4111.677,16.503)16.254.4116.503,24.755)46.250.8124.755,)66.250.01合合计计505039.6五、输入数据分析例题五、输入数据分析例题2计算出:计算出:在显著性水平在显著性水平=0.05下,查表得出:下,查表得出:五、输入数据分析例题五、输入数据分析例题2六、相关性分析六、相关性分析系统运行过程中,随机变量有多个,如激励存在多种系统运行过程中,随机变量有多个,如激励存在多种因素的影响;系统参数的变化等。这些随机变量之间因素的影响;系统参数的变化等。这些随机变量之间可能是独立的,也有
20、可能是相互有牵连的,牵连程度可能是独立的,也有可能是相互有牵连的,牵连程度的强弱有所不同。需要进行相关性分析。的强弱有所不同。需要进行相关性分析。相关性分析的目的相关性分析的目的:更好地了解系统以及系统随机变:更好地了解系统以及系统随机变量的关联性,更正确地把握问题的关键。量的关联性,更正确地把握问题的关键。六、相关性分析六、相关性分析协方差和相关系数1 1协方差和相关系数是X1和X2之间线性相关程度的度量设X1和X2是两个随机变量,令分别是Xi的均值和方差。X1和X2的协方差的定义为六、相关性分析六、相关性分析相关系数越接近于-1或1,X1和X2之间的线性关系就越强六、相关性分析六、相关性分
21、析样本协方差相关系数提前期提前期 6.5 4.3 6.9 6.0 6.9 6.9 5.8 7.3 4.5 6.3需求量需求量 103 83 116 97 112 104 106 109 9296六、相关性分析六、相关性分析例题9.20:令X1表示工业机器人交货的平均提前期,X2表示年需求量。下面的数据是过去10年的需求量和提前期:计算得到:六、相关性分析六、相关性分析因此提前期和需求量有很强的依赖性单变量线性回归2 2假设要估计在自变量x与一个因变量y之间的相关性。设在y与x之间真实相关是线性关系,这里观察值y是随机变量。而x是数学变量。那么在给定x的值之下,y的期望值假设是式中:0为一未知常
22、数,是x取零时y的值;1为斜率,即x变化一个单位所引起的y的变化,也是一个待定的未知常数。六、相关性分析六、相关性分析假设 y 的每一个观察值可用下式表示y=0+1 x+式中 是均值为0,方差为2的随机误差。假设存在n对观察值(xi,yi),i=1,2,n,通常采用最小二乘法来估计上式中的yi。设 yi=0+1 xi+i i=1,2,n,则 i=yi-0-1 xi 假设是不相关的随机变量。六、相关性分析六、相关性分析随机变量偏差 的平方和为(最小二乘法函数形式)为了使L(偏差)极小,可求出 和 ,并置它们为0,从而可以得到0、1的线性代数方程,既有:六、相关性分析六、相关性分析回归显著性检验2 2检验统计量的构造方法1的均方误差:在xi处观测值yi与回归值yi之间的误差为均方误差值为也称为回归的剩余方差,它是误差方差的无偏估计量。六、相关性分析六、相关性分析构造检验统计量 服从自由度为n-2的t分布。设定一个显著性水平,当 时,x、y是显著相关。六、相关性分析六、相关性分析提前期提前期 6.5 4.3 6.966.9 6.9 5.8 7.3 4.5 6.3需求量需求量 103 83 116 97 112 104 106 109 9296六、相关性分析六、相关性分析计算出:计算出:六、相关性分析六、相关性分析