《误差与数据处理打印.ppt》由会员分享,可在线阅读,更多相关《误差与数据处理打印.ppt(74页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、误差与数据处理打印误差与数据处理打印2022/10/17现在学习的是第1页,共74页 (3 3)相对真值)相对真值 是是指指采采用用多多种种可可靠靠的的分分析析方方法法,由由具具有有丰丰富富经经验验的的分分析析人人员员经经过过反反复复多多次次仔仔细细测测定定,得得出出的的比比较较准准确确的的结结果果,称称为为标标准准值值。一一般般用用此此值值代代表表该该组组分分的的真真实实含含量量,如如科科学学实实验中使用的标准试样(标样)验中使用的标准试样(标样)。2 2 平均值(平均值()算术平均值算术平均值 比比单单次次测测量量值值更更接接近近真真值值,表表示示数数据据的的集集中中趋趋势势,一一般般以以
2、平平均均值值报报告分析结果告分析结果 一组测量数据按大小顺序排列,中间一个数即为中位数。一组测量数据按大小顺序排列,中间一个数即为中位数。最接近平均值,粗略表示数据的集中趋势最接近平均值,粗略表示数据的集中趋势3 3 中位数(中位数()2022/10/17现在学习的是第2页,共74页 (1)准确度准确度(Accuracy)分析结果与真实值的接近程度分析结果与真实值的接近程度 准确度的高低用误差的大小来衡量;准确度的高低用误差的大小来衡量;4 4 准确度和误差准确度和误差(2)(2)表示形式:表示形式:绝对误差(绝对误差(EaEa)测量值与真值之间的差值,有正负。测量值与真值之间的差值,有正负。
3、相对误差(相对误差(ErEr),),误差在真值中所占的百分率,误差在真值中所占的百分率,相对误差能更好的表明准确度的高低。相对误差能更好的表明准确度的高低。2022/10/17现在学习的是第3页,共74页(1)(1)精密度精密度(Precision)多次测量多次测量值值之间相互接近程度,之间相互接近程度,表示数据的分散程度。表示数据的分散程度。精密度的好坏用偏差来表示,与平均值作比较精密度的好坏用偏差来表示,与平均值作比较(2)(2)表示形式:表示形式:5 5 精密度和偏差精密度和偏差 绝对偏差绝对偏差:个别测定值与平均值之间的差值。:个别测定值与平均值之间的差值。相对偏差相对偏差=平均偏差:
4、平均偏差:相对平均偏差:相对平均偏差:2022/10/17现在学习的是第4页,共74页标准偏差标准偏差:(n20时(类似总体),时(类似总体),2022/10/17现在学习的是第37页,共74页1010、平均值的标准偏差、平均值的标准偏差 1 1组:组:2 2组:组:3 3组:组:样本平均值比单次测量值更接近总体平均值,容量样本平均值比单次测量值更接近总体平均值,容量大的样本平均值比小的更接近总体平均值。大的样本平均值比小的更接近总体平均值。2022/10/17现在学习的是第38页,共74页n n为无限时,为无限时,n n为有限时,为有限时,平均值的标准偏差与测定次数的平方根成反比,平平均值的
5、标准偏差与测定次数的平方根成反比,平均值的标准偏差越小,说明平均值越接近总体均值均值的标准偏差越小,说明平均值越接近总体均值在实际中一般平行测定在实际中一般平行测定3-43-4次次n n为无限时,平均值的平均偏差:为无限时,平均值的平均偏差:n n为有限时,平均值的平均偏差:为有限时,平均值的平均偏差:2022/10/17现在学习的是第39页,共74页3.3.1 随机误差的正态分布随机误差的正态分布1 1、频数分布、频数分布 设有一矿石试样,在相同条件下用吸光光设有一矿石试样,在相同条件下用吸光光度法测定其中铜的质量分数,共有度法测定其中铜的质量分数,共有100100个测量值。个测量值。测量数
6、据既有分散性又有集中性测量数据既有分散性又有集中性先将这组测量数据分组先将这组测量数据分组频数:每组数据的个数。频数:每组数据的个数。相对频数:频数相对频数:频数/数据的总和数据的总和绘制相对频数分布直方图绘制相对频数分布直方图当测量数据非常多,组分得很细时,则相对频数分布直当测量数据非常多,组分得很细时,则相对频数分布直方图,趋向于一条平滑曲线,这条曲线即为正态分布曲方图,趋向于一条平滑曲线,这条曲线即为正态分布曲线线2022/10/17现在学习的是第40页,共74页2 2、正态分布、正态分布(1 1)测量值正态分布曲线(高斯分布)测量值正态分布曲线(高斯分布)x xy y2022/10/1
7、7现在学习的是第41页,共74页y y概率密度函数,概率密度函数,测量值,测量值,标准偏差标准偏差为总体均值,即无限次测量所得数据的平均值,相应于曲线为总体均值,即无限次测量所得数据的平均值,相应于曲线最高点的横坐标值,它表示无限个数据的集中趋势,在无系最高点的横坐标值,它表示无限个数据的集中趋势,在无系统误差时,它才是真值。统误差时,它才是真值。表示随机误差,表现为对表示随机误差,表现为对 值的偏离值的偏离表征数据分散程度,表征数据分散程度,小,数据集中,曲线瘦高,测量值小,数据集中,曲线瘦高,测量值落在落在 值附近概率越大值附近概率越大大,数据分散,曲线矮胖。大,数据分散,曲线矮胖。正态分
8、布曲线的形状决定于正态分布曲线的形状决定于 、这样两个参这样两个参数,记作数,记作正态分布曲线下所夹的面积,代表数据出现的概率,正态分布曲线下所夹的面积,代表数据出现的概率,面积总和为面积总和为1 12022/10/17现在学习的是第42页,共74页(2 2)、随机误差的正态分布曲线。)、随机误差的正态分布曲线。以各个测量值以各个测量值x x 相对于总体平均值相对于总体平均值 的误差的误差 =为横坐标作图,则测量值正态为横坐标作图,则测量值正态 分布分布曲线变换为随机误差的正态分布曲线,称为曲线变换为随机误差的正态分布曲线,称为 分布。分布。0 0 x-x-2022/10/17现在学习的是第4
9、3页,共74页随机误差的规律性:随机误差的规律性:小误差出现的概率大、大误差出现的概率小,小误差出现的概率大、大误差出现的概率小,正负误差出现的概率相等。正负误差出现的概率相等。分布曲线的最高点,对应于横坐标分布曲线的最高点,对应于横坐标,概率密度,概率密度2022/10/17现在学习的是第44页,共74页(3 3)随机误差的标准正态分布曲线)随机误差的标准正态分布曲线 以以 为单位表示随机误差的大小,为单位表示随机误差的大小,定义定义 ,将正态分布曲线的横坐标,将正态分布曲线的横坐标改用改用u u值表示。则正态分布曲线都归结为一条曲值表示。则正态分布曲线都归结为一条曲线,即标准化。记为线,即
10、标准化。记为N N(0 0,1 1)2022/10/17现在学习的是第45页,共74页称为称为U U分布,分布,U U分布曲线下所夹的面积代表随机误差在某分布曲线下所夹的面积代表随机误差在某一区间出现的概率一区间出现的概率0 0y y则则由由2022/10/17现在学习的是第46页,共74页(4 4)随机误差的区间概率)随机误差的区间概率区间概率:随机误差在某一区间出现的概率区间概率:随机误差在某一区间出现的概率P P可以取不同的可以取不同的u u值然后对式值然后对式 进行定进行定积分求得。积分求得。0 0u u2022/10/17现在学习的是第47页,共74页0 0 u u其在横坐标其在横坐
11、标 到到 之间所夹的面积,概率之间所夹的面积,概率100%100%,其值为,其值为1 1。随机误差出现的区间,随机误差出现的区间,测量值出现的区间测量值出现的区间 概率概率68.3%68.3%95.0%95.0%95.5%95.5%99.0%99.0%99.7%99.7%2022/10/17现在学习的是第48页,共74页3.3.3 3.3.3 少量数据的统计处理少量数据的统计处理一、一、t t分布曲线分布曲线1 1、t t分布曲线分布曲线 少量数据,少量数据,未知,用未知,用t t分布代替分布代替U U分布来分布来处理处理 2022/10/17现在学习的是第49页,共74页2 2、U U与与t
12、 t分布比较:分布比较:相同点:相同点:纵坐标均为概率密度,曲线下的面积为概率纵坐标均为概率密度,曲线下的面积为概率不同点不同点:U U分布分布,只一条曲线,横坐标以,只一条曲线,横坐标以 为单位,为单位,u u值一定,则概率一定值一定,则概率一定 t t分布:分布:,f f 值不同,曲线不同,横值不同,曲线不同,横坐标以坐标以s s为单位,概率与为单位,概率与t t值、值、f f 值有关。值有关。联系:当测量次数为无限多时,联系:当测量次数为无限多时,t t分布即为分布即为u u分布分布2022/10/17现在学习的是第50页,共74页2 2、置信度:、置信度:P P表示表示 表示在某一表示
13、在某一t t值时,测定值落在值时,测定值落在 范围内的概率。范围内的概率。-t 0 t-t 0 t2022/10/17现在学习的是第51页,共74页3、显著性水准:在某一、显著性水准:在某一t值时,测定值落在值时,测定值落在 范围以外的概率,用范围以外的概率,用 表示。表示。t值与值与置信度和自由度有关,表示为置信度和自由度有关,表示为 t0.05,10表示置信度为表示置信度为95%,自由度为自由度为10时的时的t值值.-t 0 t-t 0 t双边双边2022/10/17现在学习的是第52页,共74页二、平均值的置信区间二、平均值的置信区间 用用x估计一定概率下包括估计一定概率下包括 值的范围
14、值的范围 根据根据 得:得:当当 时,则包括在时,则包括在 范围范围内的概率为内的概率为68.3%2022/10/17现在学习的是第53页,共74页2用平均值估计一定概率下包括用平均值估计一定概率下包括 值的范围值的范围有限数据有限数据 :平均值的置信区间:在一定置信度下,以平均值为中心,平均值的置信区间:在一定置信度下,以平均值为中心,包括总体平均值包括总体平均值 在内的范围(区间)在内的范围(区间)2022/10/17现在学习的是第54页,共74页例题:对某未知试样中的例题:对某未知试样中的Cl-的质量分数进行测定,四的质量分数进行测定,四次测定结果为次测定结果为47.64%,47.69%
15、,47.52%,47.55%,计算置信度为计算置信度为95%,总体平均值的置信区间。,总体平均值的置信区间。解:解:注意有效数字的使用注意有效数字的使用2022/10/17现在学习的是第55页,共74页3.4、显著性检验、显著性检验 常用的有常用的有t检验法和检验法和F检验法检验法3.4.1 t检验法检验法 平均值与标准值的比较平均值与标准值的比较检查分析数据是否存在较大的系统误差检查分析数据是否存在较大的系统误差根据根据 计算出计算出t值,然后与一定置值,然后与一定置信度(信度(P=95%)和相应自由度下)和相应自由度下t表表相比相比较,较,如如t计计t表表 无显著差异。无显著差异。t计计t
16、表表 有显著差异,存在系统误差。有显著差异,存在系统误差。2022/10/17现在学习的是第56页,共74页例题例题 用一种新的方法测定基准明矾中铝的含量(用一种新的方法测定基准明矾中铝的含量(%),),得以下得以下9个数据:个数据:10.74,10.77,10.77,10.77,10.81,10.82,10.73,10.86,10.81。明矾中铝的含量标。明矾中铝的含量标准值(准值(%)为)为10.77,向这种新的方法有无系统误,向这种新的方法有无系统误差?(差?(解:解:平均值平均值=0.042%=0.042%查得:查得:因因 ,采用新方法后,没有明显的系统误差。,采用新方法后,没有明显的
17、系统误差。2022/10/17现在学习的是第57页,共74页两组平均值的比较两组平均值的比较 设两组数据为设两组数据为在在s1与与s2之间无显著性差异的前提下之间无显著性差异的前提下求合并标准偏差求合并标准偏差 然后计算出然后计算出t值:值:在一定置信度时,查在一定置信度时,查t,f总总,如如t计计t表,则不存在显著性差异表,则不存在显著性差异2022/10/17现在学习的是第58页,共74页3.4.2 F检验法检验法 通过比较两组数据的方差通过比较两组数据的方差s2,以确定它们的,以确定它们的精密度是否有显著性差异。精密度是否有显著性差异。无显著差异则无显著差异则F ,若,若 存在显著差异存
18、在显著差异F分布表使用注意分布表使用注意查表时,不可将搞错,查表时,不可将搞错,F值随而变值随而变F值随显著性水平而变,书中给出的是时的值随显著性水平而变,书中给出的是时的F分布表。分布表。2022/10/17现在学习的是第59页,共74页实际中常以方差较小的作为比较标准,而与实际中常以方差较小的作为比较标准,而与之比较的其他方差,已知都大于或等于比较之比较的其他方差,已知都大于或等于比较的标准,因此在方差分析时常常需要作单侧的标准,因此在方差分析时常常需要作单侧检验,如果用显著性水平检验,如果用显著性水平 的的F分布表分布表(单边),则作判断的置信概率为(单边),则作判断的置信概率为 202
19、2/10/17现在学习的是第60页,共74页如果是比较两组数据的方差,事先如果是比较两组数据的方差,事先并不能确定这两组数据的优劣,从统并不能确定这两组数据的优劣,从统计上看,不管甲的结果优于乙,或者计上看,不管甲的结果优于乙,或者乙的结果优于甲,都认为有显著的差乙的结果优于甲,都认为有显著的差异,这是双侧检验,而在处异,这是双侧检验,而在处理时,人为的采用理时,人为的采用 进行判进行判断,这时根据断,这时根据 的的F(单边)分布表(单边)分布表值判断,最后所作统计推断的置信概值判断,最后所作统计推断的置信概率是率是 ,或者说显著性水平是,或者说显著性水平是2022/10/17现在学习的是第6
20、1页,共74页3.5 异常值的取舍异常值的取舍 1、法,又称法,又称4倍法倍法 首先求出除异常值外的其余数据的平均首先求出除异常值外的其余数据的平均值值 和平均偏差和平均偏差 ,然后将异常值与平,然后将异常值与平均值进行比较,如绝对值差值大于均值进行比较,如绝对值差值大于 则则将可疑值舍去,否则保留将可疑值舍去,否则保留2022/10/17现在学习的是第62页,共74页2、格鲁布斯法、格鲁布斯法(1)将数据从小到大排列)将数据从小到大排列(2)计算)计算 或或(3)与表中)与表中T值比较,若值比较,若 舍去舍去2022/10/17现在学习的是第63页,共74页3、Q检验法检验法 从小到大排列从
21、小到大排列 计算计算Q Q比较比较Q计计Q表表保留,否则舍去。保留,否则舍去。2022/10/17现在学习的是第64页,共74页3.6 3.6 回归分析法回归分析法一一 、一元线性回归方程、一元线性回归方程 在分析化学中,常常需要作工作曲线,如分光光在分析化学中,常常需要作工作曲线,如分光光度法中,需作吸光度和浓度之间的关系曲线,这些工度法中,需作吸光度和浓度之间的关系曲线,这些工作曲线,一般都是把实验点描在坐标纸上,浓度作横作曲线,一般都是把实验点描在坐标纸上,浓度作横坐标,吸光度坐标,吸光度A A作纵坐标,然后根据坐标纸上这些散点作纵坐标,然后根据坐标纸上这些散点的走向,用直尺描出一条直线
22、,这就是我们习惯的作法。的走向,用直尺描出一条直线,这就是我们习惯的作法。2022/10/17现在学习的是第65页,共74页 若吸光度和浓度的关系直线能通过有若吸光度和浓度的关系直线能通过有实验点,在统计学上就说溶液的吸光度和实验点,在统计学上就说溶液的吸光度和浓度有最密切的线性关系,吸光度完全依浓度有最密切的线性关系,吸光度完全依赖于浓度的改度而变,偶然因素无影响,赖于浓度的改度而变,偶然因素无影响,无实验误差,这种关系称为确定性关系或无实验误差,这种关系称为确定性关系或函数关系,这时作工作曲线简单。函数关系,这时作工作曲线简单。2022/10/17现在学习的是第66页,共74页 但是在实验
23、中不可避免的有误差存在,误但是在实验中不可避免的有误差存在,误差较大时,实验点分散,并不在一条直线上,差较大时,实验点分散,并不在一条直线上,作图困难,凭直觉难以判断,哪一条才是最好作图困难,凭直觉难以判断,哪一条才是最好的工作曲线?的工作曲线?2022/10/17现在学习的是第67页,共74页 由图虽能看出,吸光度和浓度之间有着密由图虽能看出,吸光度和浓度之间有着密切的关系,切的关系,c c大,大,A A也大,但不存在确定性关系,也大,但不存在确定性关系,即可以从一个变量的数值精确地求出另一个变量的即可以从一个变量的数值精确地求出另一个变量的值,我们称这类变量之间的关系为相关关系,对相值,我
24、们称这类变量之间的关系为相关关系,对相关关系较差的数据,最好的办法是对数据进行回归关关系较差的数据,最好的办法是对数据进行回归分析,求回归方程,然后作图,这样可以得到对各分析,求回归方程,然后作图,这样可以得到对各数据点误差最小,因而是最好的一条工作曲线。数据点误差最小,因而是最好的一条工作曲线。回归分析是研究随机现象中变量之间关系回归分析是研究随机现象中变量之间关系的一种数理统计方法,的一种数理统计方法,x x、y y之间的关系,自变之间的关系,自变量只有一个,称为一元线性回归。量只有一个,称为一元线性回归。2022/10/17现在学习的是第68页,共74页一、回归方程的确定一、回归方程的确
25、定用用(x(xi i,y,yi i)表示表示n n个数据点,任意一条直线个数据点,任意一条直线可写为:可写为:y*=a+bxy*=a+bx对每个数据点来说,其相对于这条直线对每个数据点来说,其相对于这条直线的误差(残差的误差(残差e ei i)为:)为:2022/10/17现在学习的是第69页,共74页令各数据点的误差的平方的加和(差方和)为,令各数据点的误差的平方的加和(差方和)为,则则 是总的残差平方和:是总的残差平方和:回归直线就是在所有直线中,差方和最小的一条直线,回归直线就是在所有直线中,差方和最小的一条直线,即,回归直线的系数即,回归直线的系数b b和和a a应使达到最小,对上式分
26、别应使达到最小,对上式分别a a、b b求偏微分,令它们等于零,于是求偏微分,令它们等于零,于是a a、b b满足:满足:2022/10/17现在学习的是第70页,共74页求解得:求解得:2022/10/17现在学习的是第71页,共74页a a是截距,是截距,b b是斜率是斜率则回归直线为:则回归直线为:又因为存在:又因为存在:为各数据点平均值为各数据点平均值回归直线是一条通过各数据点平均值回归直线是一条通过各数据点平均值 的直线的直线 这样一元线性回归方程就确定了,因上述确这样一元线性回归方程就确定了,因上述确定回归直线的原则是使所有误差的平方和达到最定回归直线的原则是使所有误差的平方和达到
27、最小值,平方运算也称二乘运算,因为称最小二乘小值,平方运算也称二乘运算,因为称最小二乘法。法。在作图时,先给出在作图时,先给出 点,然后任取点,然后任取 ,由回归方,由回归方程求出程求出 ,则由两点可确定一条直线。,则由两点可确定一条直线。2022/10/17现在学习的是第72页,共74页二、相关系数二、相关系数 用来判断变量之间线性关系的好坏用来判断变量之间线性关系的好坏2022/10/17现在学习的是第73页,共74页r=1,r=1,所有的所有的y yi i都在回归线上都在回归线上r=0,yr=0,y与与x x之间完全不存在线性关系之间完全不存在线性关系0 r1,0 r1,存在一定的线性关系,存在一定的线性关系,r r越接近越接近1 1,线性关系越好,线性关系越好 r r 一般保留一般保留4 4位有效数字位有效数字判断线性关系的好坏时,判断线性关系的好坏时,r r值界限与测量值界限与测量次数和置信水平有关次数和置信水平有关2022/10/17现在学习的是第74页,共74页