《分析化学中的数据处理.pptx》由会员分享,可在线阅读,更多相关《分析化学中的数据处理.pptx(58页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 几个概念(术语)几个概念(术语)1、总体(母体)所研究对象的某特性值的全体。2、个体 总体中的每一个单元,指全体中的一个单位或某一次测定。3、样本(子样)从总体中随机抽出的一组测量值或指总体的一个部分。4、样本容量(样本大小)指样本中个体的数目,或样本中测量值数目。第1页/共58页总体、个体、样本、样本容量间的关系当n时:又 n20次,有限次测量,且无系统误差当n时:n20次,无限次测量,且无系统误差个体 样本平均值 样本容量总体平均值样本平均偏差总体平均偏差第2页/共58页 7.1 标准偏差(标准差或均方误差)总体标准偏差当n时:测量值x对总体平均值的偏离用表示。(此式应用于n,=xT;无
2、系统误差)式中:差方和 (它能更好地说明数据的分散程度)第3页/共58页样本标准偏差S (n为有限值,一般20且无系统误差)同样:式中 差方和(即偏差的平方和)S与比较:(1)用 代替了;(2)用n1代替了n。式中:n-1=f 自由度标准偏差的计算:(等效式,可直接利用测量数据计算)第4页/共58页相对标准偏差(变异系数或变动系数)相对标准偏差=(或1000)标准偏差(或s)与平均偏差(或 )的异同点1、不必考虑偏差的正负号2、(或s)增强了大偏差数据的作用 如P243-二组数据:可见:S 3、与的关系统计学证明:当n时,=0.8(即),或4=3 (但有的书中也有 =0.8 S 或 4 =3S
3、)。Xmin XmaxS数据1-0.4+0.40.240.28数据2 -0.7+0.50.240.33第5页/共58页平均值的标准偏差 统计学上证明:(无限次测量)或:(有限次测量)第6页/共58页可见:(1)且是S的 倍,即:平均值的误差按测定次数的比例减小;(2)上式的意义:(3)增加测定次数n,可以提高测定结果的精密度,但事实上增加n所取得的效果是有限制的。即:4次测量时:是S的1/2倍 9次测量时:是S的1/3倍 酬答依次减小 25次测量时:是S的1/5倍 第7页/共58页同理:单次测量的 ()与平均值的 间也有:(无限次测量)(有限次测量)第8页/共58页 7.2 随机误差的正态分布
4、 频数分布 频数(ni)每组中出现的数据个数 相对频数(或频率)频率密度以频数(或频率密度)组值范围作图,得频数(或频率密度)分布直方图。(见P245-图7-1)第9页/共58页正态分布(高斯分布)对上述分析数据进行整理时,数据具有以下特性:向某中心值集中的趋势;偏离此中心值的倾向。为明确表达数据的特性,我们通常用两个特性参数来表征一组数据:(1)数据的集中趋势(2)数据的离散倾向1、正态分布曲线第10页/共58页 式中:y相当于测量值x出现的频率密度 (或概率密度)相当于总体平均值相当于曲线最高点对应的横坐标值,表征数据的集中趋势相当于曲线最高点对应的横坐标值,表征数据的集中趋势总体标准差相
5、当于相当于到曲线两拐点之一的距离,表征数据的分散程度到曲线两拐点之一的距离,表征数据的分散程度x(自变量)个别测量值x-代表测量值对的偏离(表征随机误差)(表征随机误差)第11页/共58页随机误差有以下规律:(1)单峰性 当x=时(无系统误差时=xT),ymax体现了测量值的集中趋势,或()是最佳值或最可信赖值;(2)对称性 曲线以x=为对称轴,呈钟形对称,说明正负误差出现的机率相等;(3)有界性 当x+或x时,曲线以x轴为渐近线,即:大误差出现机率小,小误差出现机率大;(4)当x=时 概率密度 测量值落在dx 范围内的概率第12页/共58页当时,数据分散,分布曲线平坦(矮胖);当时,数据集中
6、,分布曲线尖锐(高瘦)。当相同,不同时,曲线形状一致,而位置发生左(或右)移,所以的大小代表数据集中于何处。(5)所以只要、确定之后,分布曲线便确定下来,这种分布曲线记作:第13页/共58页2、标准正态分布曲线为一方便求出某区间的概率,将横坐标进行变量代换。定义:(即:以(即:以为单位来表征随机为单位来表征随机误差)误差)则:概率即 这样的曲线称之标准正态分布曲线,记作N(0,1)第14页/共58页标准正态分布曲线的特征是:(1)当X=时,y有极值,当=1时(2)正负误差出现的机会均等;(3)大误差出现的概率小,小误差出现的概率大。第15页/共58页随机误差的区间概率实际分析工作中,对误差有两
7、类问题需回答:(1)某一给定范围的测定,这些测定出现的机会是多少?(2)为保证测定有一定把握,这些测定的误差可以要求在什么范围内?以上这些问题的回答都要知道误差的区间概率,(即概率密度的积分)第16页/共58页正态分布曲线y与横轴所夹面积表示全部数据出现的概率的总和,显然:曲线与横轴间所夹面积=正态分布密度函数在x+区间的积分值,它代表了各种大小偏差的本样值出现概率的总和。第17页/共58页或:某范围内测量值出现的概率=该部分面积/总面积或:取不同u值对 积分得到。P248-表7-2为:的积分值即 概率单边值。第18页/共58页注意:(1)表中积分值的上下限为0u(单边),若考虑|u|时,应将
8、积分值2(双边),同样:若考虑|u|以外的概率=12P(双边)或u的概率=0.5P。(2)由此表可计算随机误差或测量值出现在某区间内(或外)的概率。(3)此表的另一个应用:可以从概率倒过来找误差界限(范围)第19页/共58页可见:随机误差超过3的测量值出现的概率很小(仅0.3%),一般这样的极端值可舍弃(所以常将3称之随机误差的极限值)。随机误差出现的区间随机误差出现的区间(双边)(双边)测量值(测量值(x=u)出)出现的区间(双边)现的区间(双边)概概率率=1x=10.34132=0.6826=1.96x=1.960.95=2x=20.47732=0.955=2.58x=2.580.99=3
9、x=30.49872=0.997第20页/共58页例1:某年全国参加高考的学生化学成绩平均值为=75分,=10分,若满分为100分,总分为120分,计算:高于100分和不及格(低于60分)学生的概率。解:x=u x=100时:x=60时:查P248-表7-2知:|u|=2.5时,P=0.4938|u|=1.5时,P=0.4332。高于100分学生概率为:0.5000-0.4938=0.062低于60分学生概率为:0.5000-0.4332=0.0668第21页/共58页例2:求测量值落在区间(-0.7,+0.7)的概率。解:,x=u 当 u=0.7时,查P248-表7-2知:P=0.2580
10、求得其概率 P=0.25802=0.5160=51.6%例3:求测量值落在(-0.4,+1.0)区间的概率解:|u1|=0.4时,查P248-表7-2知:P=0.1554|u2|=1.0时,查P248-表7-2知:P=0.3413 求得其概率 P=0.1554+0.3413=0.4967(49.67%)可见:当两区间宽度相等时,测量值落在对称区间的概可见:当两区间宽度相等时,测量值落在对称区间的概率大于不对称区间的概率,这种现象对正态分布来说是率大于不对称区间的概率,这种现象对正态分布来说是普遍的。普遍的。第22页/共58页例4:某班学生117个数据基本遵从正态分布N(66.62,(0.21)
11、2),求测量值落在(66.1567.04)中的概率。解:=66.62,=0.21,而 当 x1=67.04时,查得P1=0.4773 当 x2=66.15时,查得P2=0.4861 P=0.4773+0.4861=0.9634(96.34%)同理:落在66.1567.04以外的概率=1-96.34%=3.66%(4%)理论上约有理论上约有1173.66%=4.28=41173.66%=4.28=4个数据落在上述范个数据落在上述范围以外围以外(事实也如此),(事实也如此),故:这批数据的确符合正态分布。故:这批数据的确符合正态分布。第23页/共58页 7.3 少量数据的统计处理 只有当n时,这时
12、才能准确无误地找到,显然,这是做不到的,实际工作中,涉及的测量数据通常不多,此时得到的 总带有一定的不确定性,由于xT不知,所以是算不出来的。若以 代替xT,以S代替,而又按理论上的正态分布来处理实际问题,是不合理的,甚至可能得到错误的判断。为了解决用统计方法处理有限次测量数据,并能合理的地推断总体的特性问题,英国统计学家兼化学家戈塞特()以笔名“student”发表了其研究工作,提出在统计处理少量实验数据时,为了补偿以S代替带来的误差,可以根据测量数据的多少,用另一数值“t”代替“u”,这一代替和补偿的办法称之“t分布”或“学生氏t”法。第24页/共58页分布曲线 在进行有限次测量时,用S代
13、替所带来的误差,用一新的量“t”来补偿。t 值的定义为:(对应 )注:有些书中定义:在t分布曲线中:纵坐标概率密度 横坐标t值。0.4第25页/共58页可见:当n时,t分布正态分布。同理:t分布曲线下某区间的面积也表示随机误差在该区间内的概率。t分布中,t值随概率和f值变化。(不同概率和f值对应的t值,见P250-表7-3)注意:(1)表中:P置信度(置信概率),它表示在某t值时,测量值x落在ts范围内的概率(或代表我们相信测量值x的误差不超过ts的把握);(2)显著性水准(危险率):它表示测量值x落在ts以外的概率,显然:=1P;(3)当f时,tu(当f=20时,t与u已很接近)。第26页/
14、共58页平均值的置信区间分析测量结果可表示为:(或:=xts)=xts 或 =xu 表示:在一定置信度时,以测量值x为中心的,包括总体平均值在内的可靠性范围置信区间。而 或 表示:在一定置信度下,以样本平均值为中心的,包括总体平均值在内的可靠性范围平均值的置信区间。以上关系式也表明了平均值(或以上关系式也表明了平均值(或x xT T)与总体平均值的关系,即:说)与总体平均值的关系,即:说明了平均值的可靠性。明了平均值的可靠性。第27页/共58页例1:钢中铬百分含量的测定,先测两次:1.12,1.15,再测三次:1.11,1.16,1.12。试计算按两次和五次测定的数据来表示平均值的置信区间(=
15、0.05)。解:两次测定:=1.14(%),S=0.021(%),三次测定:=1.13(%),S=0.022(%),可见:同一置信度下n(f),置信区间;S,置信区间,平均值的可靠性。第28页/共58页例2:P251-例5。解:P=0.90时,=(47.600.09)%P=0.95时,=(47.600.13)%可见P,置信区间 P=0.99时,=(47.600.23)%所以置信概率越高,置信区间就越宽,判断失误的机会就越小。反之,则判断失误的可能性上升。统计意义上的推断通常不把P定为100%,而通常将P定为95%或90%。注意:注意:对平均值的置信区间必须正确理解对平均值的置信区间必须正确理解
16、如例如例1中中:(1.130.03)%表示表示“在此区间中包括总体平均值的把握在此区间中包括总体平均值的把握为为95%”,若理解为若理解为“在未来测定中,实验平均值有在未来测定中,实验平均值有95%落在(落在(1.130.03)%区间内区间内”是错误的。是错误的。第29页/共58页显著性检验 在定量分析中,当我们取得一系列数据后,必须对这些数据进行正确的评价,要肯定地回答这些数据是否全部有效,是否存在系统误差,对于比较两种分析方法或两实验室的分析结果,或进行各种测定条件下试验等实验结果作出合理的判断。所谓“显著性检验”就是利用统计的方法来检验被处理的问题是否存在统计上的显著性差异即:“假设检验
17、”。第30页/共58页1、t 检验法(1)平均值与标准值的比较方法:如一批数据:n,S,f=n1,并已知标准值。计算:;查P250-表7-3得 ;比较:若 ,则有显著性差异(存在系统误差);若 ,则无显著性差异(不存在系统误差)第31页/共58页此类t检验法可应用于以下几个方面:已知(如标样的标准值);已知其理论值,且误差是正态分布的,所以此理论值视为;常规分析中,产品规格所定的值视作;已作过一组n20的数据,其 可视作,则另一组n值较少的数据可与之比较。第32页/共58页例:某厂生产复合维生素丸,要求每50g维生素丸中含Fe2400mg,从某次生产中随机抽取部分试样测定五次,得铁含量如:23
18、72,2409,2395,2399,2411,问此产品是否合格?解:n=5,f=4,查P250-表7-3知:,无显著性差异,故此产品合格。第33页/共58页(2)两组平均值的比较方法:先进行F检验,证明两组数据的精密度间无显著性差异;再用t检验,证明两平均值间无显著性差异。设:两组测定结果计算:;查P253-表7-4的F表;比较:若FF表,无显著性差异,反之,FF表,有显著性差异;用t检验法(检验 与 间有无显著性差异):计算t值:第34页/共58页式中:合并标准偏差比较:t 与 (f=n1+n22):有显著性差异;:无显著性差异(与 间差别由随机误差引起)第35页/共58页2、F检验法 此法
19、通过计算两组数据的方差S2之比来检验它们之间在精密度上是否存在显著性差异。如:若 ,则相应地 计算 (F值总是大于1)比较F与F表注意:(1)进行F检验时,应确定属于单边或双边检验问题(表中单边P=95%,双边P=90%);(2)任何结论都是相对、有条件的。第36页/共58页例1:为鉴定一分析方法的准确度,取含量为100mg的某基准物进行了五次测定:100.3,99.2,99.4,100.0,99.7如何评价此组数据。解:查表 ,无显著性差异。讨论:=99.7100.0(低0.3mg),但S=0.45,且仅测5次,判断此法不存在负系统误差的证据不足。(此时t=1.5P=80%,即:随机误差出现
20、的机会有20%)第37页/共58页例2:在上例基础上又补充五次测定:99.9,99.4,100.1,99.4,99.6此时结果如何?解:存在显著性差异(即存在系统误差)第38页/共58页异常值的取舍(或可疑值的取舍或过失误差的判断)1、法(四倍法)(1)原理:依正态分布,偏差大于3的值出现的概率小于0.3%,所以认为该偏差属过失误差所致(属小概率事件),因为3=4,所以偏差大于4的值是属过失误差所致,在有限次测量中,4近似为4 ,所以偏差大于4 的值应舍去。(2)方法:除去可疑值(异常值)后,求其余数据的 及 ;判断:若 ,则x异应弃去,反之则保留。第39页/共58页2、Grubbs法方法:(
21、1)将数据由小至大依次排列:x1,x2,xn1,xn(2)计算 ,S(全部数据的)(3)计算(4)查表:Tn(P256-表7-5)(5)判断:当TTn,则X异应舍弃,反之则应保留。第40页/共58页3、Q检验法(舍弃商法)方法:(1)将数据依小至大排列:X1,X2,Xn1,Xn(2)计算极差:R=xmaxxmin,即R=xnx1(3)计算舍弃商Q:(或 )(4)查表:Q表(P257-表7-6)(5)判断:当QQ表,则X异应舍弃,反之应保留。第41页/共58页说明:(1)法较简单,不需表值,易为人们所接受,但此法数据上不严格,因为在 以内或以外测定出现的机会是多少是不明确的,要找出 的分布也很困
22、难;判断中没有联系n值,且先将X异排除在外,然后检验,所以极易将有效数据舍弃(因为可疑限得较低),因此,目前使用不多,仅在要求不高,n=48次时使用。(2)Q法符合统计原理,具直观、计算方便的优点,所以常采用,但此法将可疑限订得太高,所以有时会过多保留异常值(仅适于310次测定)。(3)Grubbs法是目前最合理,舍取效果最好,使用最普通的方法,但计算麻烦(,S),当其他方法与Grubbs法发生矛盾时,以后者为主。第42页/共58页 7.4 误差的传递系统误差的传递1.加减法 和、差的绝对误差和、差的绝对误差=各测量值绝对误差的和差各测量值绝对误差的和差如:则:2.乘除法 积、商的相对误差积、
23、商的相对误差=各测量值相对误差的和差各测量值相对误差的和差如:则:3.指数关系 分析结果的相对误差分析结果的相对误差=指数倍的测量值的相对指数倍的测量值的相对误差误差如:则:4.对数关系 分析结果的绝对误差分析结果的绝对误差=0.434系数倍的测量值系数倍的测量值的相对误差的相对误差如:则:第43页/共58页随机误差的传递1.加减法 分析结果的方差分析结果的方差=各测量值方差的总和各测量值方差的总和如:则:2.乘除法 分析结果的相对标准差的平方分析结果的相对标准差的平方=各测量值相对各测量值相对标准差平方的总和标准差平方的总和如:则:3.指数关系 分析结果的相对标准偏差分析结果的相对标准偏差=
24、指数倍的测量值指数倍的测量值的相对标准偏差的相对标准偏差如:则:4.对数关系 分析结果的相对标准偏差分析结果的相对标准偏差=0.434系数倍的系数倍的测量值的相对标准偏差测量值的相对标准偏差如:则:第44页/共58页极值误差(极限误差或极差误差法)1.加减法如:则:(极值误差)2.乘除法如:则:第45页/共58页例1:用一台停点的标准差为0.4mg的分析天平进行重量分析,称取含银试样0.2000g,得AgCl沉淀0.2500g,问在求Ag%时,由于称量时观察停点所带来的标准差是多少?解:而测定中:试样称量读两次停点;沉淀称量读四次停点(随机误差传递)第46页/共58页例2:某滴定分析用去标液体
25、积为25.00ml,其体积测量的标准差为0.05ml,称量试样0.2000g,其称量标准差为0.4mg,标液浓度的相对标准偏差为0.1%,试计算分析结果的相对标准偏差 。解:第47页/共58页例3:电位法测定某一价金属离子的活度,若电势测定的标准差为103,求分析结果的SC/C。解:(当(当a为氧化态时取为氧化态时取+,当,当a为还原态时取)为还原态时取)第48页/共58页 7.5 回归分析一元线性回归方程 如:一元线性方程一元线性方程 (即回归方程)回归线:回归线:利用最小二乘法确立的最佳直线称之(线上所有测量值y的偏差平方和最小)回归系数:回归系数:a、b1、回归系数的确定 x自变量(准确
26、的或可精确测量,严格控制的),误差较小 y因变量(测量值),总带有误差,设其为e(偏差)回归线模型:n次测定后得(xi,yi),i=1,2,3n第49页/共58页令:y的偏差平方和为Q(总误差)(1)回归线是所有直线中差方和Q最小的一条直线。对(1)中的a、b分别求偏微分并令其=0。(2)(3)求得 第50页/共58页由一组(xi,yi)求得的a、b值称之参数a、b的估计量(用 表示),它们一旦确定,回归方程便确定,即:回归直线(不是任不是任意直线意直线)2、回归直线的特点(1)它必定通过()点牢记(2)对所有实验点而言,此线的误差最小(3)它也许不过任何一个实验点(与直尺作图习惯不同)第51
27、页/共58页3、求解回归方程的中应注意的几个问题(1)不要过早修约数字,应在获得a、b具体值后再合理修约(否则否则 会使有效数字减少会使有效数字减少很多很多););(2)b的有效数字位数应与x相等,a与y相等(最多多一位);(3)回归计算较烦易错,所以最好验算:公式第52页/共58页相关系数1、相关系数 定义:第53页/共58页r的物理意义:第54页/共58页(1)当r=1时,所以点都在回归直线上,此时称y与x完全相关,实验误差=0;(2)当0|r|1时(大多如此),x与y间有相关关系:r0时正相关;r0时负相关。|r|越接近1,y与x相关关系越好,点越靠近直线;(3)当r=0时,回归线平行于
28、x轴的直线,此时b=0,y与x无关,即回归直线无意义(y的变化不随x而变化)。注意:(1)在r定义式中:分子永远小于分母,所以r的取值范围:0|r|1;(2)r表示y与x间的线性相关关系,所以当r很小或r=0时,并不表示y与x间不存在其它相关关系。第55页/共58页2、相关系数的显著性检验 判断变量x与y间是否存在线性关系或说线性关系好不好是相对的,它也可以借用显著性检验来判断。在一定置信度下,只有当rr表时,线性关系才有意义(P264-表7-7r表)第56页/共58页 7.6 提高分析结果准确度的方法1、选择合适的分析方法2、减小测量误差 3、减小随机误差:适当增加测定次数4、消除系统误差:对照试验;空白试验;仪器校准;结果校正。天平称量天平称量重 量、滴 定:相 对 误 差 0.1%,即 天 平 称 量 误 差0.0001mg,至少应称0.2g光度法:相对误差=2%,若称取0.5g样,只需称准至2%0.5=0.01g(0.001g)则可。滴定法滴定法相对误差0.1%,而读数0.01ml,所以至少消耗体积=2030ml光度法光度法A=0.20.8 第57页/共58页感谢您的观看!第58页/共58页