《环境信息技术与统计分析PPT.ppt》由会员分享,可在线阅读,更多相关《环境信息技术与统计分析PPT.ppt(245页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第1章 环境统计数据及其整理公布,2,本章目录,1.1 环境统计数据的整理与公布,环境统计数据是环境统计资料的一种类型,环境统计资料的概念。 环境统计统计资料:是指所有可以推导出某项论断的事实与数字。以下的资料都是统计资料。 某断面的T-P浓度为0.05mg/L某河流。 北京有工业除尘设施1453套。 珠江各断面水质情况:为类,3,1.1 环境统计数据的整理与公布,环境数据是按性质不同亦与环境资料一样,可以分为三大类。 计量数据:如COD浓度为100mg/L。一般有计量单位; 计数数据:如北京市有除尘设施的工业企业共计1236家,计数数据不能是小数。 等级数据:可序数据或半计量数据,是用技术方
2、法对观察单位按某一种属性和类别的不同程序进行清点所得。如:地表水质量为类。 等级数据不能计算平均值,4,1.1.1环境统计数据类型,环境统计资料收集的方法 方法:直接观察、监测、采访 直接观察: 如排污口的数量; 排污口的位置; 是否偷排漏排,5,1.1 环境统计数据的整理与公布,1.1.1环境统计数据类型,原始数据是无法应用的,需要对原始数据进行整理。 统计上对数据的整理有几个步骤,收集数据,审核数据,汇总,分组,逻 辑 性 检 查,计 算 检 查,作用:反映现象的不同类型,环境之间相互依据的关系。,6,1.1.2原始资料的整理,1.1 环境统计数据的整理与公布,数据审核,逻辑性审核 BOD
3、与COD的关系 总铬与六价铬的关系; 总氮与氨氮的关系等;,计算准确性审核 COD排放浓度为50mg/L,废水排放量为200万吨,COD的排放量为10吨。,7,1.1 环境统计数据的整理与公布,1.1.2原始资料的整理,数据审核 数据分组也是数据审核工作不同 按地区分组特定地区的COD排放量最大、某些地区的重金属排放量最大; 按行业排放污染物分组铅锌冶炼排放的重金属最多、造纸排放的COD最大、矿产开发产生的固废最大。 公众意识年青一代的比较关注项目建成后的就业,老年人比较关心项目建成后的养老保险。,8,1.1 环境统计数据的整理与公布,1.1.2原始资料的整理,环境数据,环境监测,环境质 量监
4、测,污染排 放监测,产排污系数,如:锑冶炼行业的 镉产排污系数为: 5g/吨产品,采访、观察,锅炉功率的调查 工业产值的调查,数据采集,数据审核,分组 汇总 逻辑性审核 计算审核,数据审核是数据质量的保证,结论,为决策提供依据,9,总结:环境数据资料采集,1.1 环境统计数据的整理与公布,数据整理最常用的方法是统计图、统计表。 统计图与统计表可以直观的表征数据的变化趋势、数据特征,是目前环境统计最常用的方法。,10,1. 1.3数据的整理与公布,1.1 环境统计数据的整理与公布,统计表:数据的分组、汇总通常通过统计图与统计表来实现。,统计表:必要时在横标目上冠以总标题,有时候还有说明和备注。,
5、统计表的结构:构造元素:标题与表体 表体:需要被主语位于左侧 谓语:说明形式的状态谓语右侧,11,1. 1.3数据的整理与公布,1.1 环境统计数据的整理与公布,统计图 用线条的高低情况来表征数量的统计工具 图的作用是:简单明了地用图形说明图形的类别。常用的统计图如下:,12,1. 1.3数据的整理与公布,1.1 环境统计数据的整理与公布,常见的统计图及其应用 折线图(线形图):一般用于连续性的资料,用以说明某现象数据随另外一个现象的变迁。 柱状图(条形图):用于表征同类型资料的对比。 饼图:用于表征一个整体中各组分所占的比例;,13,1. 1.3数据的整理与公布,1.1 环境统计数据的整理与
6、公布,1.1 环境统计数据的整理与公布,14,图1. 某交通干线噪声变化,图1. 某乡镇省各类污染源COD排放量,15,1.1 环境统计数据的整理与公布,图2. 某地区污染农田镉浓度,16,1.1 环境统计数据的整理与公布,统计图表制作注意事项 统计图表制作没有绝对的好坏之分,但应注意以下两点 第一、清晰、明了,不存在不清楚的数据与图形; 第二、能让不懂得你工作的人了解你统计图的说明的内容; 第三、统计图表的名称一定要全面清晰,通过名称可以了解图、表的内容。,17,1. 1.3数据的整理与公布,1.1 环境统计数据的整理与公布,统计图、表是对审核完成的数据进行整理,以便于直观了解环境信息的发展
7、变化规律。 而对于初始数据,量大、杂乱的情况统计图表还需要进行初步的分析。,18,1. 1.3数据的整理与公布,1.1 环境统计数据的整理与公布,1.2 频数表与频数图,1.2 频数与频数图,例如: 食堂的西红柿炒蛋这个菜,打了100次同学打了,结果80次炒糊了,那么80就是“西红柿炒蛋炒糊了”这个事件的频数,而80/100=80%就是“西红柿炒蛋炒糊了”这件事情的频率。,将这个个别事件整理为普遍的事件,可以将频数与频率得到如下的定义。,20,1.2 频数与频数图,频数:如某事件共发生过n次,其中出现A类情况的次数为nA次,则nA为A类情况的频数, nA /n为A事件的频率。,思考:频数以及率
8、对我们的工作有什么用? 事情的结果不会只有“是”或“否”两个,结果是多样化的。 通常用频数表与频数图来表示,这样可以反映事情结果发生的规律。,21,1.2.1频数的概念,某班学生的环境统计成成绩如下,5 6 7 8 9,8 5.6.7.9.9 0.0.0.0.2.2.3.4.5.5.5.6.7.8.8 0.1.2.3.3.3.4.5.5.5.5.6.6.8.8 0.2.3.3,十位,1 5 15 15 4,个位,频 数,可以做成一个频数表,茎叶图,茎,叶子,22,1.2 频数与频数图,1.2 频数与频数图,23,制作成频数表如下,1.计算极差: 2.分组:根据数据量多少分,数据量大,分组较大,
9、数据量小,分组小;参考经验分组见教材15页表1.6;也可以通过如下公式计算组数: 3.计算组距: 4.计数,制作频数表,绘制频数图;,24,1.2.2 频数图制作步骤,1.2 频数与频数图,例题:某地点的环境噪声监测值如下表,请同学们试着编制本监测值的频数表。,25,1.2 频数与频数图,第一步:计算全距(极差),R=87-51=36(dB),第二步:确定组数、组距和组限,原则: 确定组数在9组。 组限(组距)是相邻两组的界限:上限不在内的原则 计数,用“正”,计算组距:,26,画记图整理表,27,频数表,28,将频数与频率画成图。,频数图,29,1.3 环境统计常用参数,1.3.1数理统计中
10、的基本概念,总体:有相同特质的元素的集合。 总体是根据我们的研究目的,或工作内容而定的,并不是一个固定的内容。 有限总体:全国的大学生 无限总体:北京的大气、长江的水质 样本:从总体中通过特定方式抽取的集合。 总体是事物的本质,而样本是事物的表象。,31,1.3.2 数据集中趋势的计算,(1)平均数 对总体或样本某一数值的平均,是最常用的统计量; 只有同类现象才能计算平均数; 平均数是表示在一定时间、空间、历史水平下的特征值,不能作为预测。 是同一个系列数据的的集中趋势;,32,算数平均数 计算公式如下:参考教材P26,1.3.2 数据集中趋势的计算,或,在统计中,将 称之为样本均数,在统计中
11、,将 称之为总体平均数均数,33,34,例题3:某企业2014年12个月的用二氧化硫排放量如下表所示,请计算该二氧化硫月平均排放量。,用EXCEL的方法计算 用计算器的方法计算,1.3.2 数据集中趋势的计算,35,例题4:测定某水样中的总铬浓度,共测定了10个平行样,其总铬的测定浓度分别为:0.92mg/L、0.91mg/L、0.89mg/L、0.95mg/L、0.98mg/L、0.87mg/L、0.84mg/L、0.94mg/L、0.99mg/L、1.02mg/L,请计算平均值。,1.3.2 数据集中趋势的计算,加权平均数 计算平均数的特征值有对应的权重或者分布频率时,需要通过加权平均数计
12、算平均数。,1.3.2 数据集中趋势的计算,频数加权平均数公式:,36,37,例题5:某工业园区食品行业企业的废水排放量与COD排放浓度如下表所示,请计算该工业园区食品行业COD排放的平均浓度。,1.3.2 数据集中趋势的计算,1.3.2数据集中趋势的计算,几何平均数 几何平均数及对数平均数是n个观察值连乘积的n次方根,用符号G表示。常用以表示如下数据的集中趋势: 等比数据资料; 对数数据,38,1.3.2 数据集中趋势的计算,39,几何平均数,对数平均数,1.3.3 数据离散趋势的参数,例: 请同学们看两组数据: A: 8. 9 . 10 .11 .12 B: 3. 7 .10 .13. 1
13、7,8. 9.10.11.12,A组,B组,3. 7. 10. 13. 17,这两组数据的平均数相同,但数据的离散程度不同;,平均数无法表征数据的集中(分散)程度。,40,1.3.3数据离散趋势的参数,(1)极差:数据组中最大值与最小值之差。,刚才的例子,A: 8. 9 . 10 .11 .12 B: 3. 7 .10 .13. 17,RA=4 RB=14,极差只说明了最大最小两个数值的集中情况,没有考虑到其他的数据。,41,1.3.3 数据离散趋势的参数,要考虑到全面数据和每个观察值。 可用: 表示,思考: 这种方式有什么缺点;,A: 8. 9 . 10 .11 .12 B: 3. 7 .1
14、0 .13. 17,这种方法会出现因为正负抵消而结果为零的显现。,42,1.3.3 数据离散趋势的参数,A: 8. 9 . 10 .11 .12 B: 3. 7 .10 .13. 17,方差为,平方差(简称方差):,方差越大,说明数据越分散,变异程度越大,方差越小,说明数据组越集中,变异程度越小。,(2)方差与标准差,43,2,23.2,1.3.3 数据离散趋势的参数,总体方差:,样本方差:,思考:同一列数据,用总体标准差计算与用样本标准差计算得到的结果有什么不同?,(2)方差,总体标准差:,样本标准差:,44,练习1,45,测定某水样中的总铬浓度,共测定了10个平行样,其总铬的测定浓度分别为
15、:0.92mg/L、0.91mg/L、0.89mg/L、0.95mg/L、0.98mg/L、0.87mg/L、0.84mg/L、0.94mg/L、0.99mg/L、1.02mg/L,请计算平均值、样本标准差、样本方差。,(2)变异系数,1.3.3 数据离散趋势的参数,变异系数 样本标准差 均数,没有单位,属于相对数,便于资料间的对比分析。,变异系数越大,说明数据的变化越大。,46,1.3.3 数据离散趋势的参数,变异系数的应用 1.测量尺度差异过大的几组观察值的差异度; 2.单位和纲量不同的几组观察值的变异度;,例如: 比较湘江与珠江主河道中泥沙含量的变化情况; 比较丽江与北京大气的PM2.5
16、浓度变化情况 比较亚洲人与欧洲人的体重变化情况;,47,方差的应用与意义 表征变量分布的离散趋势。观察值的差异原因如下: (1)本身的差异; (2)随机误差形成的差异; 若差异主要来自于观察值本身差异:标准差主要反应数据本身的差异; 若观察值差异来自于随机误差:标准差与方差主要反应随机误差,即数据的精度;,48,1.3.3 数据离散趋势的参数,练习2,49,计算下列数组的变异系数;,练习4,50,某企业废水排放量与COD排放浓度如下表所示,请计算该企业COD排放的平均浓度。该企业全年的废水排放量为217万吨,问企业的COD排放量是多少?,本章参考资料,1.杨保华、陈剑虹环境统计应用,化学工业出
17、版社 2.谢露静,环境统计应用,科学技术出版社,51,第3章 概率论基础,本节目录,53,54,3.1概率论基础,在日常的工作与生活中我们会发现事情的结果具有一定的规律,如: 小明投篮100次,其中有70次投中,我们可以说小明的命中率为70/100=0.7。 0.7称之为频率(有限次数里某一结果出现的比例。) 随着小明投篮次数的增加(假设增加到无穷多次),频率会接近某一个值,这个值就是小明投篮投中的概率;,55,在日常的工作与生活中我们会发现: 例1.掷骰子: 掷了100次,出现1点一共是16次;出现1点这个结果的频率是16/100=0.16;随着掷骰子次数的不断增加,这个频率会越来越接近一个
18、值(本例为1/6),这个值就是“出现1点”这个事件的概率。,3.1概率论基础,56,例3 抛硬币 抛硬币可能是正面也可能反面。 随着抛掷硬币的次数越来越多,会发现出现正面的次数与出现反面的次数越来越接近。 出现正面与反面的频率分别接近于0.5。0.5就是出现正面或出现反面的概率,3.1概率论基础,57,57,例4.身高分布 绝大多数的女大学生身高分布在一定的范围: 160.0cm,158.5cm,159.5cm,163.5cm,166.5cm,161.5cm,160.5cm,165.5cm,166.5cm,158.5cm,160.0cm,160.0cm,155.0cm,174.0cm,3.1概
19、率论基础,从上述例子可以看出: 事件的结果我们无法把握,但是事件出现的结果会有一定的规律,这就是概率论的基础。 事件结果可以通过数据形式表达。如: 抛掷硬币,可能是正面也可能反面,正面用1来表示,反面用0来表示。 这个数字结果随着试验与事件发生情况而发生变化,结果与不同的随机事件具有对应的关系,可以用变量来描述,如,X、Y、Z,此变量为随机变量。,58,3.1概率论基础,3.1.1随机变量 随机变量虽然每一次的结果都不同,但是随机变量的取值却有一定的规律。 例如: 抛掷硬币出现正面,反面的结果,随着抛掷的次数逐渐增加,正面和反面出现的次数会相同; 掷骰子,随着次数的增加,1、2、3、4、5、6
20、出现的频率会趋于一个常数。,59,武汉理工大学出版社,3.1概率论基础,3.1.2 随机变量的概率分布 在随机事件中,事件的各种结果发生概率具有一定的规律,这种规律就是随机变量的概率分布。 概率分布可认为是:随机变量的可能值的域值(范围值)及其对应的概率变化分布情况。 离散型概率分布 连续性概率分布,60,3.1概率论基础,3.1.2 随机变量的概率分布 离散性随机变量的概率分布 离散型随机变量X的每一个可能取值xi和随机变量取该值得概率P(xi)之间所确定的对应关系称作这个离散性随机变量的概率分布。 例如掷硬币,只有两个结果可以用0、1来表示。 例如掷骰子,只有六个结果可以用1、2、3、4、
21、5、6来表示,61,3.1概率论基础,62,以女大学生体重与身高的关系为调查对象,可得到女同学的身高频率分布如下,把身高分段细化,3.1.2 随机变量的概率分布,3.1概率论基础,将身高分段分区进一步细化,63,3.1概率论基础,3.1.2随机变量的概率分布,将各身高段的中值点连成线可以有如下结果,65,65,身高概率,身高,曲线下的面积及为各身高的分布概率,该曲线称之为概率密度曲线;,3.1.2 随机变量的概率分布,3.1概率论基础,66,x,X为随机变量。,f(x),随机变量概率密度,概率密度是概率与随机变量的比值,概率密度曲线可以可以用数学解析式表达,即f(x)。 概率密度曲线通常用于表
22、示连续性随机变量的概率分布,3.1概率论基础,67,x,f(x),概率密度函数有如下特点: f(x) 0,及说明概率密度应该位于x轴的上方,所以概率值为非负数; 概率密度曲线f(x) 与x轴之间的面积为概率值,整个x轴与曲线f(x)所夹的面积为1.,3.1概率论基础概述,3.1.2 随机变量的概率分布,68,数学期望(或均值)就是随机变量的平均取值,而方差则刻画了随机变量对它的均值的偏离程度。 随机变量X的数学期望就是X的加权平均数, 记做 或者E(X)。 数学期望的数学表达式。,离散型随机变量,连续型随机变量的数学期望,3.1概率论基础概述,3.1.2 随机变量的概率分布,本节目录,69,3
23、.2几种常见的概率分布,正态分布又称为高斯分布,是一种连续随机变量的概率分布,应用非常广泛。很多随机事件的分布情况都是此类分布。 例如: 烟囱排放烟尘气体的浓度分布 试验的误差的概率分布 自然界中其他的分布。 都近似服从这种分布。,70,71,正态分布曲线,3.2.1正态分布,正态分布概率密度的表达式,若随机变量x服从正态分布,则记做:,3.2.1正态分布,72,正态分布的特征,正态分布概率密度曲线位于x轴的上方; 正态分布的概率密度曲线是一条关于总体均值 左右对称的钟形曲线,呈现中间高,两边低的形态;,正态分布曲线,73,正态分布由两个参数总体均值 、总体标准差 ,参数来决定。 决定正态分布
24、曲线的位置。 决定正态分布曲线的形状。 因此,只有确定了 和 才能确定正态分布的概率密度曲线;,3.2.1正态分布,74,正态分布 其实是一组频率密度分布曲线。,在实际的工作中,应用并不方便;,3.2.1正态分布,75,标准正态分布,将 且 的正态分布称之为标准正态分布,记做:,非标准正态分布标准化,若随机变量,请参考教材P67。,3.2.1正态分布,76,标准正态分布表的使用,教材附录1,P224。 表格中的数值含义随机变量小于界值“X”的概率值,即表格上方示意图中阴影部分的面积;,3.2.1正态分布,查表,P(x1), P(x1.96), P(x2.58);,77,查表,P(-1x1),
25、P(-1.96x1.96), P(-2.58x2.58);,查表,P(-1.22x2.37), P(0.78x2.16), P(-2.00x1.12);,3.2.1正态分布,查表,P(0x1), P(0x1.96), P(0x2.58);,78,标准正态分布的重要界值点,3.2.1正态分布,79,求,P(X2.1),P(X1.43),求,P(X0.8),P(X1.13),随堂练习1,80,不同的教材, 标准正态分布表的表示的情况不同,具体需要参考正态分布表的图示。,3.2.1正态分布,81,对标准正态分布而言,总体标准差为1。 (1)的面积占总面积的68.27%。分布在(1)范围内的随机变量(
26、观察值、事件)咱总体随机变量的68.27%; (1.96)的面积占总面积的95%。分布在(1.96)范围内的随机变量(观察值、事件)咱总体随机变量的95%; (2.58)的面积占总面积的99%,说明分布在(2.58)范围内的随机变量(观察值、事件)占总体随机变量的99%。,3.2.1正态分布,82,(1)的面积占总面积的68.27%。分布在(1)范围内的随机变量(观察值、事件)咱总体随机变量的68.27%; (1.96)的面积占总面积的95%。分布在(1.96)范围内的随机变量(观察值、事件)咱总体随机变量的95%; (2.58)的面积占总面积的99%,说明分布在(2.58)范围内的随机变量(
27、观察值、事件)咱总体随机变量的99%。,3.2.1正态分布,83,简述正态分布的特点; 请查正态分布表,确定概率值;,求,P(X4),P(3X11) ,P(x6),求,P(0.3X1.8),P(1X1.13),课后练习1,3.2.2 二点分布,84,若随机变量X服从二点分布,其分布律为:,3.2.3 二项分布,85,随机变量XB(n,p),其分布律为:,由二项分布定义可知,X是n重贝努利试验中事件A发生的次数,且在每次试验中A发生的概率为p,设,则Xk服从二点分布,其分布律为:,86,若随机变量XB( n , p ),则,即:,3.2.3 二项分布,3.2.4泊松分布,87,随机变量 ,其分布
28、律为:,88,3.2.4 泊松分布,3.2.5 均匀分布,89,设随机变量X在区间(a,b)上服从均匀分布,其概率密度为,90,即,若随机变量XU( a , b ),则,3.2.5 均匀分布,本节目录,91,3.3 抽样与抽样分布,92,3.3.1基本概念 总体:也称为全体,指被研究对象的全体,它是由具有某种共同特性的各单位组成的集合。如大学女生,长江水质; 有限总体:如大学学生、排放COD的企业 无限总体:大气环境、长江水环境 样本:从总体中通过一定方法获得的个体集合称之为样本。 如:河流的监测断面 抽取20000大学女生测定平均身高;,3.3.1基本概念 很多时候,在一定的时间和精力下,总
29、体的情况是没有办法把握的,只能通过样本的信息来反应总体的情况。所以样本有存在的必要性。 参数:总体的某个特征值,如总体平均值。 统计量:样本的某个特征值,如样本平均值。 可以认为参数是事物的本质,而统计量是事物的表象。通过表象获得本质就是统计学的工作任务。,93,3.3 抽样与抽样分布,3.3.1基本概念 样本容量:样本中包含的个体个数,样本容量越大,获得的信息越接近总体参数。 抽样类别:放回抽样,不放回抽样。 通过抽取样本推断总体的相关特征参数,这一个过程称之为抽样推断或抽样判断。(P69),94,3.3 抽样与抽样分布,3.3.2抽样判断的原则与特点 第一,抽取的样本不能受调查者与被调查者
30、的主观意识影响; 第二,通过样本的综合指标,即通过统计量可以推断总体的参数;例如用样本均值估计总体均值; 第三,抽取样本的误差要在可控范围内;,95,3.3 抽样与抽样分布,(1)随机抽样:通常用于分布均匀的总体,常采用的方法为抽签法、随机数字法; (2)分层抽样:等比例抽样,不等比例抽样;通常用于总体中有不同组分的情形。例如:调查不同行业企业二氧化硫排放量的数据; (3)等距离抽样:又称之为机械抽样与系统抽样。,96,3.3 抽样与抽样分布,样本与总体总是有差别的,但是从总体中抽取的样本其某个特征值的统计量与总体这个特征值的参数总有联系。 样本统计量就会随着抽取样本这一随机事件出现不同的值,
31、因此样本统计量也是随机变量。 样本统计量这一随机变量的概率分布就是样本的抽样分布。 抽样分布与总体随机变量分布、抽取样本容量、样本统计量等信息有关。,97,3.3 抽样与抽样分布,3.3 抽样与抽样分布,98,1.从正态总体 中抽取样本的样本均值也俯冲正态分布: 可以标准化如下。(P73),99,2. 设总体 ,X1,X2Xn是来自总体X的一个样本,即 , i=1,2,3.n,则统计量 服从自由度为n分布,记做 。,设总体 ,X1,X2Xn是来自总体X的一个样本,样本均值 ,样本标准差 是样本标准差,则有,3.3 抽样与抽样分布,3.3 抽样与抽样分布,100,3.设X1,X2,Xn是取自正态
32、总体 的样本,,则有,3.3 抽样与抽样分布,101,且X与Y独立,分别是这两个样本的样本方差,则有,3.两个总体样本均值差的分布,3.3 抽样与抽样分布,102,4.两个总体样本方差比的分布,且X与Y独立,分别是这两个样本的样本方差,则有,上述4个抽样分布要牢固掌握.,本节目录,103,3.4 参数估计,104,用样本指标估计总体指标,称之为参数估计。 参数估计有两种类型 点估计:用样本统计指标制作作为总体参数的估计值,称之为参数估计。例如用样本平均值代替总体平均值;方法 方法简单,但是没有考虑到样本抽样时候的误差,无法确定准确性; 区间估计:通过样本的统计量,在一定的置信度下(或显著水平)
33、下,估计总体参数的置信区间; 方法相比较为复杂,但能把握总体参数的置信区间,准确性等信息;,105,X1,X2, Xn来自总体X , 为总体参数(未知),由样本确定的两个统计量 和 ,对给定的显著性水平 ,满足:,则称区间 为总体参数 置信度为 的执行区间。,显著性水平;,置信度;,3.4 参数估计,106,3.4参数估计,置信区间,舍弃域,总体参数的置信区间 显著性水平 置信度或置信水平 表示判断总体参数落在置信区间的可信程度,下面介绍几种总体参数的区间估计,3.4.1总体均值的区间估计,107,用样本均值来估计总体均值的置信区间,根据定理3.2可知:,1.从正态总体 中抽取样本,该样本均值
34、 。可以标准化如下。(P73),标准化,3.4.1总体均值的区间估计,108,或,于是得置信度为 时总体均值 置信区间计算公式为:,参看教材P81。,3.4.1总体均值的区间估计,109,例题1,某河流中的溶解氧浓度服从总体标准差为1.2mg/L的正态分布;现从该河流中随机测定36个水样的溶解氧浓度,测定平均溶解氧浓度为6.01mg/L。请核算该河流溶解氧置信度为95%,99%的置信区间。,例题2:某地区土壤中的重金属铬的背景值服从标准差为0.2110-6mg/kg的正态分布,本次农田土壤测定了9个平行样,得到的铬的平均浓度为4.2210-6mg/kg。请计算该地块中铬浓度95%和99%的置信
35、区间。,110,3.4.1总体均值的区间估计,111,本总体均值置信区间的计算方法的使用条件:,1.总体标准差已知时,随机抽样:,2.总体标准差未知时,但样本足够大,即为大样本; 样本均值也是服从正态分布的;也可以用该公式来计算;,3.4.1总体均值的区间估计,练习1:某排污口经过100次测试,废水中的COD平均浓度为100mg/L,标准差为20mg/L,试估计该排污口废水中COD的95%的置信区间。,112,随堂练习2,练习1: 为检查某湖水汞污染的情况,从该湖中随机抽取49个底泥样本,测得汞含量平均为0.00901g/kg,标准差为0.0021 g/kg,试求湖水底泥中汞含量的95%及99
36、%的置信区间。,113,随堂练习2,课后练习2,某森林公园监测点大气中颗粒物浓度服从标准差为0.0004mg/m3的正态分布,现在该公园某点测定8个平行样,测定得到的颗粒物浓度为0.0045mg/m3,请估计该监测点颗粒物浓度95%的置信区间。,114,115,前面已经学习,当总体方差已知的情况下,样本均值服从正态分布。可以用正态分布来计算总体均值的置信区间。 那当总体方差未知的时候,用样本方差代替总体方差,若样本容量足够大,可以用(3.18)公式计算, 若样本容量不是大样本呢? 则有下式子。,表达式t服从自由度为n-1的t分布。因此有,3.4.1总体均值的区间估计,t分布概率密度曲线与正态分
37、布类似,都是以x=0左右对称的。,3.4.1总体均值的区间估计,116,为(n为自由度) n =n-1的t分布的t界值,上式如下,例题1:测定某废水中氰化物浓度,测定次数为4次,平均浓度为5mg/L,样本标准差S=0.1mg/L,求总体平均值95%和99%的置信区间。,117,3.4.1总体均值的区间估计,例题2:对某废水排放口流量进行测定,随机测定9次,测得废水平均流量为0.08m3/s,标准差0.033m3/s ,试估计该排污口废水流量95%和99%的置信区间。,118,3.4.1总体均值的区间估计,119,根据抽样分布原理,当样本容量n足够大的时候(一般np5或n(1-p) 5),样本比
38、率p近似服从正态分布。即:,将其标准化,3.4.2总体比例的区间估计,120,对于总体比率P的区间估计与正态分布总体均值的区间估计类同,总体比率(成数)P的1-置信区间计算公式为:,3.4.2总体均值的区间估计,121,例题1:从某河流随机抽取764份水样,经测定COD超标的有162份,超标率为21.2%,试估计该河水COD总体超标率的95%和99%的置信区间。,3.4.2总体均值的区间估计,122,本例n=764,比例p=176/764=21.2%,np5; 可用正态近似法估计该河水COD总体超标率的95%置信区间。,可计算总体超标率P的95%的置信区间如下,则总体超标率P的95%的置信区间
39、为:,3.4.2总体均值的区间估计,3.4.3总体方差的区间估计,123,2021/4/11,根据抽样分布可知:,可得到 的置信水平为 的置信区间为,124,2021/4/11,3.4.3总体方差的区间估计,125,2021/4/11,3.4.3总体方差的区间估计,126,2021/4/11,解,例题1:测定某水样中的COD浓度,重复测定了5个平行样,测定结果如下,12.50mg/L,12.60mg/L,12.65mg/L,12.45mg/L,12.75mg/L。试求总体方差 和标准差 95%的置信区间。,3.4.3总体方差的区间估计,127,2021/4/11,3.4.3总体方差的区间估计,
40、第4章 显著性检验,129,本节目录,130,4.1显著性检验的概念与含义,在实际工作中经常会遇到如下的一些问题,不同测试方法的测试结果是否一致 污染区与非污染区人群中的某种发病率是否有差别 污灌区与非污灌区土壤中某元素含量是否不同,4.1显著性检验的概念与含义,131,接下来我们来看一个比较具体的例子:,用两种不同的方法对某一底泥进行砷的测定,结果如下:,纯粹是随机误差所导致,通过加大样本容量可以减少这种随机误差导致的差异。 两种方法本身存在差异,,4.1显著性检验的概念与含义,差异势必存在,那什么样的差异才是可以接受的呢? 若差异不显著,可以接受这种差异; 若差异显著,那这种差异是不能接受
41、的。 那什么是显著性的差异呢?,132,4.1显著性检验的概念与含义,133,是根据研究与工作目的,先对样本所属总体特征作出某种假设,如假设某一总体指标等于某个值,或假设两个总体指标相等。然后根据实际得到的样本资料所提供的信息,通过一定的统计方法,检验所假设是否合理,从而对假设作出拒绝或是不拒绝的判断。显著性检验又称为假设检验(P87)。,4.1.2显著性检验的基础,小概率事件:通常把P0.05的事件看作为小概率事件。统计学上认为,在一次随机事件中,小概率事件几乎是不发生的。 所以在检验中,证明了某一假设发生的概率小于0.05时候,则可以认为,可以否定 “发生这一事件”的假设。,134,4.1
42、.3显著性检验的步骤,第一步:建立统计假设和确定检验水准 建立“检验”:假设对总体的参数或分布作出假设,假设分为检验假设(H0)和备择假设(H1) 检验假设(H0):检验假设,后面所有的检验都是针对它的。 备择假设(H1):与H0对立的检验,当H0不成立时,选择的假设。,135,4.1.3显著性检验的步骤,第一步:建立统计假设和确定检验水准 1.根据资料性质和分析的目的要求确定左双侧检验还是单侧检验。 双侧检验:推断两总体参数有无差别,无论是甲高于乙,还是乙高于甲,两种可能性都存在。 单侧检验:只关心甲是否高于乙,或乙高与甲。 一般认为,双侧检验比较稳妥,较为常用。,136,4.1.3显著性检
43、验的步骤,137,目 的 H0 H1,是否,双侧检验,是否,是否,单侧检验,单侧检验,检验水准称显著性水平,符号用,它是一个否定或是肯定H0的概率标准,是一个小概率。常取=0.05。,4.1.3显著性检验的步骤,138,4.确定概率值,作出推断的结论:不同参数的显著性检验使用的统计量是不同的; P值是H0的概率。 P时,是小概率事件,即现有样本的信息不足以支持H0,因此拒绝H0。 P 时,即现有信息支持H0,没有理由拒绝H0,习惯上把不拒绝作为接受看。,3.选择和计算统计量,4.1.3显著性检验的步骤,139,第一类错误(弃真错误):,第二类错误(取伪错误):,两类错误,原假设H0为真,但拒绝
44、了原假设H0 .,原假设H0不真,但接受了原假设H0 .,P拒绝H0|H0为真=,P接受H0|H0不真= .,显然,显著性水平为犯第一类错误的概率.,记,140,处理原则:,任何检验方法都不能完全排除犯错误的可能性.理想的检验方法应使犯两类错误的概率都很小,但在样本容量固定时,一类错误概率的减少必会导致另一类错误概率的增加.,控制犯第一类错误的概率,然后,若有必要,通过增大样本容量的方法来减少犯第二类错误的概率 .,4.1.3显著性检验的步骤,141,关于原假设与备择假设的选取,H0与H1地位应平等,但在控制犯第一类错误的概率 的原则下,使得采取拒绝H0 的决策变得较慎重,即H0 得到特别的保
45、护.因而通常把有把握的、有经验的结论作为原假设,或者尽可能使后果严重的错误成为第一类错误.,注:,4.1.3显著性检验的步骤,142,本节目录,4.2 正态总体的假设检验,143,4.2.1总体均值的假设检验 1.样本均值与总体均值的z检验或u检验 应用条件:样本取自正态总体且总体方差已知,或者当样本取自非正态总体,但是样本容量足够大(n30) 显著性检验计算的统计量如下:,4.2 正态总体的假设检验,144,正态总体与样本均值的假设检验;,例题一:某标准物质A组分的浓度为4.47g/g,先用某种方法重复测定A组分5次,测定值分别为4.28,4.40,4.42,4.37,4.35。若该方法在相
46、应水平的总体方差2=(0.108 g/g )2,问该法测定结果是否偏低?,4.2 正态总体的假设检验,145,解: 建立假设,确定检验水平:,单侧检验:,计算统计量z值,作出判断,单侧Z00.05=1.6448,P0.05,在=0.05的水准下,拒绝H0,接受H1,测定结果偏低,即测定中存在系统误差。,H0:=x H1:x,4.2 正态总体的假设检验,某河流溶解氧如从正态分布N(8,1),今年夏天对该河流的溶解氧做了测定,测定样本共计9个,测得溶解氧浓度为7.5mg/L,请问今年夏天测定的溶解氧浓度与长期溶解氧浓度是否有显著性的差别。,146,随堂练习,现在对某铅污染地区土壤中重金属铅进行测定
47、,共检测了100个土壤样本,测得平均铅浓度为3mg/kg,标准差为0.2mg/kg,国家标准为2mg/kg,问该地区土壤铅污染是否显著性超标。,147,4.2 正态总体的假设检验,4.2.1总体均值的假设检验 2.样本均值与总体均值的t检验 应用范围:总体方差未知,n30,t检验的统计量如下:,148,4.2 正态总体的假设检验,抽取某地区粮食样品16个,测得粮食中某种农药的含量平均值为0.325mg/kg,标准差为0.068mg/kg,国家食品卫生标准规定,粮食中该种农药残留量0.3mg/kg,问该地区粮食中该农药残留量是否超标?,149,4.2 正态总体的假设检验,150,建立假设,确定检
48、验水平:,单侧检验:,计算统计量t值:,作出判断,以n=36-1=35查t界值表,查得,则,在=0.05的水准下,拒绝H0,接受H1,某地区的粮食中 六六六含量超标,课后练习,已知某标准水样中CaCO3的含量为22.70mg/L,现用某法测定该水样11次,测定结果为20.99、20.41、20.10、20.00、20.99、20.91、20.60、20.00、23.00、22.00、22.44,均值为21.04,标准差为1.05mg/L。问该法测定结果与CaCO3的真实值之间有无显著性差别?,151,152,本节目录,4.3两样本均值比较的Z检验,153,两个样本均值的比较,通常是比较来自两个
49、总体的样本,通过样本的判断来它背后两个总体的差别;,例如:,株洲与长沙大气中PM10浓度的比较;,污染地区与废污染地区某种污染物的浓度比较;,只要比较两个样本平均值的差等于零,即两个平均值的差与零之间没有显著性差别即可以判断,两个总体是否有差别;,4.3两样本均值的显著性检验,154,若总体标准差已知,来自正态总体的样本比较,可以通过Z检验进行比较,计算统计量为:,适用条件:总体方差 已知。见教材P93(4.4);,这种情况,一般很少,如若总体的标准差已知的话,总体平均值也已知;更多的情况是总体的标准差未知。,4.3两样本均值的显著性检验,155,若两个样本容量相等,统计量可以简化为:,通过统计量t,判断假设结果,得出结论。,总体的标准差未知,样本是小样本;两个样本均值的比较,统计量如下(P94,公式(4.64.9):,如果,两个样本容量一样,则上述公式可以 简化。,4.3两样本均值的显著性检