大数据分析中数理统计方法的正确使用.ppt

上传人:wuy****n92 文档编号:79053225 上传时间:2023-03-19 格式:PPT 页数:109 大小:5.37MB
返回 下载 相关 举报
大数据分析中数理统计方法的正确使用.ppt_第1页
第1页 / 共109页
大数据分析中数理统计方法的正确使用.ppt_第2页
第2页 / 共109页
点击查看更多>>
资源描述

《大数据分析中数理统计方法的正确使用.ppt》由会员分享,可在线阅读,更多相关《大数据分析中数理统计方法的正确使用.ppt(109页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、v作者所处理的数据属于随机变量的特定样本。作者所处理的数据属于随机变量的特定样本。v作者已经掌握最基本的数理统计学常识,如概率、作者已经掌握最基本的数理统计学常识,如概率、假设检验、均值、方差、标准差、正态分布、相假设检验、均值、方差、标准差、正态分布、相关分析、回归分析、方差分析关分析、回归分析、方差分析。v在科学研究中,经常会涉及到对随机变量在科学研究中,经常会涉及到对随机变量大小大小、离散离散及及分布分布特征的描述以及对特征的描述以及对2 2个或多个随机变量之间的个或多个随机变量之间的关系关系描述问题。描述问题。地学、环境科学研究也不例外地学、环境科学研究也不例外。v对随机变量及随机变量

2、之间的关系进行定量描述的数学工具对随机变量及随机变量之间的关系进行定量描述的数学工具就是就是数理统计学数理统计学。v在科学研究中,能否正确使用各种数理统计方法关系到所得在科学研究中,能否正确使用各种数理统计方法关系到所得出结论的客观性和可信性。所以,出结论的客观性和可信性。所以,来稿中使用的数理统计方法来稿中使用的数理统计方法是否正确是否正确应是学术期刊编辑和作者极为重视的问题。应是学术期刊编辑和作者极为重视的问题。v目前,国内科技期刊对稿件中数理统计方法问题的重视程度目前,国内科技期刊对稿件中数理统计方法问题的重视程度存在差异。存在差异。v统计分析通常涉及大量的数据,需要较大的计算统计分析通

3、常涉及大量的数据,需要较大的计算工作量。工作量。v在进行统计分析时,尽管作者可以自行编写计算在进行统计分析时,尽管作者可以自行编写计算程序,但在统计软件很普及的今天,这样做是毫程序,但在统计软件很普及的今天,这样做是毫无必要的。无必要的。v出于对出于对工作效率工作效率以及对以及对算法的通用性、可比性算法的通用性、可比性的的考虑,一些学术期刊要求作者采用专门的数理统考虑,一些学术期刊要求作者采用专门的数理统计软件进行统计分析。计软件进行统计分析。问题:作者未使用专门的数理统计软件,而采用问题:作者未使用专门的数理统计软件,而采用Excel这样的电子表格软件进行数据统计分析。这样的电子表格软件进行

4、数据统计分析。v由于电子表格软件提供的统计分析功能十分有限,由于电子表格软件提供的统计分析功能十分有限,只能借助它进行较为简单的统计分析,故我们不主只能借助它进行较为简单的统计分析,故我们不主张作者采用这样的软件进行统计分析。张作者采用这样的软件进行统计分析。v目前,国际上已开发出的专门用于统计分析的商目前,国际上已开发出的专门用于统计分析的商业软件很多,比较著名有业软件很多,比较著名有SPSS(Statistical Package for Social Sciences)和和SAS(Statistical Analysis System)。此外,还有此外,还有BMDP和和STATISTIC

5、A等等。vSPSS是专门为社会科学领域的研究者设计的,但是专门为社会科学领域的研究者设计的,但此软件在自然科学领域也得到广泛应用。此软件在自然科学领域也得到广泛应用。vBMDP是专门为生物学和医学领域研究者编制的是专门为生物学和医学领域研究者编制的统计软件。统计软件。v目前,国际学术界有一条不成文的约定:凡是用目前,国际学术界有一条不成文的约定:凡是用SPSSSPSS和和SASSAS软件进行统计分析所获得的结果,在国际学术软件进行统计分析所获得的结果,在国际学术交流中不必说明具体算法。由此可见,交流中不必说明具体算法。由此可见,SPSSSPSS和和SASSAS软软件已被各领域研究者普遍认可。件

6、已被各领域研究者普遍认可。v我们建议作者们在进行统计分析时尽量使用这我们建议作者们在进行统计分析时尽量使用这2 2个专个专门的统计软件。目前,有关这门的统计软件。目前,有关这2 2个软件的使用教程在个软件的使用教程在书店中可很容易地买到。书店中可很容易地买到。v1 1)均值(准确的称呼应为)均值(准确的称呼应为“样本均值样本均值”)的统)的统计学意义:反映随机变量样本的大小特征。计学意义:反映随机变量样本的大小特征。v2 2)均值对应于随机变量总体的数学期望)均值对应于随机变量总体的数学期望总体总体的数学期望客观上决定着样本的均值,反过来,的数学期望客观上决定着样本的均值,反过来,通过计算样本

7、的均值可以描述总体的数学期望。通过计算样本的均值可以描述总体的数学期望。v3 3)在处理实验数据或采样数据时,经常会遇到)在处理实验数据或采样数据时,经常会遇到对相同采样或相同实验条件下同一随机变量的多对相同采样或相同实验条件下同一随机变量的多个不同取值进行统计处理的问题。个不同取值进行统计处理的问题。v4 4)为找到代表这些观测值总体大小特征的代表)为找到代表这些观测值总体大小特征的代表值(统计量,该统计量根据样本数据算出),多值(统计量,该统计量根据样本数据算出),多数作者会不假思索地直接给出算术平均值和标准数作者会不假思索地直接给出算术平均值和标准差。显然,这种做法是不严谨的差。显然,这

8、种做法是不严谨的不一定总是不一定总是正确的正确的v在数理统计学中,作为描述随机变量样本的总体大小在数理统计学中,作为描述随机变量样本的总体大小特征的统计量有算术平均值、几何平均值和中位数等特征的统计量有算术平均值、几何平均值和中位数等多个。多个。v何时用算术平均值?何时用几何平均值?以及何时用何时用算术平均值?何时用几何平均值?以及何时用中位数?中位数?这不能由研究者根据主观意愿随意确定,而这不能由研究者根据主观意愿随意确定,而要根据随机变量的分布特征确定要根据随机变量的分布特征确定。v反映随机变量总体大小特征的统计量是数学期望,而在随机反映随机变量总体大小特征的统计量是数学期望,而在随机变量

9、的分布服从正态分布时,其数学期望就可以用样本的算变量的分布服从正态分布时,其数学期望就可以用样本的算术平均值描述。此时,可用样本的术平均值描述。此时,可用样本的算术平均值算术平均值描述随机变量描述随机变量的大小特征。的大小特征。v如果所研究的随机变量不服从正态分布,则算术平均值不能如果所研究的随机变量不服从正态分布,则算术平均值不能准确反映该变量的大小特征。在这种情况下,可通过假设检准确反映该变量的大小特征。在这种情况下,可通过假设检验来判断随机变量是否服从对数正态分布。如果服从对数正验来判断随机变量是否服从对数正态分布。如果服从对数正态分布,则几何平均值就是数学期望的值。此时,就可以计态分布

10、,则几何平均值就是数学期望的值。此时,就可以计算变量的算变量的几何平均值几何平均值。v如果随机变量既不服从正态分布也不服从对数正态分布,则如果随机变量既不服从正态分布也不服从对数正态分布,则按现有的数理统计学知识,尚无合适的统计量描述该变量的按现有的数理统计学知识,尚无合适的统计量描述该变量的大小特征。此时,可用大小特征。此时,可用中位数中位数来描述变量的大小特征。来描述变量的大小特征。v在相关分析中,作者们常犯的错误是:简单地计算在相关分析中,作者们常犯的错误是:简单地计算Pearson Pearson 积矩相关系数,而且既不给出正态分布检验结果,也往往不积矩相关系数,而且既不给出正态分布检

11、验结果,也往往不明确指出所计算的相关系数就是明确指出所计算的相关系数就是Pearson Pearson 积矩相关系数。积矩相关系数。v在数理统计学中,除有针对数值变量设计的在数理统计学中,除有针对数值变量设计的Pearson Pearson 积矩积矩相关系数(对应于相关系数(对应于 “参数方法参数方法”)外,还有针对顺序变量)外,还有针对顺序变量(即(即“秩变量秩变量”)设计的)设计的SpearmanSpearman秩相关系数和秩相关系数和KendallKendall秩相关系数(对应于秩相关系数(对应于 “非参数方法非参数方法”)等。)等。vPearson Pearson 积矩相关系数可用于描

12、述积矩相关系数可用于描述2 2个随机变量的线性相关个随机变量的线性相关程度,程度,SpearmanSpearman或或KendallKendall秩相关系数用来判断两个随机秩相关系数用来判断两个随机变量在二维和多维空间中是否具有某种共变趋势。变量在二维和多维空间中是否具有某种共变趋势。在相关分析中,计算各种相关系数是有前提条件在相关分析中,计算各种相关系数是有前提条件的。的。在相关分析中,对于秩变量,一般别无选择,只在相关分析中,对于秩变量,一般别无选择,只能计算能计算SpearmanSpearman或或KendallKendall秩相关系数。秩相关系数。对于数值变量,只要条件许可,应尽量使用

13、对于数值变量,只要条件许可,应尽量使用检验检验功效最高功效最高的参数方法,即计算用的参数方法,即计算用Pearson Pearson 积矩相积矩相关系数。只有计算关系数。只有计算Pearson Pearson 积矩相关系数的前提积矩相关系数的前提不存在时,才考虑退而求其次,计算专门为秩变不存在时,才考虑退而求其次,计算专门为秩变量设计的量设计的SpearmanSpearman或或KendallKendall秩相关系数(秩相关系数(尽管尽管这样做会导致检验功效的降低这样做会导致检验功效的降低)。)。v对于数值变量,相关系数选择的依据是变量是否服从正态对于数值变量,相关系数选择的依据是变量是否服从

14、正态分布,或变换后的数据是否服从正态分布。分布,或变换后的数据是否服从正态分布。v对于二元相关分析,如果对于二元相关分析,如果2 2个随机变量服从二元正态分布假个随机变量服从二元正态分布假设,则应该用设,则应该用Pearson Pearson 积矩相关系数描述这积矩相关系数描述这2 2个随机变量间个随机变量间的相关关系。的相关关系。v如果样本数据不服从二元正态分布,则可尝试进行数据变如果样本数据不服从二元正态分布,则可尝试进行数据变换,看变换后的数据是否符合正态分布?如果是,则可以换,看变换后的数据是否符合正态分布?如果是,则可以针对变换后的数据计算针对变换后的数据计算Pearson Pear

15、son 积矩相关系数;否则,就积矩相关系数;否则,就不能计算不能计算Pearson Pearson 积矩相关系数,而应改用检验功效较低积矩相关系数,而应改用检验功效较低的的SpearmanSpearman或或KendallKendall秩相关系数(此时,如果强行计算秩相关系数(此时,如果强行计算Pearson Pearson 积矩相关系数有可能会得出完全错误的结论)。积矩相关系数有可能会得出完全错误的结论)。相关分析和回归分析是极为常用的相关分析和回归分析是极为常用的2 2种数理统计方法,种数理统计方法,在环境科学及其它科学研究领域有着广泛的用途。然在环境科学及其它科学研究领域有着广泛的用途。

16、然而,由于这而,由于这2 2种数理统计方法在计算方面存在很多相种数理统计方法在计算方面存在很多相似之处,且在一些数理统计教科书中没有系统阐明这似之处,且在一些数理统计教科书中没有系统阐明这2 2种数理统计方法的内在差别,从而使一些研究者不种数理统计方法的内在差别,从而使一些研究者不能严格区分相关分析与回归分析能严格区分相关分析与回归分析。1 1)最常见的错误是)最常见的错误是:用回归分析的结果解释相关性问用回归分析的结果解释相关性问题。例如,作者将题。例如,作者将“回归直线(曲线)图回归直线(曲线)图”称为称为“相关性图相关性图”或或“相关关系图相关关系图”;将回归直线的;将回归直线的R2 2

17、(拟拟合度,或称合度,或称“可决系数可决系数”)错误地称为错误地称为“相关系数相关系数”或或“相关系数的平方相关系数的平方”;根据回归分析的结果宣称;根据回归分析的结果宣称2 2个变量之间存在正的或负的相关关系。个变量之间存在正的或负的相关关系。2 2)相关分析与回归分析均为研究)相关分析与回归分析均为研究2 2个或多个变量间个或多个变量间关联性的方法,但关联性的方法,但2 2种数理统计方法存在本质的差种数理统计方法存在本质的差别,即它们用于不同的研究目的。别,即它们用于不同的研究目的。3 3)相关分析的目的在于检验两个随机变量的共变趋)相关分析的目的在于检验两个随机变量的共变趋势(即共同变化

18、的程度),回归分析的目的则在于势(即共同变化的程度),回归分析的目的则在于试图用自变量来预测因变量的值。试图用自变量来预测因变量的值。4 4)在相关分析中,两个变量必须同时都是随机变量,)在相关分析中,两个变量必须同时都是随机变量,如果其中的一个变量不是随机变量,就不能进行相如果其中的一个变量不是随机变量,就不能进行相关分析。这是相关分析方法本身所决定的。关分析。这是相关分析方法本身所决定的。5 5)对于回归分析,其中的因变量肯定为随机变)对于回归分析,其中的因变量肯定为随机变量(这是回归分析方法本身所决定的),而自量(这是回归分析方法本身所决定的),而自变量则可以是普通变量(有确定的取值)也

19、可变量则可以是普通变量(有确定的取值)也可以是随机变量。以是随机变量。6 6)如果自变量是普通变量,即模型)如果自变量是普通变量,即模型回归分析,回归分析,采用的回归方法就是最为常用的最小二乘法。采用的回归方法就是最为常用的最小二乘法。7 7)如果自变量是随机变量,)如果自变量是随机变量,即模型即模型回归分析,回归分析,所采用的回归方法与计算者的目的有关。所采用的回归方法与计算者的目的有关。在以预测为目的的情况下,仍采用在以预测为目的的情况下,仍采用“最小二乘法最小二乘法”(但精度下降(但精度下降最小二乘法是专为模型最小二乘法是专为模型 设计的,设计的,未考虑自变量的随机误差);未考虑自变量的

20、随机误差);在以估值为目的(如计算可决系数、回归系数等)的在以估值为目的(如计算可决系数、回归系数等)的情况下,应使用相对严谨的方法(如情况下,应使用相对严谨的方法(如“主轴法主轴法”、“约化主轴法约化主轴法”或或“BartlettBartlett法法”)。)。8 8)显然,对于回归分析,如果是模型)显然,对于回归分析,如果是模型回归分析,鉴于两回归分析,鉴于两个随机变量客观上存在个随机变量客观上存在“相关性相关性”问题,只是由于回归分问题,只是由于回归分析方法本身不能提供针对自变量和因变量之间相关关系的析方法本身不能提供针对自变量和因变量之间相关关系的准确的检验手段,因此,若以预测为目的,最

21、好不提准确的检验手段,因此,若以预测为目的,最好不提“相相关性关性”问题;问题;若以探索两者的若以探索两者的“共变趋势共变趋势”为目的为目的,应该,应该改用相关分析。改用相关分析。9 9)如果是模型)如果是模型回归分析,就根本不可能回答变量的回归分析,就根本不可能回答变量的“相相关性关性”问题,问题,因为普通变量与随机变量之间不存在因为普通变量与随机变量之间不存在“相关相关性性”这一概念这一概念(问题在于,大多数的回归分析都是模型(问题在于,大多数的回归分析都是模型回归分析!)。此时,即使作者想描述回归分析!)。此时,即使作者想描述2 2个变量间的个变量间的“共共变趋势变趋势”而改用相关分析,

22、也会因相关分析的前提不存在而改用相关分析,也会因相关分析的前提不存在而使分析结果毫无意义。而使分析结果毫无意义。1010)需要特别指出的是,回归分析中的)需要特别指出的是,回归分析中的R2在数学上恰好是在数学上恰好是PearsonPearson积矩相关系数积矩相关系数r的平方。因此,这极易使作者们错的平方。因此,这极易使作者们错误地理解误地理解R2的含义,认为的含义,认为R2就是就是 “相关系数相关系数”或或“相关系相关系数的平方数的平方”。问题在于,对于自变量是普通变量(即其取值。问题在于,对于自变量是普通变量(即其取值有确定性的变量)、因变量为随机变量的模型有确定性的变量)、因变量为随机变

23、量的模型回归分析,回归分析,2 2个变量之间的个变量之间的“相关性相关性”概念根本不存在,又何谈概念根本不存在,又何谈“相关相关系数系数”呢?呢?1111)更值得注意的是,一些早期的教科书作者不是用)更值得注意的是,一些早期的教科书作者不是用R2来描来描述回归效果(拟合程度,拟合度)的,而是用述回归效果(拟合程度,拟合度)的,而是用PearsonPearson积矩积矩相关系数来描述。这就更容易误导读者。相关系数来描述。这就更容易误导读者。5.1 假设检验基本思想基本思想v统计推断:是根据样本数据推断总体特征的一种方法。统计推断:是根据样本数据推断总体特征的一种方法。v假设检验:是进行假设检验:

24、是进行统计推断统计推断的途径之一(另一种途径是参的途径之一(另一种途径是参数估计,如点估计和区间估计)。数估计,如点估计和区间估计)。v假设检验中的关键问题:假设检验中的关键问题:1 1)在原假设成立的情况下,如何)在原假设成立的情况下,如何计算样本值或某一极端值发生的概率?计算样本值或某一极端值发生的概率?2 2)如何界定小概率)如何界定小概率事件?事件?基本思路基本思路首先,对总体参数值提出假设(原假设);然后,利用样本首先,对总体参数值提出假设(原假设);然后,利用样本数据提供的信息来验证所提出的假设是否成立(统计推断)数据提供的信息来验证所提出的假设是否成立(统计推断)如果样本数据提供

25、的信息不能证明上述假设成立,则应如果样本数据提供的信息不能证明上述假设成立,则应拒绝该假设;如果样本数据提供的信息不能证明上述假设不拒绝该假设;如果样本数据提供的信息不能证明上述假设不成立,则不应拒绝该假设。成立,则不应拒绝该假设。接受或拒绝原假设的依据接受或拒绝原假设的依据 小概率事件不可能发生。显然,这样做是有风险的(小概率小概率事件不可能发生。显然,这样做是有风险的(小概率事件真的发生了)。事件真的发生了)。基本步骤1 1)提出原假设(或称)提出原假设(或称“零假设零假设”,H0););2 2)选择检验统计量;)选择检验统计量;3 3)根据样本数据计算检验统计量观测值的发生概率(相)根据

26、样本数据计算检验统计量观测值的发生概率(相伴概率,伴概率,p););4 4)根据给定的小概率事件界定标准(显著性水平,如)根据给定的小概率事件界定标准(显著性水平,如0.050.05,0.010.01)做出统计推断。)做出统计推断。基本步骤:为什么要设计并计算检验统计量?基本步骤:为什么要设计并计算检验统计量?v在假设检验中,样本值(或更极端的取值)发生的概率在假设检验中,样本值(或更极端的取值)发生的概率不能直接通过样本数据计算,而是通过计算不能直接通过样本数据计算,而是通过计算检验统计量检验统计量观测值观测值的发生概率而间接得到的。的发生概率而间接得到的。v所设计的检验统计量一般服从或近似

27、服从某种已知的理所设计的检验统计量一般服从或近似服从某种已知的理论分布(如论分布(如t-t-分布、分布、F-F-分布、卡方分布),易于估算其分布、卡方分布),易于估算其取值概率。取值概率。v对于不同的假设检验和不同的总体,会有不同的选择检对于不同的假设检验和不同的总体,会有不同的选择检验统计量的理论和方法验统计量的理论和方法。基本步骤:计算检验统计量观测值的发生概率基本步骤:计算检验统计量观测值的发生概率 在假定原假设成立的前提下,利用样本数据计算检验统计量观测值发生的概率(即p值,又称“相伴概率”指该检验统计量在某个特定的极端区域在原假设成立时的概率)。该概率值间接地给出了在原假设成立的条件

28、下样本值(或更极端值)发生的概率。进行统计推断进行统计推断依据预先确定的“显著性水平”(即值),如0.01或0.05,决定是否拒绝原假设。如果p值小于值,即认为原假设成立时检验统计量观测值的发生是小概率事件,则拒绝原假设。否则,就接受原假设。v在假设检验中,在假设检验中,显著性水平(显著性水平(Significant level,用用表示)的确定是假设检验中至关重要的问题。表示)的确定是假设检验中至关重要的问题。v显著性水平是在原假设成立时检验统计量的制落在显著性水平是在原假设成立时检验统计量的制落在某个极端区域的概率值。因此,如果取某个极端区域的概率值。因此,如果取=0.050.05,如果计

29、算出的如果计算出的p值小于值小于 ,则可认为原假设是一个,则可认为原假设是一个不可能发生的小概率事件。当然,如果真的发生了,不可能发生的小概率事件。当然,如果真的发生了,则犯错误的可能性为则犯错误的可能性为5%5%。显然,显著性水平反映了显然,显著性水平反映了拒绝某一原假设时所犯错误的可能性,或者说,拒绝某一原假设时所犯错误的可能性,或者说,是指拒绝了事实上正确的原假设的概率。是指拒绝了事实上正确的原假设的概率。v值一般在进行假设检验前由研究者根据实际的需值一般在进行假设检验前由研究者根据实际的需要确定。要确定。v常用的取值是常用的取值是0.050.05或或0.010.01。对于前者,相当于在

30、。对于前者,相当于在原假设事实上正确的情况下,研究者接受这一假原假设事实上正确的情况下,研究者接受这一假设的可能性为设的可能性为95%95%;对于后者,则研究者接受事;对于后者,则研究者接受事实上正确的原假设的可能性为实上正确的原假设的可能性为99%99%。v显然,降低显然,降低值可以减少拒绝原假设的可能性。因值可以减少拒绝原假设的可能性。因此,在报告统计分析结果时,必须给出此,在报告统计分析结果时,必须给出 值。值。v在进行假设检验时,各种统计软件均会给出在进行假设检验时,各种统计软件均会给出检验统检验统计量观测值计量观测值以及原假设成立时该检验统计量取值的以及原假设成立时该检验统计量取值的

31、相伴概率相伴概率(即(即检验统计量检验统计量某特定取值及更极端可能某特定取值及更极端可能值出现的概率,用值出现的概率,用p p表示)。表示)。vp p值是否小于事先确定的值是否小于事先确定的值,是接受或拒绝原假值,是接受或拒绝原假设的依据。设的依据。v如果如果p p值小于事先已确定的值小于事先已确定的值,就意味着检验统值,就意味着检验统计量取值的可能性很小,进而可推断原假设成立的计量取值的可能性很小,进而可推断原假设成立的可能性很小,因而可以拒绝原假设。相反,如果可能性很小,因而可以拒绝原假设。相反,如果p p值值大于事先已确定的大于事先已确定的值,就不能拒绝原假设。值,就不能拒绝原假设。1

32、1)在计算机技术十分发达,以及专业统计软件功能十分强)在计算机技术十分发达,以及专业统计软件功能十分强大的今天,计算检验统计量及其相伴概率是一件十分容易的大的今天,计算检验统计量及其相伴概率是一件十分容易的事情。事情。2 2)然而,在)然而,在2020世纪世纪9090年代以前,只有服从标准正态分布年代以前,只有服从标准正态分布的检验统计量,人们可以直接查阅事先准备好的的检验统计量,人们可以直接查阅事先准备好的标准正态分标准正态分布函数表布函数表,从中获得特定计算结果的相伴概率。而对于的服,从中获得特定计算结果的相伴概率。而对于的服从从t-t-分布、分布、F-F-分布、卡方分布或其它特殊的理论分

33、布的检分布、卡方分布或其它特殊的理论分布的检验统计量(大多数的假设检验是这样),人们无法直接计算验统计量(大多数的假设检验是这样),人们无法直接计算相伴概率。人们通常查阅各类假设检验的临界值表进行统计相伴概率。人们通常查阅各类假设检验的临界值表进行统计推断。这些表格以自由度和很少的几个相伴概率(通常为推断。这些表格以自由度和很少的几个相伴概率(通常为0.10.1、0.050.05和和0.010.01)为自变量,以检验统计量的临界值为函)为自变量,以检验统计量的临界值为函数排列。数排列。3 3)在进行统计推断时,人们使用上述临界值表)在进行统计推断时,人们使用上述临界值表根据事先确定的显著性水平

34、,查阅对应于某一自根据事先确定的显著性水平,查阅对应于某一自由度和特定相伴概率的检验统计量的临界值,然由度和特定相伴概率的检验统计量的临界值,然后将所计算出的检验统计量与该临界值相比较。后将所计算出的检验统计量与该临界值相比较。如果检验统计量的计算值大于临界值,即实际的如果检验统计量的计算值大于临界值,即实际的相伴概率小于事先规定的显著性水平,便可拒绝相伴概率小于事先规定的显著性水平,便可拒绝原假设。否则,可接受原假设。原假设。否则,可接受原假设。v在根据显著性水平进行统计推断时,应注意原假设的性质。在根据显著性水平进行统计推断时,应注意原假设的性质。v以二元相关分析为例,相关分析中的原假设是

35、以二元相关分析为例,相关分析中的原假设是“相关系数为相关系数为零零”(即(即2 2个随机变量间不存在显著的相关关系)。如果计个随机变量间不存在显著的相关关系)。如果计算出的检验统计量的相伴概率(算出的检验统计量的相伴概率(p值)低于事先给定值)低于事先给定 值值(如(如0.050.05),就可以认为),就可以认为“相关系数为零相关系数为零”的可能性很低,的可能性很低,既既2 2个随机变量之间存在显著的相关关系。个随机变量之间存在显著的相关关系。v在正态分布检验时,原假设是在正态分布检验时,原假设是“样本数据来自服从正态分布样本数据来自服从正态分布的总体的总体”。此时,如果计算出的检验统计量的相

36、伴概率(。此时,如果计算出的检验统计量的相伴概率(p值)低于事先给定值)低于事先给定 值(如值(如0.050.05),则表明数据不服从正态),则表明数据不服从正态分布。只有分布。只有p值高于值高于 值时,数据才服从正态分布。值时,数据才服从正态分布。这与相这与相关分析的假设检验不同。关分析的假设检验不同。v作者在描述相关分析结果时常有的失误是:仅给出相关系数作者在描述相关分析结果时常有的失误是:仅给出相关系数的值,而不给出显著性水平。这就无法判断的值,而不给出显著性水平。这就无法判断2 2个随机变量间个随机变量间的相关性是否显著。的相关性是否显著。v有时作者不是根据显著性水平判断相关关系是否显

37、著,而是有时作者不是根据显著性水平判断相关关系是否显著,而是根据相关系数的大小来推断(相关系数越近根据相关系数的大小来推断(相关系数越近1 1,则相关关系,则相关关系越显著)。问题是,相关系数本身是一个基于样本数据计算越显著)。问题是,相关系数本身是一个基于样本数据计算出的观测值,其本身的可靠性尚需检验。出的观测值,其本身的可靠性尚需检验。v此外,作者在论文中常常用此外,作者在论文中常常用“显著相关显著相关”和和“极显著相关极显著相关”来描述相关分析结果,即认为来描述相关分析结果,即认为p值小于值小于0.050.05就是显著相关就是显著相关关系(或显著相关),小于关系(或显著相关),小于0.0

38、10.01就是极显著相关关系(或就是极显著相关关系(或极显著相关)。极显著相关)。在假设检验中,只有在假设检验中,只有 “显著显著”和和 “不显著不显著”,没有,没有“极显著极显著”这样的断语。只要计算出的检验统计这样的断语。只要计算出的检验统计量的相伴概率(量的相伴概率(p值)低于事先确定的值)低于事先确定的 值,就可值,就可以认为检验结果以认为检验结果“显著显著”(相关分析的原假设是(相关分析的原假设是“相关系数为零相关系数为零”,故此处的,故此处的“显著显著”实际意味实际意味着着“相关系数不为零相关系数不为零”,或说,或说“2 2个随机变量间有个随机变量间有显著的相关关系显著的相关关系”

39、);同样,只要计算出的检验);同样,只要计算出的检验统计量的相伴概率(统计量的相伴概率(p值)高于事先确定的值)高于事先确定的 值,值,就可以认为检验结果就可以认为检验结果“不显著不显著”。在进行相关分析时,不能同时使用在进行相关分析时,不能同时使用0.050.05和和0.010.01这这2 2个显著性水平来决定是否拒绝原假设,只能使用其个显著性水平来决定是否拒绝原假设,只能使用其中的中的1 1个。个。1)显著和不显著:描述相关关系是否存在。2)相关性强或不强:在存在相关关系的前提下,这种相关关系的强或弱。可以认为,相关系数越接近1,则相关性越强。声明:第声明:第1 1)条是公认的数理统计常识

40、,但第)条是公认的数理统计常识,但第2 2)条是个人理)条是个人理解,仅供参考。本文不对第解,仅供参考。本文不对第2 2)条承担责任。)条承担责任。1)假设检验统计推断:单侧检验与双侧检验对于假设检验,其检验统计量的异常取值有2个方向,即概率分布曲线的左侧(对应于过小的值)和右侧(对应于过大的值)。检验统计量在左侧和右侧均有可能取值检验统计量的取值空间v一般情况下,概率分布函数曲线两侧尾端的小概一般情况下,概率分布函数曲线两侧尾端的小概率事件都要考虑(即双侧检验)。如果事先有把率事件都要考虑(即双侧检验)。如果事先有把握确定其中的一侧不可能取值,则仅需对另一侧握确定其中的一侧不可能取值,则仅需

41、对另一侧的小概率事件进行检验即可(单侧检验)。的小概率事件进行检验即可(单侧检验)。v在用在用 “查表法查表法”进行统计推断时,基于单侧小概进行统计推断时,基于单侧小概率事件检验的临界值表称率事件检验的临界值表称“单尾表单尾表”,基于双侧,基于双侧小概率事件检验的临界值表称小概率事件检验的临界值表称“双尾表双尾表”。除除t-t-分布临界值表是双尾表外,大多数的检验临界值分布临界值表是双尾表外,大多数的检验临界值表均为单尾表表均为单尾表。v在显著性水平一定的情况下(例如在显著性水平一定的情况下(例如=0.05=0.05),),对于单尾表,单侧检验时仍使用对于单尾表,单侧检验时仍使用进行统计推断,

42、进行统计推断,双侧检验则用双侧检验则用/2/2进行统计推断;对于双尾表,进行统计推断;对于双尾表,单侧检验时改用单侧检验时改用2 2进行统计推断,双侧检验则用进行统计推断,双侧检验则用 进行统计推断。进行统计推断。v在统计软件(如在统计软件(如SPSS或或SAS统计软件)给出的计统计软件)给出的计算结果中,已标注出所计算的相伴概率是单侧还算结果中,已标注出所计算的相伴概率是单侧还是双侧,对应于上述的单尾表和双尾表。是双侧,对应于上述的单尾表和双尾表。以下是以下是SPSS SPSS 中的单样本中的单样本t t检验输出结果:检验输出结果:vOne-Sample Test(原假设:储户1次平均存取的

43、现金与2000元无显著差异)vTest Value=2000(均值比较的参比值)vt=1.240(检验统计量的观测值)vdf=312(自由度,样本量N=313)vSig.(2-tailed)=0.216(双侧相伴概率p)vMean Difference=473.78(均值的标准误差)v95%Confidence Interval of the Difference(总体均值与原假设值之差的95%的置信区间):-278.131225.69(有95%的把握可认为:储户1次平均存取的金额为1721.873225.69元)上述检验属“均值比较”,是双侧检验(大于或小于2000元都算拒绝原假设),计算的

44、相伴概率也是双侧的。因此,可直接用p与比较。取=0.05,则因p大于,故不能拒绝原假设(不是小概率事件)。统计推断结果:根据313个储户调查数据,每个储户一次平均存取金额大体为2000元。在统计软件中,可通过选择Test of Significance选项来控制所输出的相伴概率是单尾(1 tailed)概率还是双尾(2 tailed)概率。2)正态分布检验v目的:检验样本是否来自正态分布的总体v原假设:样本来自正态分布的总体v分布检验只能使用非参数方法(只有分布形式已知时才能使用参数方法)。v不同的统计软件给出了不同的检验方法。v在SAS中,提供了Shapiro-Wilk(适用于样本量小于50

45、的情形)检验法。此检验无单尾、双尾之分。v在SPSS中提供了卡方检验(Chi-Square Test)和单样本的 Kolmogorov-Smirnov(柯尔莫哥洛夫-斯米尔诺夫,简称K-S)检验。后者比前者精确一些,建议采用。单样本的 Kolmogorov-Smirnov(柯尔莫哥洛夫-斯米尔诺夫,简称K-S)检验属于双侧检验,计算检验统计量(Z)的双尾概率。3)均值比较a)将样本均值与某一特定值相比:t-检验(参数检验)原假设:总体均值与特定值无显著差异前提:样本来自正态分布的总体双侧检验:是否等于。单侧检验:已知不可能大于(或不可能小于),检验是否等于。b)比较2个独立样本均值:t-检验(

46、参数检验)原假设:2个样本所代表的2个总体的均值无显著差异用于对2个来自正态分布总体的样本的大小进行比较,且2个样本相互独立(无相关关系)。改检验有单侧和双侧之分。3)均值比较c)比较2个独立总体大小的非参数检验适用于对2个顺序变量的大小进行比较或对2个不服从正态分布的数值变量的大小进行比较“Mann-Whitney U”检验:适合样本量较大的样本。“Wilcoxon秩和”检验:与“Mann-Whitney U”检验在本质上完全等价。Kolmogorov单侧检验:适用于样本量较小的样本。3)均值比较d)比较多个来自正态分布总体的样本均值的检验方法:单因子方差分析(single-factor a

47、nova)。对于将因子作为固定处理(而不是随机变量)的情形,即模型1单因子方差分析,实际上可以看作比较2个总体均值的t-检验的直接推广。该方法属于参数检验。有关假定:多个样本相互独立、样本均服从正态分布、方差同质性(各个样本的方差大小没有显著差异)等。原假设:各样本的均值间无显著差异,即某影响因子的不同取值(等级)对各样本的大小没有影响。3)均值比较d)比较多个来自非正态分布总体的样本均值的检验方法:Kruskal-Wallis检验:该方法基于顺序变量设计,用于检验3个以上独立样本是否来自大小相同的总体,是应用最广泛的非参数检验方法。推广的中位数检验:用于检验3个以上的独立样本是否来自中位数无

48、显著差异的样本。该方法检验功效低,不推荐采用。原假设:各独立样本所代表的总体的中位数无显著差异。Friedman秩方差分析:用于检验3个以上相关样本是否来自大小相同的总体。2.4 Cd2.4 Cd、PbPb之间的交互作用之间的交互作用如表如表4 4所示,三种花卉植物各部位对重金属所示,三种花卉植物各部位对重金属CdCd、PbPb的积累量与培养溶液中的积累量与培养溶液中所投加的所投加的CdCd、PbPb量之间,可以很恰当地被各量之间,可以很恰当地被各多元回归方程多元回归方程表示出来,表示出来,它们之间呈它们之间呈极显著相关关系极显著相关关系(P0.01P0.05p0.05);v有相关性,显著(有

49、相关性,显著(0.05p0.010.05p0.01);v有相关性,极显著(有相关性,极显著(p0.01p0.200p0.200)、珠江口()、珠江口(p0.091p0.091)和澳门水域()和澳门水域(p0.110p0.110)呈正)呈正态分布(态分布(=0.05=0.05).因此对珠江、珠江口和澳门水域进行因此对珠江、珠江口和澳门水域进行PearsonPearson相相关分析,对东江、西江和南海北部海域进行关分析,对东江、西江和南海北部海域进行KendallKendall相关分析相关分析.从表从表2 2可以看出,除澳门水域外其它研究区域,可以看出,除澳门水域外其它研究区域,BDE209BDE

50、209与与PBDEsPBDEs相关性不相关性不显著(显著(r0.434r0.047p0.047),这是由于这是由于BDE209BDE209与其它与其它PBDEsPBDEs同系同系物分别来自不同的溴代阻燃剂;但澳门水域沉积物中的物分别来自不同的溴代阻燃剂;但澳门水域沉积物中的BDE209BDE209与与PBDEsPBDEs相关性显著(相关性显著(r=0.955r=0.955,p=0p=0)(图)(图5 5),表明澳门水域),表明澳门水域BDE209BDE209和其它其它和其它其它PBDEsPBDEs同系物具有相同的输入途径,正如上述,同系物具有相同的输入途径,正如上述,它们主要都是通过水体中颗粒

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁