数据分析中数理统计方法的正确使用课件.ppt-淘文阁

资源描述

《数据分析中数理统计方法的正确使用课件.ppt》由会员分享，可在线阅读，更多相关《数据分析中数理统计方法的正确使用课件.ppt（110页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、数据分析中数理统计方法的正确使用第1页，此课件共110页哦重要假定v作者所处理的数据属于随机变量的特定样本。作者所处理的数据属于随机变量的特定样本。v作者已经掌握最基本的数理统计学常识，如概率、作者已经掌握最基本的数理统计学常识，如概率、假设检验、均值、方差、标准差、正态分布、相关假设检验、均值、方差、标准差、正态分布、相关分析、回归分析、方差分析分析、回归分析、方差分析。第2页，此课件共110页哦数理统计问题的重要性数理统计问题的重要性v在科学研究中，在科学研究中，经常会涉及到常会涉及到对随机随机变量量大小大小、离散离散及及分布分布特征的特征的描述以及描述以及对2 2个或多个随机个或多个随机

2、变量之量之间的的关系关系描述描述问题。地学、地学、环境科境科学研究也不例外学研究也不例外。v对随机随机变量及随机量及随机变量之量之间的关系的关系进行定量描述的数学工具就是行定量描述的数学工具就是数数理理统计学学。v在科学研究中，能否正确使用各种数理在科学研究中，能否正确使用各种数理统计方法关系到所得出方法关系到所得出结论的客的客观性和可信性。所以，性和可信性。所以，来稿中使用的数理来稿中使用的数理统计方法是否正确方法是否正确应是学是学术期刊期刊编辑和作者极和作者极为重重视的的问题。v目前，国内科技期刊目前，国内科技期刊对稿件中数理稿件中数理统计方法方法问题的重的重视程度存在程度存在差异。差异。

3、第3页，此课件共110页哦1 统计软件的选择统计软件的选择 v统计分析通常涉及大量的数据，需要分析通常涉及大量的数据，需要较大的大的计算算工作量。工作量。v在在进行行统计分析分析时，尽管作者可以自行，尽管作者可以自行编写写计算算程序，但在程序，但在统计软件很普及的今天，件很普及的今天，这样做是毫做是毫无必要的。无必要的。v出于出于对工作效率工作效率以及以及对算法的通用性、可比性算法的通用性、可比性的考的考虑，一些学，一些学术期刊要求作者采用期刊要求作者采用专门的数理的数理统计软件件进行行统计分析。分析。第4页，此课件共110页哦1 统计软件的选择统计软件的选择问题：问题：作者未使用专门的数理统

4、计软件，而作者未使用专门的数理统计软件，而采用采用Excel这样的电子表格软件进行数据统这样的电子表格软件进行数据统计分析。计分析。n由于电子表格软件提供的统计分析功能十由于电子表格软件提供的统计分析功能十分有限，只能借助它进行较为简单的统计分有限，只能借助它进行较为简单的统计分析，故我们不主张作者采用这样的软件分析，故我们不主张作者采用这样的软件进行统计分析。进行统计分析。第5页，此课件共110页哦1 统计软件的选择统计软件的选择v目前，国际上已开发出的专门用于统计分析的商业软目前，国际上已开发出的专门用于统计分析的商业软件很多，比较著名有件很多，比较著名有SPSS(Statistical

5、Package for Social Sciences)和和SAS(Statistical Analysis System)。此此外，还有外，还有BMDP和和STATISTICA等等。vSPSS是专门为社会科学领域的研究者设计的，但此是专门为社会科学领域的研究者设计的，但此软件在自然科学领域也得到广泛应用。软件在自然科学领域也得到广泛应用。vBMDP是专门为生物学和医学领域研究者编制的统是专门为生物学和医学领域研究者编制的统计软件。计软件。第6页，此课件共110页哦1 1 统计软件的选择统计软件的选择v目前，国际学术界有一条不成文的约定：凡目前，国际学术界有一条不成文的约定：凡是用是用SPSS

6、和和SAS软件进行统计分析所获得的软件进行统计分析所获得的结果，在国际学术交流中不必说明具体算法。结果，在国际学术交流中不必说明具体算法。由此可见，由此可见，SPSS和和SAS软件已被各领域研究软件已被各领域研究者普遍认可。者普遍认可。v我们建议作者们在进行统计分析时尽量使用我们建议作者们在进行统计分析时尽量使用这这2个专门的统计软件。目前，有关这个专门的统计软件。目前，有关这2个软个软件的使用教程在书店中可很容易地买到。件的使用教程在书店中可很容易地买到。第7页，此课件共110页哦2.1 2.1 均值的计算均值的计算：理论问题v1）均）均值（准确的称呼（准确的称呼应为“样本均本均值”）的）的

7、统计学学意意义：反映随机：反映随机变量量样本的大小特征。本的大小特征。v2）均）均值对应于随机于随机变量量总体的数学期望体的数学期望总体的数学体的数学期望客期望客观上决定着上决定着样本的均本的均值，反，反过来，通来，通过计算算样本本的均的均值可以描述可以描述总体的数学期望。体的数学期望。第8页，此课件共110页哦2.1 均均值计算：理算：理论问题（续）v3）在）在处理理实验数据或采数据或采样数据数据时，经常会遇到常会遇到对相同采相同采样或相同或相同实验条件下同一随机条件下同一随机变量的多量的多个不同取个不同取值进行行统计处理的理的问题。v4）为找到代表找到代表这些些观测值总体大小特征的代表体大

8、小特征的代表值（统计量，量，该统计量根据量根据样本数据算出），多数作者本数据算出），多数作者会不假思索地直接会不假思索地直接给出算出算术平均平均值和和标准差。准差。显然，然，这种做法是不种做法是不严谨的的不一定不一定总是正确的是正确的第9页，此课件共110页哦2.2 均值计算：技术问题均值计算：技术问题v在数理统计学中，作为描述随机变量样本的在数理统计学中，作为描述随机变量样本的总体大小特征的统计量有算术平均值、几何总体大小特征的统计量有算术平均值、几何平均值和中位数等多个。平均值和中位数等多个。v何时用算术平均值？何时用几何平均值？以何时用算术平均值？何时用几何平均值？以及何时用中位数？及何

9、时用中位数？这不能由研究者根据主观这不能由研究者根据主观意愿随意确定，而要根据随机变量的分布特意愿随意确定，而要根据随机变量的分布特征确定征确定。第10页，此课件共110页哦2.2 均值计算：技术问题（续）均值计算：技术问题（续）v反映随机反映随机变量量总体大小特征的体大小特征的统计量是数学期望，而在随机量是数学期望，而在随机变量的分布服从正量的分布服从正态分布分布时，其数学期望就可以用，其数学期望就可以用样本的算本的算术平平均均值描述。此描述。此时，可用，可用样本的本的算算术平均平均值描述随机描述随机变量的大小特量的大小特征。征。v如果所研究的随机如果所研究的随机变量不服从正量不服从正态分布

10、，分布，则算算术平均平均值不能准确不能准确反映反映该变量的大小特征。在量的大小特征。在这种情况下，可通种情况下，可通过假假设检验来判断来判断随机随机变量是否服从量是否服从对数正数正态分布。如果服从分布。如果服从对数正数正态分布，分布，则几几何平均何平均值就是数学期望的就是数学期望的值。此。此时，就可以，就可以计算算变量的量的几何平均几何平均值。v如果随机如果随机变量既不服从正量既不服从正态分布也不服从分布也不服从对数正数正态分布，分布，则按按现有的数理有的数理统计学知学知识，尚无合适的，尚无合适的统计量描述量描述该变量的大小量的大小特征。此特征。此时，可用，可用中位数中位数来描述来描述变量的大

11、小特征。量的大小特征。第11页，此课件共110页哦3 3 相关分析相关分析：相关系数的选择：相关系数的选择 v在相关分析中，作者们常犯的错误是：简单地计算在相关分析中，作者们常犯的错误是：简单地计算Pearson 积矩积矩相关系数，而且既不给出正态分布检验结果，也往往不明确指出相关系数，而且既不给出正态分布检验结果，也往往不明确指出所计算的相关系数就是所计算的相关系数就是Pearson 积矩相关系数。积矩相关系数。v在数理统计学中，除有针对数值变量设计的在数理统计学中，除有针对数值变量设计的Pearson 积矩相关积矩相关系数（对应于系数（对应于“参数方法参数方法”）外，还有针对顺序变量（即）

12、外，还有针对顺序变量（即“秩秩变量变量”）设计的）设计的Spearman秩相关系数和秩相关系数和Kendall秩相关系数秩相关系数（对应于（对应于“非参数方法非参数方法”）等。）等。vPearson 积矩相关系数可用于描述积矩相关系数可用于描述2个随机变量的线性相关程度，个随机变量的线性相关程度，Spearman或或Kendall秩相关系数用来判断两个随机变量在二维和多维秩相关系数用来判断两个随机变量在二维和多维空间中是否具有某种共变趋势。空间中是否具有某种共变趋势。第12页，此课件共110页哦3 相关分析：相关系数的选择相关分析：相关系数的选择n在相关分析中，计算各种相关系数是有前提条件的。

13、在相关分析中，计算各种相关系数是有前提条件的。n在相关分析中，对于秩变量，一般别无选择，只能在相关分析中，对于秩变量，一般别无选择，只能计算计算Spearman或或Kendall秩相关系数。秩相关系数。n对于数值变量，只要条件许可，应尽量使用对于数值变量，只要条件许可，应尽量使用检验功效检验功效最高最高的参数方法，即计算用的参数方法，即计算用Pearson 积矩相关系数。积矩相关系数。只有计算只有计算Pearson 积矩相关系数的前提不存在时，才考积矩相关系数的前提不存在时，才考虑退而求其次，计算专门为秩变量设计的虑退而求其次，计算专门为秩变量设计的Spearman或或Kendall秩相关系数

14、（秩相关系数（尽管这样做会导致检验功效的尽管这样做会导致检验功效的降低降低）。）。第13页，此课件共110页哦3 相关分析：相关系数的选择相关分析：相关系数的选择v对于数值变量，相关系数选择的依据是变量是否服从正态分布，或变对于数值变量，相关系数选择的依据是变量是否服从正态分布，或变换后的数据是否服从正态分布。换后的数据是否服从正态分布。v对于二元相关分析，如果对于二元相关分析，如果2个随机变量服从二元正态分布假设，个随机变量服从二元正态分布假设，则应该用则应该用Pearson 积矩相关系数描述这积矩相关系数描述这2个随机变量间的相关关个随机变量间的相关关系。系。v如果样本数据不服从二元正态分

15、布，则可尝试进行数据变换，看变换如果样本数据不服从二元正态分布，则可尝试进行数据变换，看变换后的数据是否符合正态分布？如果是，则可以针对变换后的数据计算后的数据是否符合正态分布？如果是，则可以针对变换后的数据计算Pearson 积矩相关系数；否则，就不能计算积矩相关系数；否则，就不能计算Pearson 积矩相关积矩相关系数，而应改用检验功效较低的系数，而应改用检验功效较低的Spearman或或Kendall秩相关秩相关系数（此时，如果强行计算系数（此时，如果强行计算Pearson 积矩相关系数有可能会得积矩相关系数有可能会得出完全错误的结论）。出完全错误的结论）。第14页，此课件共110页哦4

16、相关分析与回归分析的区别相关分析与回归分析的区别 n相关分析和回归分析是极为常用的相关分析和回归分析是极为常用的2种数理统种数理统计方法，在环境科学及其它科学研究领域有计方法，在环境科学及其它科学研究领域有着广泛的用途。然而，由于这着广泛的用途。然而，由于这2种数理统计方种数理统计方法在计算方面存在很多相似之处，且在一些法在计算方面存在很多相似之处，且在一些数理统计教科书中没有系统阐明这数理统计教科书中没有系统阐明这2种数理统种数理统计方法的内在差别，从而使一些研究者不能计方法的内在差别，从而使一些研究者不能严格区分相关分析与回归分析严格区分相关分析与回归分析。第15页，此课件共110页哦4

17、相关分析与回归分析的区别相关分析与回归分析的区别1）最常见的错误是）最常见的错误是:用回归分析的结果解释相用回归分析的结果解释相关性问题。例如，作者将关性问题。例如，作者将“回归直线（曲线）回归直线（曲线）图图”称为称为“相关性图相关性图”或或“相关关系图相关关系图”；将回归直线的将回归直线的R2(拟合度，或称拟合度，或称“可决系数可决系数”)错误地称为错误地称为“相关系数相关系数”或或“相关系数相关系数的平方的平方”；根据回归分析的结果宣称；根据回归分析的结果宣称2个变个变量之间存在正的或负的相关关系。量之间存在正的或负的相关关系。第16页，此课件共110页哦4 相关分析与回归分析的区别相

18、关分析与回归分析的区别2）相关分析与回归分析均为研究）相关分析与回归分析均为研究2个或多个或多个变量间关联性的方法，但个变量间关联性的方法，但2种数理统计种数理统计方法存在本质的差别，即它们用于不同方法存在本质的差别，即它们用于不同的研究目的。的研究目的。3）相关分析的目的在于检验两个随机变量）相关分析的目的在于检验两个随机变量的共变趋势（即共同变化的程度），回的共变趋势（即共同变化的程度），回归分析的目的则在于试图用自变量来预归分析的目的则在于试图用自变量来预测因变量的值。测因变量的值。第17页，此课件共110页哦4 相关分析与回归分析的区别相关分析与回归分析的区别4）在相关分析中，两个变量

19、必须同时都是）在相关分析中，两个变量必须同时都是随机变量，如果其中的一个变量不是随随机变量，如果其中的一个变量不是随机变量，就不能进行相关分析。这是相机变量，就不能进行相关分析。这是相关分析方法本身所决定的。关分析方法本身所决定的。第18页，此课件共110页哦4 相关分析与回归分析的区别相关分析与回归分析的区别5）对于回归分析，其中的因变量肯定为）对于回归分析，其中的因变量肯定为随机变量（这是回归分析方法本身所决随机变量（这是回归分析方法本身所决定的），而自变量则可以是普通变量定的），而自变量则可以是普通变量（有确定的取值）也可以是随机变量。（有确定的取值）也可以是随机变量。第19页，此课件共

20、110页哦4 相关分析与回归分析的区别相关分析与回归分析的区别6 6）如果自变量是普通变量，即模型）如果自变量是普通变量，即模型回归分析，采回归分析，采用的回归方法就是最为常用的最小二乘法。用的回归方法就是最为常用的最小二乘法。7）如果自变量是随机变量，）如果自变量是随机变量，即模型即模型回归分析，回归分析，所采所采用的回归方法与计算者的目的有关。用的回归方法与计算者的目的有关。在以在以预测为目的的情况下，仍采用目的的情况下，仍采用“最小二乘法最小二乘法”（但精（但精度下降度下降最小二乘法是最小二乘法是专为模型模型设计的，未考的，未考虑自自变量的量的随机随机误差）；差）；在以估在以估值为目的

21、（如目的（如计算可决系数、回算可决系数、回归系数等）的情况下，系数等）的情况下，应使用相使用相对严谨的方法（如的方法（如“主主轴法法”、“约化主化主轴法法”或或“BartlettBartlett法法”）。）。第20页，此课件共110页哦4 相关分析与回归分析的区别相关分析与回归分析的区别8）显然，对于回归分析，如果是模型）显然，对于回归分析，如果是模型回归分析，鉴于两个随机变量回归分析，鉴于两个随机变量客观上存在客观上存在“相关性相关性”问题，只是由于回归分析方法本身不能问题，只是由于回归分析方法本身不能提供针对自变量和因变量之间相关关系的准确的检验手段，因提供针对自变量和因变量之间相关关系的

22、准确的检验手段，因此，若以预测为目的，最好不提此，若以预测为目的，最好不提“相关性相关性”问题；问题；若以探索两若以探索两者的者的“共变趋势共变趋势”为目的为目的，应该改用相关分析。，应该改用相关分析。9）如果是模型）如果是模型回归分析，就根本不可能回答变量的回归分析，就根本不可能回答变量的“相关性相关性”问问题，题，因为普通变量与随机变量之间不存在因为普通变量与随机变量之间不存在“相关性相关性”这一概念这一概念（问题在于，大多数的回归分析都是模型（问题在于，大多数的回归分析都是模型回归分析！）。此时，回归分析！）。此时，即使作者想描述即使作者想描述2个变量间的个变量间的“共变趋势共变趋势”而

23、改用相关分析，也会而改用相关分析，也会因相关分析的前提不存在而使分析结果毫无意义。因相关分析的前提不存在而使分析结果毫无意义。第21页，此课件共110页哦4 相关分析与回归分析的区别相关分析与回归分析的区别10）需要特别指出的是，回归分析中的）需要特别指出的是，回归分析中的R2在数学上恰好是在数学上恰好是Pearson积矩积矩相关系数相关系数r的平方。因此，这极易使作者们错误地理解的平方。因此，这极易使作者们错误地理解R2的含义，认的含义，认为为R2就是就是“相关系数相关系数”或或“相关系数的平方相关系数的平方”。问题在于，对于。问题在于，对于自变量是普通变量（即其取值有确定性的变量）、因变量

24、为随自变量是普通变量（即其取值有确定性的变量）、因变量为随机变量的模型机变量的模型回归分析，回归分析，2个变量之间的个变量之间的“相关性相关性”概念根本概念根本不存在，又何谈不存在，又何谈“相关系数相关系数”呢？呢？11）更值得注意的是，一些早期的教科书作者不是用）更值得注意的是，一些早期的教科书作者不是用R2来描述回归效来描述回归效果（拟合程度，拟合度）的，而是用果（拟合程度，拟合度）的，而是用Pearson积矩相关系数来积矩相关系数来描述。这就更容易误导读者。描述。这就更容易误导读者。第22页，此课件共110页哦5 重要的数理统计学常识5.1 假设检验基本思想基本思想v统计推断统计推断：是

25、根据样本数据推断总体特征的一种：是根据样本数据推断总体特征的一种方法。方法。v假设检验：假设检验：是进行是进行统计推断统计推断的途径之一（另一种的途径之一（另一种途径是参数估计，如点估计和区间估计）。途径是参数估计，如点估计和区间估计）。v假设检验中的关键问题假设检验中的关键问题：1）在原假设成立的情）在原假设成立的情况下，如何计算样本值或某一极端值发生的概率况下，如何计算样本值或某一极端值发生的概率？2）如何界定小概率事件？）如何界定小概率事件？第23页，此课件共110页哦5.1 假设检验基本思路基本思路首先，对总体参数值提出假设（原假设）；然后，首先，对总体参数值提出假设（原假设）；然后，

26、利用样本数据提供的信息来验证所提出的假设是利用样本数据提供的信息来验证所提出的假设是否成立（统计推断）否成立（统计推断）如果样本数据提供的信如果样本数据提供的信息不能证明上述假设成立，则应拒绝该假设；如息不能证明上述假设成立，则应拒绝该假设；如果样本数据提供的信息不能证明上述假设不成立，果样本数据提供的信息不能证明上述假设不成立，则不应拒绝该假设。则不应拒绝该假设。接受或拒绝原假设的依据接受或拒绝原假设的依据小概率事件不可能发生。显然，这样做是有风险小概率事件不可能发生。显然，这样做是有风险的（小概率事件真的发生了）。的（小概率事件真的发生了）。第24页，此课件共110页哦5.1 假设检验基

27、本步骤n1）提出原假设（或称）提出原假设（或称“零假设零假设”，H0）；）；n2）选择检验统计量；）选择检验统计量；n3）根据样本数据计算检验统计量观测值的发）根据样本数据计算检验统计量观测值的发生概率（相伴概率，生概率（相伴概率，p）；）；n4）根据给定的小概率事件界定标准（显著性）根据给定的小概率事件界定标准（显著性水平，如水平，如0.05，0.01）做出统计推断。）做出统计推断。第25页，此课件共110页哦5.1 假设检验基本步骤：为什么要设计并计算检验统计量？基本步骤：为什么要设计并计算检验统计量？v在假设检验中，样本值（或更极端的取值）发生的概率不能直接在假设检验中，样本值（或更极

28、端的取值）发生的概率不能直接通过样本数据计算，而是通过计算通过样本数据计算，而是通过计算检验统计量观测值检验统计量观测值的发生概的发生概率而间接得到的。率而间接得到的。v所设计的检验统计量一般服从或近似服从某种已知的理论所设计的检验统计量一般服从或近似服从某种已知的理论分布（如分布（如t-分布、分布、F-分布、卡方分布），易于估算其取值概率。分布、卡方分布），易于估算其取值概率。v对于不同的假设检验和不同的总体，会有不同的选择检验统计对于不同的假设检验和不同的总体，会有不同的选择检验统计量的理论和方法量的理论和方法。第26页，此课件共110页哦5.1 假设检验基本步骤：计算检验统计量观测值的发

29、生概率基本步骤：计算检验统计量观测值的发生概率在假定原假设成立的前提下，利用样本数据计算检验统计量观测值发生的概率（即p值，又称“相伴概率”指该检验统计量在某个特定的极端区域在原假设成立时的概率）。该概率值间接地给出了在原假设成立的条件下样本值（或更极端值）发生的概率。第27页，此课件共110页哦5.1 假设检验n进行统计推断进行统计推断n依据预先确定的“显著性水平”（即值），如0.01或0.05，决定是否拒绝原假设。n如果p值小于值，即认为原假设成立时检验统计量观测值的发生是小概率事件，则拒绝原假设。否则，就接受原假设。第28页，此课件共110页哦5.2 显著性水平：概念与意义显著性水平：

30、概念与意义v在假设检验中，在假设检验中，显著性水平（显著性水平（Significant level，用用表表示）的确定是假设检验中至关重要的问题。示）的确定是假设检验中至关重要的问题。v显著性水平是在原假设成立时检验统计量的制落在某个极显著性水平是在原假设成立时检验统计量的制落在某个极端区域的概率值。因此，如果取端区域的概率值。因此，如果取=0.05，如果计算出的，如果计算出的p值小于值小于，则可认为原假设是一个不可能发生的小概率，则可认为原假设是一个不可能发生的小概率事件。当然，如果真的发生了，则犯错误的可能性为事件。当然，如果真的发生了，则犯错误的可能性为5%。显然，显著性水平反映了拒绝某

31、一原假设时所犯错显然，显著性水平反映了拒绝某一原假设时所犯错误的可能性，或者说，误的可能性，或者说，是指拒绝了事实上正确的原是指拒绝了事实上正确的原假设的概率。假设的概率。第29页，此课件共110页哦5.2 显著性水平：通常的取值显著性水平：通常的取值v值一般在进行假设检验前由研究者根据实际的需要确值一般在进行假设检验前由研究者根据实际的需要确定。定。v常用的取值是常用的取值是0.05或或0.01。对于前者，相当于在原。对于前者，相当于在原假设事实上正确的情况下，研究者接受这一假设的假设事实上正确的情况下，研究者接受这一假设的可能性为可能性为95%；对于后者，则研究者接受事实上正；对于后者，则

32、研究者接受事实上正确的原假设的可能性为确的原假设的可能性为99%。v显然，降低显然，降低值可以减少拒绝原假设的可能性。因此，值可以减少拒绝原假设的可能性。因此，在报告统计分析结果时，必须给出在报告统计分析结果时，必须给出值。值。第30页，此课件共110页哦5.2 显著性水平：进行统计推断显著性水平：进行统计推断v在进行假设检验时，各种统计软件均会给出在进行假设检验时，各种统计软件均会给出检验统计量检验统计量观测值观测值以及原假设成立时该检验统计量取值的以及原假设成立时该检验统计量取值的相伴概率相伴概率（即（即检验统计量检验统计量某特定取值及更极端可能值出现的概率，某特定取值及更极端可能值出现的

33、概率，用用p表示）。表示）。vp值是否小于事先确定的值是否小于事先确定的值，是接受或拒绝原假设的值，是接受或拒绝原假设的依据。依据。v如果如果p值小于事先已确定的值小于事先已确定的值，就意味着检验统计量值，就意味着检验统计量取值的可能性很小，进而可推断原假设成立的可能性很取值的可能性很小，进而可推断原假设成立的可能性很小，因而可以拒绝原假设。相反，如果小，因而可以拒绝原假设。相反，如果p值大于事先已确值大于事先已确定的定的值，就不能拒绝原假设。值，就不能拒绝原假设。第31页，此课件共110页哦5.3 统计推断：过去的回忆统计推断：过去的回忆n1）在计算机技术十分发达，以及专业统计软件功能十分强

34、大的今天，）在计算机技术十分发达，以及专业统计软件功能十分强大的今天，计算检验统计量及其相伴概率是一件十分容易的事情。计算检验统计量及其相伴概率是一件十分容易的事情。n2）然而，在）然而，在20世纪世纪90年代以前，只有服从标准正态分布的检验统年代以前，只有服从标准正态分布的检验统计量，人们可以直接查阅事先准备好的计量，人们可以直接查阅事先准备好的标准正态分布函数表标准正态分布函数表，从中，从中获得特定计算结果的相伴概率。而对于的服从获得特定计算结果的相伴概率。而对于的服从t-分布、分布、F-分布、卡分布、卡方分布或其它特殊的理论分布的检验统计量（大多数的假设检方分布或其它特殊的理论分布的检验

35、统计量（大多数的假设检验是这样），人们无法直接计算相伴概率。人们通常查阅各类验是这样），人们无法直接计算相伴概率。人们通常查阅各类假设检验的临界值表进行统计推断。这些表格以自由度和很少假设检验的临界值表进行统计推断。这些表格以自由度和很少的几个相伴概率（通常为的几个相伴概率（通常为0.1、0.05和和0.01）为自变量，以检验）为自变量，以检验统计量的临界值为函数排列。统计量的临界值为函数排列。第32页，此课件共110页哦5.3 统计推断：过去的回忆n3）在进行统计推断时，人们使用上述临界值表）在进行统计推断时，人们使用上述临界值表根据事先确定的显著性水平，查阅对应于某一自根据事先确定的显著性

36、水平，查阅对应于某一自由度和特定相伴概率的检验统计量的临界值，然由度和特定相伴概率的检验统计量的临界值，然后将所计算出的检验统计量与该临界值相比较。后将所计算出的检验统计量与该临界值相比较。如果检验统计量的计算值大于临界值，即实际的如果检验统计量的计算值大于临界值，即实际的相伴概率小于事先规定的显著性水平，便可拒绝相伴概率小于事先规定的显著性水平，便可拒绝原假设。否则，可接受原假设。原假设。否则，可接受原假设。第33页，此课件共110页哦5.4 显著性水平：举例显著性水平：举例v在根据显著性水平进行统计推断时，应注意原假设的性质。在根据显著性水平进行统计推断时，应注意原假设的性质。v以二元相关

37、分析为例，相关分析中的原假设是以二元相关分析为例，相关分析中的原假设是“相关系数为零相关系数为零”（即（即2个随机变量间不存在显著的相关关系）。如果计算出的检验统个随机变量间不存在显著的相关关系）。如果计算出的检验统计量的相伴概率（计量的相伴概率（p值）低于事先给定值）低于事先给定值（如值（如0.05），就可以认），就可以认为为“相关系数为零相关系数为零”的可能性很低，的可能性很低，既既2个随机变量之间存在个随机变量之间存在显著的相关关系。显著的相关关系。v在正态分布检验时，原假设是在正态分布检验时，原假设是“样本数据来自服从正态分布的总体样本数据来自服从正态分布的总体”。此时，如果计算出的检

38、验统计量的相伴概率（。此时，如果计算出的检验统计量的相伴概率（p值）低于值）低于事先给定事先给定值（如值（如0.05），则表明数据不服从正态分布。只有），则表明数据不服从正态分布。只有p值高值高于于值时，数据才服从正态分布。值时，数据才服从正态分布。这与相关分析的假设检验不同。这与相关分析的假设检验不同。第34页，此课件共110页哦5.4 显著性水平：举例显著性水平：举例v作者在描述相关分析结果时常有的失误是：仅给出相关系数的值，作者在描述相关分析结果时常有的失误是：仅给出相关系数的值，而不给出显著性水平。这就无法判断而不给出显著性水平。这就无法判断2个随机变量间的相关性是否个随机变量间的相关

39、性是否显著。显著。v有时作者不是根据显著性水平判断相关关系是否显著，而是根据有时作者不是根据显著性水平判断相关关系是否显著，而是根据相关系数的大小来推断（相关系数越近相关系数的大小来推断（相关系数越近1，则相关关系越显著）。，则相关关系越显著）。问题是，相关系数本身是一个基于样本数据计算出的观测值，其问题是，相关系数本身是一个基于样本数据计算出的观测值，其本身的可靠性尚需检验。本身的可靠性尚需检验。v此外，作者在论文中常常用此外，作者在论文中常常用“显著相关显著相关”和和“极显著相关极显著相关”来描来描述相关分析结果，即认为述相关分析结果，即认为p值小于值小于0.05就是显著相关关系（或显著相

40、关）就是显著相关关系（或显著相关），小于，小于0.01就是极显著相关关系（或极显著相关）。就是极显著相关关系（或极显著相关）。第35页，此课件共110页哦5.5 统计推断的注意事统计推断的注意事项项在假设检验中，只有在假设检验中，只有“显著显著”和和“不显著不显著”，没有，没有“极显极显著著”这样的断语。只要计算出的检验统计量的相伴概率这样的断语。只要计算出的检验统计量的相伴概率（p值）低于事先确定的值）低于事先确定的值，就可以认为检验结果值，就可以认为检验结果“显显著著”（相关分析的原假设是（相关分析的原假设是“相关系数为零相关系数为零”，故此处，故此处的的“显著显著”实际意味着实际意味着“

41、相关系数不为零相关系数不为零”，或说，或说“2个随机变量间有显著的相关关系个随机变量间有显著的相关关系”）；同样，只要计）；同样，只要计算出的检验统计量的相伴概率（算出的检验统计量的相伴概率（p值）高于事先确定值）高于事先确定的的值，就可以认为检验结果值，就可以认为检验结果“不显著不显著”。第36页，此课件共110页哦5.5 统计推断的注意事项统计推断的注意事项n在进行相关分析时，不能同时使用在进行相关分析时，不能同时使用0.05和和0.01这这2个显著性水平来决定是否拒绝个显著性水平来决定是否拒绝原假设，只能使用其中的原假设，只能使用其中的1个。个。第37页，此课件共110页哦有关相关分析的

42、断语有关相关分析的断语n1）显著和不显著：描述相关关系是否存在。n2）相关性强或不强：在存在相关关系的前提下，这种相关关系的强或弱。可以认为，相关系数越接近1，则相关性越强。n声明：第声明：第1）条是公认的数理统计常识，但第）条是公认的数理统计常识，但第2）条是个人理解，仅）条是个人理解，仅供参考。本文不对第供参考。本文不对第2）条承担责任。）条承担责任。第38页，此课件共110页哦6重要的数理统计学常识1）假设检验统计推断：单侧检验与双侧检验对于假设检验，其检验统计量的异常取值有2个方向，即概率分布曲线的左侧（对应于过小的值）和右侧（对应于过大的值）。第39页，此课件共110页哦检验统计量的

43、极端取值检验统计量在左侧和右侧均有可能取值检验统计量的取值空间第40页，此课件共110页哦单侧检验与双侧检验v一般情况下，概率分布函数曲一般情况下，概率分布函数曲线两两侧尾端的小概率事件尾端的小概率事件都要考都要考虑（即双（即双侧检验）。如果事先有把握确定其中的）。如果事先有把握确定其中的一一侧不可能取不可能取值，则仅需需对另一另一侧的小概率事件的小概率事件进行行检验即可（即可（单侧检验）。）。v在用在用 “查表法表法”进行行统计推断推断时，基于，基于单侧小概率事小概率事件件检验的的临界界值表称表称“单尾表尾表”，基于双，基于双侧小概率事件小概率事件检验的的临界界值表称表称“双尾表双尾表”。除

44、除t-t-分布分布临界界值表是双表是双尾表外，大多数的尾表外，大多数的检验临界界值表均表均为单尾表尾表。第41页，此课件共110页哦单侧检验与双测检验v在在显著性水平一定的情况下（例如著性水平一定的情况下（例如=0.05=0.05），），对于于单尾表，尾表，单侧检验时仍使用仍使用进行行统计推断，双推断，双侧检验则用用/2/2进行行统计推断；推断；对于双尾表，于双尾表，单侧检验时改用改用2 2进行行统计推断，双推断，双侧检验则用用进行行统计推断。推断。v在在统计软件（如件（如SPSS或或SAS统计软件）件）给出的出的计算算结果中，已果中，已标注出所注出所计算的相伴概率是算的相伴概率是单侧还是双

45、是双侧，对应于上述的于上述的单尾表和双尾表。尾表和双尾表。第42页，此课件共110页哦单侧检验与双侧检验以下是以下是SPSS 中的单样本中的单样本t检验输出结果：检验输出结果：vOne-Sample Test（原假设：储户1次平均存取的现金与2000元无显著差异）vTest Value=2000（均值比较的参比值）vt=1.240(检验统计量的观测值)vdf=312(自由度，样本量N=313)vSig.(2-tailed)=0.216（双侧相伴概率p）vMean Difference=473.78（均值的标准误差）v95%Confidence Interval of the Differenc

46、e（总体均值与原假设值之差的95%的置信区间）:-278.131225.69（有95%的把握可认为：储户1次平均存取的金额为1721.873225.69元）第43页，此课件共110页哦单侧检验与双侧检验上述检验属“均值比较”，是双侧检验（大于或小于2000元都算拒绝原假设），计算的相伴概率也是双侧的。因此，可直接用p与比较。取=0.05,则因p大于，故不能拒绝原假设（不是小概率事件）。统计推断结果：根据313个储户调查数据，每个储户一次平均存取金额大体为2000元。第44页，此课件共110页哦单侧检验与双侧检验在统计软件中，可通过选择Test of Significance选项来控制所输出的相

47、伴概率是单尾（1 tailed）概率还是双尾（2 tailed）概率。第45页，此课件共110页哦6重要的数理统计学常识2）正态分布检验v目的：检验样本是否来自正态分布的总体v原假设：样本来自正态分布的总体v分布检验只能使用非参数方法（只有分布形式已知时才能使用参数方法）。v不同的统计软件给出了不同的检验方法。第46页，此课件共110页哦正态分布检验v在SAS中，提供了Shapiro-Wilk(适用于样本量小于50的情形)检验法。此检验无单尾、双尾之分。v在SPSS中提供了卡方检验（Chi-Square Test）和单样本的 Kolmogorov-Smirnov(柯尔莫哥洛夫-斯米尔诺夫，简称

48、K-S)检验。后者比前者精确一些，建议采用。第47页，此课件共110页哦正态分布检验单样本的 Kolmogorov-Smirnov(柯尔莫哥洛夫-斯米尔诺夫，简称K-S)检验属于双侧检验，计算检验统计量（Z）的双尾概率。第48页，此课件共110页哦6 重要的数理统计学常识3)均值比较a)将样本均值与某一特定值相比：t-检验（参数检验）n原假设：总体均值与特定值无显著差异n前提：样本来自正态分布的总体n双侧检验：是否等于。n单侧检验：已知不可能大于（或不可能小于），检验是否等于。b)比较2个独立样本均值：t-检验（参数检验）原假设：2个样本所代表的2个总体的均值无显著差异用于对2个来自正态分布总

49、体的样本的大小进行比较，且2个样本相互独立（无相关关系）。改检验有单侧和双侧之分。第49页，此课件共110页哦5 重要的数理统计学常识3)均值比较c)比较2个独立总体大小的非参数检验适用于对2个顺序变量的大小进行比较或对2个不服从正态分布的数值变量的大小进行比较“Mann-Whitney U”检验:适合样本量较大的样本。“Wilcoxon秩和”检验：与“Mann-Whitney U”检验在本质上完全等价。Kolmogorov单侧检验：适用于样本量较小的样本。第50页，此课件共110页哦5 重要的数理统计学常识3)均值比较d)比较多个来自正态分布总体的样本均值的检验方法：单因子方差分析（sing

50、le-factor anova）。对于将因子作为固定处理（而不是随机变量）的情形，即模型1单因子方差分析，实际上可以看作比较2个总体均值的t-检验的直接推广。该方法属于参数检验。有关假定：多个样本相互独立、样本均服从正态分布、方差同质性（各个样本的方差大小没有显著差异）等。原假设：各样本的均值间无显著差异，即某影响因子的不同取值（等级）对各样本的大小没有影响。第51页，此课件共110页哦5 重要的数理统计学常识3)均值比较d)比较多个来自非正态分布总体的样本均值的检验方法：Kruskal-Wallis检验：该方法基于顺序变量设计，用于检验3个以上独立样本是否来自大小相同的总体，是应用最广泛的非

展开阅读全文