2022年统计学基本概念终版 .pdf-淘文阁

资源描述

《2022年统计学基本概念终版 .pdf》由会员分享，可在线阅读，更多相关《2022年统计学基本概念终版 .pdf（18页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、2015 年统计学基本概念一、聚类分析1.概念：聚类分析的职能是建立一种分类方法，它是将一批样品或变量，按照它们在性质上的亲疏程度进行分类。或者说，聚类分析就是要找出具有相近程度的点或类聚为一类；距离的种类很多，其中欧式距离在聚类分析中用得最广，它的表达式如下：2.步骤：应用系统聚类法进行聚类分析的步骤如下：确定待分类的样品的指标；收集数据；对数据进行变换处理（如标准化或规格化）；使各个样品自成一类，即n 个样品一共有n 类；计算各类之间的距离，得到一个距离对称矩阵，将距离最近的两个类并成一类；并类后，如果类的个数大于1，那么重新计算各类之间的距离，继续并类，直至所有样品归为一类为止；最后绘制

2、系统聚类谱系图，按不同的分类标准或不同的分类原则，得出不同的分类结果。3.聚类分析的种类二、 ARIMA 模型(一)ARMA 模型三种基本形式：自回归模型（AR： Auto-regressive），移动平均模型（MA：Moving-Average）和混合模型（ARMA：Auto-regressiveMoving-Average ）。ARMA 模型全称为自回归移动平均模型(AutoregressiveMovingAverageModel, 简记 ARIMA)，是由博克思 (Box)和詹金斯 (Jenkins)于 70 年代初提出的一著名时间序列预测方法，所以又称为box-jenkins 模型

3、、博克思 -詹金斯法。其中 ARIMA （p，d，q）称为差分自回归移动平均模型，AR是自回归 ,p 为自回归项 ;MA 为移动平均， q 为移动平均项数，d 为时间序列成为平稳时所做的差分次数。ARIMA 模型的基本思想ARIMA 模型的基本思想是：将预测对象随时间推移而形成的数据序列视为一个随机序列，用一定的数学模型来近似描述这个序列。这个模型一旦被识别后就可以从时间序列的过去值及现在值来预测未来值。现代统计方法、计量经济模型在某种程度上已经能够帮助企业对未来进行预测。ARIMA 模型预测的基本程序（1）根据时间序列的散点图、自相关函数和偏自相关函数图以ADF单位根检验其方差、趋势及其

4、季节性变化规律，对序列的平稳性进行识别。一般来讲，经济运行的时间序列都不是平稳序列。（2）对非平稳序列进行平稳化处理。如果数据序列是非平稳的，并存在一定的增长或下降趋势，则需要对数据进行差分处理，如果数据存在异方差，则需对数据进行技术处理，直到处理后的数据的自相关函数值和偏相关函数值无显著地异于零。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页，共 18 页 - - - - - - - - - （3）根据时间序列模型的识别规则，建立相应的模型。若平稳序列的偏相关函数是

5、截尾的，而自相关函数是拖尾的，可断定序列适合AR模型；若平稳序列的偏相关函数是拖尾的，而自相关函数是截尾的，则可断定序列适合MA 模型；若平稳序列的偏相关函数和自相关函数均是拖尾的，则序列适合ARMA 模型。（4）进行参数估计，检验是否具有统计意义。（5）进行假设检验，诊断残差序列是否为白噪声。（6）利用已通过检验的模型进行预测分析。白噪声（ Whitenoise ）：白噪声一个平稳的随机过程满足下列条件的随机过程称为白噪声，记为：注：所谓时间序列的平稳性，是指时间序列的统计规律不会随着时间的推移而发生变化。直观上，一个平稳的时间序列可以看作一条围绕其均值上下波动的曲线。根据平稳时间序列分析

6、的理论可知，当时，该序列Yt是平稳的 ,此模型是经典的Box-Jenkins 时间序列AR(1)模型。因此，检验序列的非平稳性就变为检验特征方程是否有单位根，这就是单位根检验方法的由来。时间序列的非平稳性：是指时间序列的统计规律随着时间的位移而发生变化，即生成变量时间序列数据的随机过程的特征随时间而变化。DF 检验：统计学家Dickey、Fuller 得到 DF检验的临界值，并编制了DF 检验临界值表供查。在进行 DF 检验时，比较 t 统计量值与DF 检验临界值，就可在某个显著性水平上拒绝或接受原假设。ADF 检验： AugmentedDickey-Fuller 检验（ ADF检验）：

7、DF 检验存在的问题是，在检验所设定的模型时，假设随机扰动项不存在自相关。但大多数的经济数据序列是不能满足此项假设的，当随机扰动项存在自相关时，直接使用DF 检验法会出现偏误，为了保证单位根检验的有效性，人们对DF 检验进行拓展，从而形成了扩展的DF 检验 (AugmentedDickey-FullerTest)，简称为 ADF检验。DF和 ADF检验的步聚：计算在原假设成立的条件下t 统计量值，查DF 检验临界值表得临界值，然后将t 统计量值与 DF检验临界值比较：若 t 统计量值小于DF检验临界值，则拒绝原假设，说明序列不存在单位根；说明是平稳序列。若 t 统计量值大于或等于DF 检验临界

8、值，则接受原假设，说明序列存在单位根；有单位根说明非平稳。（二）平稳性检验方法1.单位根方法2.自相关函数法3.DF检验方法4.如果该特征方程的所有根在单位圆外（根的模大于1），则 AR(p)模型是平稳的。特征根 z=1/j，当|j|”或“ ” 。例如对合格产品按其性能和好坏，分成优等品、一等品、合格品等等。定距数据表现为数值，可进行加、减运算，是由定距尺度计量形成的。它不仅能将事物区分为不同类型并进行排序，而且可以准确地指出类别之间的差距是多少。例如，学生某门课程的考分，可以从高到低分类排序，形成90 分、80 分、70 分，直到零分的序列。它们不仅有明确的高低之分，而且可以计算差距

9、，90 分比 80 分高 10 分，比 70 分高 20 分等等。定距尺度的计量结果表现为数值，可以进行加或减的运算，但却不能进行乘或除的运算，定比数据表现为数值，可进行加、减、乘、除运算，是由定比尺度计量形成的。前两类数据说明的是事物的品质特征，不能用数据表示，其结果均表现为类别，也称为定性数据或品质数据（Oualitativedata ）；后两类数据说明的是现象的数量特征，能够用数值来表现，因此也称为定量数据或数量数据（Quantitativedata ）。由于定距尺度和定比尺度属于同一测度层次，所以可以把后两种数据看作是同一类数据，统称为定量数据或数值型数据。区分测量的层次和数据的类

10、型是十分重要的，因为对不同类型的数据将采用不同的统计方法来处理和分析。比如，对定类数据，通常计算出各组的频数或频率，计算其众数和异众比率，进行列联表分析和x2 检验等；对定序数据，可以计算其中位数和四分位差，计算等级相关系数等非参数分析；对定距或定比数据还可以用更多的统计方法进行处理，如计算各种统计量、进行参数估计和检验等。我们所处理的大多为数量数据。这里需要特别指出的是，适用于低层次测量数据的统计方法，也适用于较高层次的测量数据，因为后者具有前者的数学特性。比如：在描述数据的集中趋势时，对定类数据通常是计算众数，对定序数据通常是计算中位数，但对定距和定比数据同样也可以计算众数和中位数。

11、反之，适用于高层次测量数据的统计方法，则不能用于较低层次的测量数据，因为低层次数据不具有高层次测量数据的数学特性。比如，对于定距和定比数据可以计算平均数，但对于定类数据和定序数据则不能计算平均数。理解这一点，对于选择统计分析方法是十分有用的。六、数据的分布特征与测度名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页，共 18 页 - - - - - - - - - （一）集中度测度：是指一组数据向某一中心值靠拢的倾向。1.定类数据的测度指标：众数（mode）：是指一组数据中出

12、现次数最多的变量值。用MO 表示。2.定序数据的测度指标：中位数（median）：处于中间位置上的变量值，用ME 表示。3.定距数据和定比数据的测度指标：均值（mean）：它在统计学具有重要地位，是集中度测度值的最重要指标。（1）当三者相等时，表示数据分布是对称分布的；（2）当均值 MEMEMO 表示左偏或正偏分布。在实际利用统计软件中，常常看偏态值（Skewness ）来判断数据的偏态方向。其计算公式是：当偏态值 =0时，表示对称分布；当偏态值 0表示正偏；当偏态值 3，表示尖峰分布，当峰度（ Kurtosis）大于临界值，则拒绝原假设，接受备择假设。当计算出来的统计量显著性水平时，则

13、接受原假设，拒绝备择假设PCompareMeans=One-WayANOVA. ，打开One-WayANOVA主对话框，然后设置因变量和因素。（三）单因素分析中的多重分析若想进一步了解哪些两个总体均数不等，需进行多个样本均数间的两两比较或称多重比较（multiplecomparison ）。基本思想：例子：如果分析颜色对饮料销售量有无影响，则属于单因素分析。如果进一步分析颜色中哪一个颜色（黄色、红色、粉色等）对销售量的影响最大，则需要进行多重比较分析。最常用的方法就是最显著性差异法（LSD ）。假设检验也常用T检验。（四）双因素方差分析基本思想：对两个因素对因变量的影响程度进行分析，称为

14、双因素分析。实际上这些计算用SPSS 是十分容易解决的。因此读者完全没有必要去记表中繁琐的公式，只需掌握其主要思想并学会应用SPSS 就可以了。步骤：第一步：建立假设第二步：计算样本均值和总样本值第三步：计算离差平方和第四步：计算均方值第五步：计算F统计量第六步：编制双因素方差分析表第七步：做出统计决策在 SPSS 中的实现方法选择 Analyze=GeneralLinearModel=Univariate.，打开Univariate 主对话框。从主对话框左侧的变量列表中设定因变量，单击按钮使之进入DependentList 框，再选定变量自因变量，单击按钮使之进入FixedFactor(

15、s)框。资料“在GLM（Generallinealmodel) ，用Univariate 你可以做多因素方差分析，Mutivariate可以做多应变量方差分析，RepeatedMeasure.可以做重复测量方差分析，等等十二、统计学中的常用概念1.均值（算术平均数Arithmeticmean ），在计算公式中一般用表示。均值在统计学中具有重要的地位，它是进行统计分析和统计推断的基础，首先从统计思想上看，它是一组数据的重心所在，其次均值具有一些重要数学性质。（1）各变量值与其均值的离差这和等于0 即(2)各变量值与其均值的离差平方和(即方差 )最小，即2.几何平均数 (Geometricme

16、an ）名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页，共 18 页 - - - - - - - - - 3.方差和标准差：方差就是各变量值与其均值的离差平方和，它是测度离散程度的主要方法，方差越大说明数据波动程度越大或离散程度越高，方差越小说明数据集中度越高。方差分为总体方差和样本方差，标准差也分为总体标准差和样本标准差。总体方差（在方差分析中称为TSS ）和标准差样本方差和标准差：3.协方差和相关系数令 X和 Y为两个随机变量，其均值是和，于是协方差的定义为Cov（X，

17、Y）=E（ XY ）- 当 x 和 y 独立时，则Cov（ X，Y）=E（x）E（y）-=0 可见，协方差作为描述X和 Y相关程度的量，在同一物理量纲之下有一定的作用，但同样的两个量采用不同的量纲使它们的协方差在数值上表现出很大的差异。所以又引入的相关系数的概念。其计算公式是：所以， cov(x,y)=R* 4.数学期望：又称期望或均值，是平均数的一种推广。是随机变量按概率的加权平均，表征其概率分布的中心位置，即用以测量数据的平均水平或集中程度。(1)离散随机变量X的期望值E(X) (2)连续随机变量X的期望值E(X) 5残差：表示实际观察值与估计值之差。6总离差平方和（TSS ）：7残

18、差平方和（RSS ）：ESS反映样本观测值与估计值偏离的大小，8解释平方和（ESS ）（ExplainedSumofSquares），反映由模型中解释变量所解释的那部分离差的大小；9.众数（ MODE）：众数是一组数据中出现次数最多的变量值。主要用于分类数据，也可用于顺序数据和数值型数据。10.中位数（ Median)：中位数是一组数据按一定顺序排列后，处于中间位置上的变量值。11.平均差（Md）:是各单位实际值对其算术平均数的离差绝对值的算术平均数，反映的是各标志值与其平均数的平均差异程度。12均方（ meansquare）:（与标准差是同一个概念）平方和除以对应的自由度。这个量用

19、于 F比以判断均值之间是否有显著差异。13.最小显著性差异法（leastsignificantdifference 简写 LSD法）:用于方差分析中的多重比较的一种均值相等性的检验方法。十三、计量经济学中常用统计量十四、非参数检验（nonparametric statistics ）许多统计分析方法的应用对总体有特殊的要求，如t 检验要求总体符合正态分布，F 检验要求误差呈正态分布且各组方差整齐，等等。这些方法常用来估计或检验总体参数，统称为参名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - -

20、 - 第 10 页，共 18 页 - - - - - - - - - 数统计。但许多调查或实验所得的科研数据，其总体分布未知或无法确定，这时做统计分析常常不是针对总体参数，而是针对总体的某些一般性假设（如总体分布），这类方法称非参数统计（Nonparametrictests ）。（一）单样本配合度检验Chi-Square 基本功能：调用此过程可对样本数据的分布进行卡方检验。卡方检验适用于配合度检验，主要用于分析实际频数与某理论频数是否相符。（SPSS 中自带了一个例子：cars.sav），H0：实际频数与理论频数没有显著差异H1：实际频数与理论频数有显著差异（二）二项分布（Binomal

21、）基本功能：适用于二分变量时的情况，常需要检验一个事件在特定的条件下发生的概率是否与已知结论相同，如某地区出生的婴儿的性别比例与通常男女各半的结论是否相符，在这个情况下可用此方法。H0：特定事件与特定结论没有显著差异H1：特定事件与特定结论有显著差异例如：某地某一时期内出生40 名婴儿，其中女性12 名（定 Sex=0 ），男性 28 名（定 Sex=1）。问这个地方出生婴儿的性比例与通常的男女性比例（总体概率约为0.5）是否不同？（三） RUN检验（游程检验）基本功能：用于一个变量的两个值的出现顺序是否随机。依时间或其他顺序排列的有序数列中，具有相同的事件或符号的连续部分称为一个

22、游程。调用 Runs过程可进行游程检验，即用于检验序列中事件发生过程的随机性分析。H0：数据是随机出现的H1：数据是非随机的（四） 1-samplesk-s 检验称为：单样本柯尔莫哥诺夫斯米尔诺夫检验柯尔莫哥诺夫斯米尔诺夫检验。基本功能：调用此过程可对单样本进行Kolmogorov-SmirnovZ 检验，它将一个变量的实际频数分布与正态分布（Normal）、均匀分布（Uniform）、泊松分布（Poisson）进行比较。零假设 H0：经验分布与理论分布没有显著差别。H1：经验分布与理论分布有显著差别（五）两个独立样本检验（2-independentsamples ）基本功能：当总体分布不

23、清楚时，可检验两个随机样本是事来自同一总体。H0：两个独立样本来自相同的总体（两个样本没有显著差异）H1：两个独立样本来自不同的总体（两个样本没有显著差异）（六）多个独立样本检验（K-independentsamples ）H0：多个独立样本来自相同的总体（两个样本没有显著差异）H1：多个独立样本来自不同的总体（两个样本没有显著差异）（七）两个相关样本检验（2-relatedsamples）名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 11 页，共 18 页 - - - - - -

24、 - - - 基本功能是：当总体分布不清楚时，检验两个相关样本是否来自同一总体。与参数检验中的Paired-samples H0：两个相关样本来自相同的总体（两个样本没有显著差异）H1：两个相关样本来自不同的总体（两个样本没有显著差异）（八）多个相关样本检验（K-relatedsamples）基本功能是：当总体分布不清楚时，检验多个相关样本是否来自同一总体。H0：多个相关样本来自相同的总体（两个样本没有显著差异）H1：多个相关样本来自不同的总体（两个样本没有显著差异）十五、几种重要检验统计量1.F-stat.（F-distribution;F-test ） F检验的思想来自于总离差平方和的分

25、解式：TSS=ESS+RSS由于回归平方和ESS 是解释变量X联合体对被解释变量Y的线性作用的结果，所以，如果 ESS/RSS的比值较大，则 X 的联合体对Y的解释程度高，可认为总体存在线性关系，反之总体上可能不存在线性关系。其计算公式是其中 K代表变量个数，N 代表样本容量，记为则该统计量服从自由度为（k，n-k-1）的 F分布。因此 F值有时也叫均方差比，即F=不能解释的均方差/可以解释的均方差在统计学上，这个假设检验的假设原理是：H0：1=2=3，即它们不存在显著差别。H1：1 2 3 它们不完全相等，即总体均值之间存在差异。2.（卡方分布， Chisquaredistribut

26、ion,test; 统计量）。在统计学中，统计量常用于列联表中变量之间是否相关的检验，特别适用于两个定类变量之间是否相关的检验。卡方检验是对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所作的假设检验。即根据样本的频数分布来推断总体的分布。它属于自由分布的非参数检验。它可以处理一个因素分为多种类别，或多种因素各有多种类别的资料。所以，凡是可以应用比率进行检验的资料，都可以用卡方检验。其计算公式是其中，表示观察值的频数（observedfrequency ）;表示给定单元中的频数理论值，其计算公式是：；表示给定单元所在行的总和（行：Rank）， CT表示给定所在列的总

27、和.(列： Contingency)。X2 的自由度的确定：=（行数 -1）* （列数 -1）.记为 X2a(n),n 为自由度， a 为显著性水平。如同 T 分布一样，在不同自由度条件下，卡方分布也不相同，但随着自由度的增加（即样本容量的支扩大）卡方分布趋于对称性的正态分布。检验程序与假设检验理论是一样的。对变量之间的相关程度的测度主要用相关系数来表示，但对于定类数据之间的相关程度的测定，要借助于，对于定类数据之间的相关程度的测度常用到以下几种：（1）相关系数，它是描述2*2 列联表数据中相关程度最常用的一种相关系数，计算公式是=，取值在0 到 1 之间。(2)列联相关系数（简称 Coef

28、ficientofcontingency ）。主要用于大于2*2 列联表的情况。计算公式是 C=,取值在 0 到 1 之间。在 SPSS 中实现卡方检验：Analyze-descriptivestatistics-Crosstab ，或在“非参数检验中”可名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 12 页，共 18 页 - - - - - - - - - 以实现。如何描述两个分类变量间的关系3.T-stat（T-distribution;T-test ）（1）(2)在计量经济

29、学中，T 检验常称参数显著性检验其计算公式是：原假设：即参数不显著备择假设：即参数显著4.DW 检验（ d 统计量）：D-W 检验是杜宾（ J.Durbin）和瓦森 (G.S.Watson)于 1951 年提出的一种检验序列自相关的方法，这种检验方法是基于残差et 和 et-1 之间的一阶自相关系数提出来的，所以它只适用于检验残差序列的是否存在一阶自相关性的统计量。这从公式中可以看出来。注：残差：模型计算值与资料实测值之差为残差。表示一阶自关系数，所以， d2（1-）当=0 时， d=2,表明不存在自相关；当=1 时， d=0，表示存在完全正相关；当=-1 时， d=4,表示存在完全负自相关。

30、经验表明当，表明不存在自相关。4.拟合优度检验（TestingtheSimulationLevel ）：y 的理论预测值和真实的样本值的距离越小，拟合度越好。公式是：5.Q-statistic。在文献上的Q 统计量有二种版本，Box-PierceQ 统计量，另一种是适用于样本较小的修正版本Ljung-BoxQ统计量。这两种版本的Q 统计量有些微的不同。LB的 Q 统计量的计算公式是：其中，代表从一阶差分中回归中所得到的OLS残差（注意：没有包含截距项的一阶差分形式），而则是水平值形式得到的残差（含有截距项的回归形式）。6协整检验（ cointegrationTEST）定义：定义（协整）

31、：设 YtI(1)， xt I(1)。如果存在常数b，使得YtbXt 为 I(0)（平稳时间序列）时，称Yt和 Xt 之间存在协整关系。基本思想： Johansen检验的思想就是检验ut 和 nt 是否存在相关的典型变量和有几对相关性较大的典型变量。协整的检验方法一般有两种，Engle-Granger 方法检验方法。E-views 提供一个叫约翰森（Johansen）检验提供了确定协整变量个数的方法，其方法的理论基础是典型相关分析。步聚：第一步，拟合模型第二步，拟合模型第三步： Johansen检验 :这不是单独的一个检验，而是一系列的检验，检验从g=0 开始。名师资料总结 - - -精品资料

32、欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 13 页，共 18 页 - - - - - - - - - 十六、问卷的信度与效度检验（一）信度（ Reliabilty）社会测量中，作为测量工具的问卷，如果设计不周密、题意不确切、含混或具某种倾向性，其信度必定不高。信度是指可靠性、可信性，指统计结果的稳定性或一致性，可表示在N次调查或度量中有多少次是正确的，或每次调查属于正确的概率是多少。信度的度量通常是以相关系数表示的，又称信度系数。信度可以分为重（再）测信度（ Test-RetestReliability ）、

33、复本信度（ Alternate-formReliability）、内容一致性信度（InternalConsistencyCoefficient ）、折半信度和同质信度【计算系数】。同质信度（ Homogeneityreliability ）代表所有测验题目的一致性，当各个测验题目得分是正相关时是同质的，当相关性很低时为异质。最常用克朗巴哈（Cronbach）系数法和Speraman-brown 的折半信度S 。系数法其计算公式是：式中， N 为题总数， Si2为第 I 题内方差，为总分方差，r 题间的相关系数的总和一般要求问卷的系数大于0.70。可信度Cronba

34、ch系数不可信Cronbach系数 0.3 勉强可信0.3Cronbach系数 0.4 可信0.4Cronbach系数 0.5 很可信（最常见）0.5Cronbach系数 0.7 很可信（次常见）0.7Cronbach系数 0.9 十分可信0.9Cronbach系数信度分析在SPSS 中的操作步骤：step1：Analyze ScaleReliability Analysis step2：于变量清单中点选题目的变量置入左项目中Model 模式选择Alpha step3：按 Statistics在里面点选 Scaleifitemdeleted 按Continue OK （split-halfco

35、efficient ）信度，也称折半信度s 法，常用于态度、意见式问卷的信度分析，它系指采用分半会计所测得的信度系数，通过在调查问卷分为等值的两半、或将项目的单又序号分两半，求这两个各半测验总分之相关系数。斯皮尔曼-布朗（ Spearman-Brown）（二）问卷调查的效度检验(Validity) 效度指测量结果与试图达到的目标之间的接近程度,评价的是偏倚和系统误差问题。分为内容效度、结构效度和表面效度。效度值越高越能反映所要测量值的对象的真正特征。效度应在 0.7 以上。结构效度（ constructvalidity ）是指测量结果体现出来的某种结构与测值之间的对应程度，它名师资料总结 -

36、 - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 14 页，共 18 页 - - - - - - - - - 是最重要的评价指标。结构效度分析所采用的方法是因子分析。内容效度（ contentvalidity ）：问卷内容能在多大程度上覆盖研究目的要求达到的各个方面和领域。与表面效度一样,同属主观指标。表面效度（ Facevalidity）。资料：除此之外，你可以用因子分析里面Descriotives 里面 KMO 和巴特利检验（battele，不知道是不是这样写的），KMO 的值如果 0.5，

37、则说明因子分析的效度还行，可以进行因子分析；另外，如果巴特利检验的Pcorrelatebivariatecorrelations 。十七、相关分析(Correlation analysis) 与回归分析 (Regression nanlysis) （一）相关的概念事物或现象之间存相互联系、相互制约关系，而且所有各种现象之间的相互关系可以通过数量关系反映出来。现象之间的有关系可以通过两种不同类型表示出来，一是函数关系，这种关系是通过严格的数学方程表达出来。二是相关关系，这种关系的具体关系值是不确定的。（二）相关系数的计算与应用相关图表对发了解现象之间的相互关系是有用的，但只是初步判断，为了

38、说明现象之间的关系密切程度必须计算相关系数，相关系数的计算方法有很多，最常见的公式是。其实，相关系数可由拟合度R2得到，即（三）相关系数的密切程度当相关系数处于0.3 到 0.5 之间表示是低度相关；处于 0.5 到 0.8 之间是显著相关；处于 0.8 以上是高度相关。（四）回归分析相关关系仅能说明变量之间相关关系的方向和紧密程度，而不能说明变量之间的数量关系，即当给出某一自变量的数值时不能根据相关系数确定或估计因变量发生的值。回归分析就是对具有相关关系的变量之间数量变化的一般关系进行测定，确定一个相关的数学表达式，以便于进行估计或预测的统计方法。（五）回归分析与相关分析的区别回归分析和相关

39、分析都是研究变量之间的关系，在实际应用中，两种分析方法经常相互结合渗透和结合，但在研究重点方面却有所不同：（ 1）在回归分析中，变量Y称为因变量，处在被解释的特殊地位，而在相关分析中，变量 X和 Y处于相同的地位；（2）相关分析的重点是研究变量之间的关系及关系密切程度，而回归分析中，不仅可以揭示变量x 对变量 Y的影响大小，还可以由回归方程进行预测和控制。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 15 页，共 18 页 - - - - - - - - - （六）简单相关系

40、数和偏相关系数（PAC ）只计算两个变量之间的线性关联程度的相关系数可以称为简单相关，对于三个或三个以上变量之间关系的系数，就是引入偏相关系数（Partialcorrealationcoefficient ）. 偏相关系数可以这样定义：表示在 X3不变的条件下，X1，X2的偏相关系数。表示在 X2不变的条件下，X1，X3的偏相关系数。同理，表示在X3，X4不变的条件下，X1，X2的偏相关系数。计算公式是：（七）自相关或序列相关自相关（ Autocorrelation ）和序列相关（Serialcorrelation ）在许多文献中看作同义语，它所表达的意思是：按时间（在时间序列数据中）或空间（

41、在横截面数据中）的排序的观测值序列的误差项之间的存在相关。在经典的线性模型中，假设在误差项Ui 之间不存在自相关，用符号表示就是E（Ui，Uy） =0或者是 COV （Ui，Uy）=0，当 E（Ui，Uy） 0，则表示存在自关。自相关检验，用以检测是否存在自相关用d 统计量， DW 统计量。其计算公式是 :. 它不外是相继残差的差异平方和与RSS之比，它有一个缺陷就是只能检验一阶相关自相关，经验表明当，表明不存在自相关。发现存在自相关采用广义最小二乘法（GLS ）。（八）距离相关（Distancescorrelation ）基本功能：调用此过程可对变量内部各观察单位间的数值进行距离相关分析

42、，以考察相互间的接近程度；也可对变量间进行距离相关分析，常用于考察预测值对实际值的拟合优度。在 SPSS中，有两个选项：Betweencases 表示作变量内部观察值之间的距离相关分析，Betweenvariables 表示作变量之间的距离相关分析; 在 Measure 栏中有两种测距方式： Dissimilarities 为不相似性测距， Similarities 为相似性测距。若选 Dissimilarties 并点击 Measure.钮，弹出 Distance:DissimilarityMeasure 对话框（图 7.6），用户可根据数据特征选用测距方法。(九)复相关系数（coeffi

43、cientofmultiplecorrelation）复相关系数是度量复相关程度的指标，它旨在研究一个随机变量与多个随机变量之间的线形相关关系。它可利用单相关系数和偏相关系数求得。复相关系数越大，表明要素或变量之间的线性相关程度越密切。做多元回归，即可求出复相关系数。在SPSS 中，Statistics-Regression-Linear. 结果中的MultipleR 的值就是复相关系数。（十）交互相关（Crosscorrelation）是指第一个序列与另一个序列移动形式的综合点积。当两序列彼此反向移动而不具备相关性时，可认为该序列具有

44、较好的互相关属性。（十一）斯皮尔曼等级相关系数rs（次重点）1.识记：（1）斯皮尔曼等级相关系数rs 计算公式：n 6di2 i=1 n（n2-1）rs=1- （2）rs 检验的原假设：H0：总体中变量x 与变量 y 等级相关： s=0 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 16 页，共 18 页 - - - - - - - - - （3）rs 检验的统计量及其分布:t=t（n-2）（4）rs 双边检验拒绝域：tt /2 或 t-t/2 2.理解：（1）rs 的取值范围

45、讨论：在完全相关情况下，rs=1；一般情况下，rs 取值在 -1，+1之间；（2） rs 仅适用于变量没有相同等级或只有少量的相同等级。3.应用：（1）rs 计算；（2）rs 统计检验。（三）其他等级相关系数（一般）1.识记：（1）肯氏系数系列系数计算公式；（ 2）d 系数计算公式2.理解：（1）肯氏系数系列系数的适用性；（ 2）Gamma 系数与 d 系数的比较3.应用：（1）肯氏系数系列系数的计算；（2）d 系数的计算十八、回归分析、方差分析与相关分析的关系方差分析也可以用于回归当中，其最重要的用途就是通过逐步引入法选择重要的解释变量，综合运用回归法，相关分析法和方差分析

46、法，有利于构造更好的多元线性回模型。F= 通过变换，可以得到（一）回归分析的系数在回归方程中，回归系数的大小依赖于自变量与因变量的变化尺度（如标准差）的大小，如果自变量的标准差与自变量的标准相差太大，则会导致回归系数低估，一个解决的办法就是自变量和因变量先进行标准化，即转化成 z分数后再进行回归。所以就有了 “非标准化系数”和“标准化系数”之分。（二）相关分析在 SPSS 中，关于相关分析在三个选项1.Pearson 积差相关系数：功能是计算相关系数并作显著性检验，适用于两列变量均为正态分布的连续型变量。2.Kendallstau-b:：对数据没有严格要求，适用于检验等级变量之间的关联程度

47、。3.Speraman 等级相关检验：对数据分布没有严格要求，适用于等级变量，或者等距离不满足正态分布情况。统计英汉对照表1.Auto-correlation(AC) 自相关：2.Partialcorrelation(PC) 偏相关：3.correlogram: 相关图。4.iterations: 重复名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 17 页，共 18 页 - - - - - - - - - 5.convergence:会合6.inverse 倒数的7iterate

48、迭代8.cofidenceinterval: 置信区间9.intervelestimate: 区间估计10Pointestimate: 点估计11、intercept: 截距paremean: 均值比较13.one-sampleTtest: 单样本 T检验 .调用此过程可完成样本均值与总体均值之间的比较。14.independent-sampleTtest: 两独立样本T 检验 .调用此过程可完成两个两个独立样本数据的均值比较。15.paired-sampleTtest: 两配对样本T 检验 .调用此过程可完成两个配对样本数据的均值比较,与独立样本不同，配对样本之间具有相关性。16.criticalvalue: 临界值17.one-tailedtest ：单边检验18.two-tailedtest ：双边检验19.p-value：P-值20.Histogramandstat 直方图和统计名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 18 页，共 18 页 - - - - - - - - -

展开阅读全文