《统计量、抽样分布、探索性数据分析.ppt》由会员分享,可在线阅读,更多相关《统计量、抽样分布、探索性数据分析.ppt(55页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第5 5章章 统计量、抽样分布、数据探索分析统计量、抽样分布、数据探索分析总体与总体特征数总体与总体特征数样本与统计量样本与统计量统计三大分布与抽样分布统计三大分布与抽样分布数理统计数理统计数据探索分析数据探索分析数理统计数理统计一、数理统计及其任务 数理统计数理统计是一门以概率论为基础的应用学科。它是研究如何有效地收集、整理、分析带有随机性的数据,以便对所考察的问题作出推断和预测,从而为决策提供依据。数理统计的任务就是研究有效地收集数据,科学地整理与分析所获得的有限的资料,对所研究的问题,尽可能地作出精确而可靠的结论。数理统计研究问题的方式,不是对所研究对象的全体(称为总体)进行观察,而是
2、抽取其中的部分(称为样本)进行观察获得数据(抽样),并通过这些数据对总体进行推断。数理统计方法具有数理统计方法具有“部分推断整体部分推断整体”的特征。的特征。二、数理统计研究问题的一般流程分析问分析问题题确定总确定总体体收集收集数据数据试验设计试验设计抽样抽样数据数据整理整理统计推断统计推断参数估计参数估计假设检验假设检验我们这门课所学的数理我们这门课所学的数理统计实际上是统计推断统计实际上是统计推断及其应用(方差分析与及其应用(方差分析与回归分析)的一部分内回归分析)的一部分内容。容。为什么要用数理统计方法研究问题?随机现象有它的规律性,随机现象的特点注定了进行足够多次观察,其规律性才能清楚
3、地呈现出来。但是,客观上只允许对随机现象进行有限次观察试验,只能获得局部观察资料.总体与总体特征数总体与总体特征数一、总体与总体标志总体总体(Population)Def 在数理统计中,把研究对象的全体称为总体或母体,而把组成总体的每个单元称为个体。描述总体单元在某方面特性的名称或记号称为总体指标;每个总体单元对总体指标的响应称为指标值。总体中所包含的个体的个数称为总体的容量。研究某批灯泡的质量 总总体体个体个体 在数理统计中,人们往往研究有关总体总是关注总体某一项或几项指标,为此,对这些指标进行随机的试验或观测,试验或观测结果获得这些指标的一部分或全部指标值,从而考察该数量指标的分布情况。这
4、时,指标值的全体就象是总体。每个指标值就象是总体单元。总体总体指标值全指标值全集集指标指标随机变量随机变量总体可以用随机变量及其分布来表示,研究总体等价于研究表达总体的随机变量概率分布;在理论上可以把总体与概率分布等同起来,总体分布就是表达总体的随机变量的分布。例如:研究某批灯泡的寿命时,关心的指标是寿命,那么,该总体就可以用随机变量X和其概率分布表示。总体总体特征数样本与统计量样本与统计量一、样本样本样本(Sample)Def 按一定规则从总体中抽取一部分总体单元进行观测或试验,这一抽取过程称为“抽样”,所抽取的部分总体单元的整体称为总体的一个样本(子样)。样本中所包含的总体单元称为样本单元
5、,样本中样本单元的数目称为样本容量。样本样本样本实现样本实现抽定抽定样本样本应满足的性质(1)代表性;(2)随机性。简单随机样本简单随机样本(Independence identical distributionIndependence identical distributionIndependence identical distributionIndependence identical distribution)Def例如例如:要通过随机抽样了解一批产品的次品率,如果每次抽取一件产品观测后放回原来的总量中再抽第二件产品,则这样获得一个简单随机抽样。实际抽样中,往往是不再放回产品,则这不
6、是一个简单随机抽样。但当总量N很大时,可近似看成可近似看成是简单随机抽样。样本样本分布Def注意:注意:样本分布反映样本取不同实现的概率规律,其与总体分布相联系,一般求算比较麻烦,但对于iid样本有下列结果。总体、样本、样本实现的关系总体、样本、样本实现的关系总体总体样本实现样本实现样本样本推断推断例例5.1例例5.2二、统计量样本样本(Statistic)例例5.3 设是从正态总体中抽取的一个样本,其中为已知参数,为未知参数,确定下列那些量是统计量它反映了总体它反映了总体k 阶矩的信息阶矩的信息几个常用的统计量几个常用的统计量样本平均值样本平均值它反映了总体它反映了总体均值的信息均值的信息样
7、本方差样本方差它反映了总体它反映了总体方差的信息方差的信息样本标准差样本标准差 样本样本k阶原点矩阶原点矩样本样本k阶中心矩阶中心矩统计三大分布统计三大分布 分布这个分布是由Helmet于1875年提出,K.Pearson于1900年重新提出。理论推导可得概率密度函数为 其概率密度函数的图像如图所示(用中心极限定理证明)t分布(学生氏t分布)这个分布是由W.S.Gosset于1908年提出,该分布的提出为小样本方法的建立奠定了概率基础。理论推导可得概率密度函数为F分布这个分布是由R.A.Fisher于1918年提出,该分布的提出为方差分析的建立奠定了概率基础。Snedcor于1934年给出概率
8、密度函数。例例5.7抽样分布抽样分布抽样分布抽样分布(Sampling Distribution)确定抽样分布是数理统计的有一个基本问题,确定相应统计量的分布是建立统计方法的基础。以统计量的精确为基础的统计方法称为小样本方法;而以统计量的极限分布为基础的统计方法称为大样本方法。充分统计量充分统计量样本统计量加工信息样本分布统计量分布信息替代充分统计量的概念充分统计量的概念充分统计量的判定充分统计量的判定Normal Symmetric,Non-Normal,Short-Tailed Bimodal Mixture of 2 Normals Skewed(Non-Symmetric)Right
9、Symmetric and Bimodal Symmetric with Outlier 组序区间范围频数fj频率Wj=fj/n167.5,72.5)20.022 72.5,77.5)50.053 77.5,82.5)100.104 82.5,87.5)180.185 87.5,92.5)300.306 92.5,97.5)180.187 97.5,12.5)100.108 102.5,107.5)40.049 107.5,112.5)30.03从频率直方图可看到:靠近两个极端的数据出现比较少,而中间附近的数据比较多,即中间大两头小的分布趋势(随机变量分布状况的最粗略的信息)。频率直方图中的小
10、矩形的面积近似地反映了样本数据落在某个区间内的可能性大小,故它可近似描述X的分布状况。茎叶图的实现茎叶图的实现先将数据由小到大排序,在将每个数据分为两部分,一部分作为茎,另一部分为叶,构成的图茎为枝叶图。以例说明枝叶图的做法:例例5.6 64 67 70 72 74 76 76 79 80 81 82 82 83 85 86 88 91 91 92 93 93 93 95 95 95 97 97 99 100 100 102 104 106 106 107 108 108 112 112 114 116 118 119 119 122 123 125 126 128 133试作枝叶图 解:将数
11、据的百位和十位作枝,个位作叶,用竖线将枝叶分开,形成图。SPSS:Analyze Descriptive Statistics Explore Stem leaf plots.47024668012235681123335667790024667882246899235683 6 7 8 910111213茎叶No relationship Strong linear(positive correlation)Exponential relationship Quadratic relationship Variation of Y does depend on X(homoscedastic)Variation of Y does depend on X(heteroscedastic)Sinusoidal relationship(damped)Outlier 次序统计量与经验分布函数次序统计量与经验分布函数例例5.4