《一元统计学和多元统计3.ppt》由会员分享,可在线阅读,更多相关《一元统计学和多元统计3.ppt(38页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多元统计分析基础多元统计分析基础生命科学生命科学生命科学生命科学社会科学社会科学社会科学社会科学统计分析方法统计分析方法统计分析方法统计分析方法现象现象现象现象多样性多样性复杂性复杂性随机性随机性多元统计分析方法多元统计分析方法多元统计分析方法多元统计分析方法多元回归分析方法多元回归分析方法多元回归分析方法多元回归分析方法多元判别分析方法多元判别分析方法多元判别分析方法多元判别分析方法聚类分析方法聚类分析方法聚类分析方法聚类分析方法目的:目的:从看起来从看起来杂乱无章杂乱无章的数据中的数据中发现提炼发现提炼规律性的结论规律性的结论为什么学习多元统计分析必备的知识必备的知识必备的知识必备的知识良
2、好的良好的专业训练专业训练必要的必要的统计分析工具统计分析工具多元统计研究的内容简化数据结构(降维问题)简化数据结构(降维问题)将复杂的数据通过变量变化变得互补相关将高维数据投影到低维空间(问题简化,信息丢失较少)主成分分析因子分析分类与判别(归类问题)分类与判别(归类问题)按照相似度进行分类聚类分析判别分析等变量间的相互关系变量间的相互关系 回归分析典型相关分析多元数据统计推断多元数据统计推断参数估计参数估计假设检验假设检验 多元统计的理论基础多元统计的理论基础 多元随机向量的分布及其性质多元随机向量的分布及其性质抽样分布理论等抽样分布理论等 随着计算机的发展,多元统计已经在自然科学、随着计
3、算机的发展,多元统计已经在自然科学、社会科学的各个领域得到广泛的应用。社会科学的各个领域得到广泛的应用。教育学教育学医学医学气象学气象学 环境科学环境科学 地理学地理学 考古学考古学服装工业服装工业经济学经济学农业农业社会科学社会科学文学文学以及其他各个领域以及其他各个领域 多元统计的应用多元统计的应用一元概率统计回顾一元概率统计回顾主要关注基本概念和基本思想主要关注基本概念和基本思想随机变量随机变量随机变量随机变量 X X(random variable)(random variable)在自然界中,有些变量在每次观察前,不可能事先确定其取值;经过在自然界中,有些变量在每次观察前,不可能事先
4、确定其取值;经过大量反复观察,其取值又有一定的规律,这种变量称为大量反复观察,其取值又有一定的规律,这种变量称为随机变量随机变量随机变量随机变量X X。例例 (1).掷骰子出现某点数的概率为掷骰子出现某点数的概率为1/6,若掷,若掷100次,则出现该点数的次,则出现该点数的次数次数X是随机变量是随机变量;(2).332路公车每路公车每10分钟发一趟车,某人在随机的时间到达车站等分钟发一趟车,某人在随机的时间到达车站等车,则等车时间车,则等车时间X是随机变量。是随机变量。1.1.随机变量、概率分布随机变量、概率分布随机变量、概率分布随机变量、概率分布离散型随机变量离散型随机变量离散型随机变量离散
5、型随机变量 X的所有可能取值是有限个或可列个。的所有可能取值是有限个或可列个。连续型随机变量连续型随机变量连续型随机变量连续型随机变量 最常见的一类非离散型随机变量。最常见的一类非离散型随机变量。对连续型随机变量,考察事件对连续型随机变量,考察事件aXb的概率。若存在非负的可的概率。若存在非负的可积函数积函数p(x),使得:对任意的,使得:对任意的a,b(ab),都有,都有 则称则称p(x)为随机变量为随机变量X的的概率密度函数。概率密度函数。概率密度函数。概率密度函数。概率密度函数概率密度函数概率密度函数概率密度函数 (PDF,probability density function)(PD
6、F,probability density function)对所有随机变量对所有随机变量X,可以定义以下的概率分布函数,可以定义以下的概率分布函数F(x):P(x)的性质:的性质:收敛,则称收敛,则称E(X)为随机变量为随机变量X的的均值均值均值均值或或数学期望数学期望数学期望数学期望。xi:质点质点i的坐标;的坐标;pi:质点质点i的质量的质量E(X):质心坐标质心坐标2.2.随机变量的数字特征随机变量的数字特征随机变量的数字特征随机变量的数字特征均值均值均值均值(mean)(mean)或数学期望或数学期望或数学期望或数学期望(mathematical expectation)(mathe
7、matical expectation)离散型随机变量的均值离散型随机变量的均值离散型随机变量的均值离散型随机变量的均值设离散型随机变量设离散型随机变量X的分布律为:的分布律为:若若连续型随机变量的均值连续型随机变量的均值设设X为连续型随机变量,它的概率密度函数为为连续型随机变量,它的概率密度函数为p(x),若,若收敛,则称收敛,则称E(X)为随机变量为随机变量X的的均值均值均值均值或或数学期望数学期望数学期望数学期望。小结:小结:E(X)反映随机变量反映随机变量X的统计平均性质,代表随机变量取值的一般水平的统计平均性质,代表随机变量取值的一般水平或集中的位置,略去了随机变量概率分布规律的具体
8、细节。或集中的位置,略去了随机变量概率分布规律的具体细节。方差方差(variance)设随机变量设随机变量X的均值为的均值为E(X),则:,则:对于离散型随机变量对于离散型随机变量X,其方差为:,其方差为:对于连续型随机变量对于连续型随机变量X,其方差为:,其方差为:计算计算D(X)的简单公式:的简单公式:小结:小结:D(X)反映随机变量反映随机变量X的相对于均值的相对于均值E(X)的偏的偏离程度,代表随机变量取值的分散性,也是离程度,代表随机变量取值的分散性,也是统计平均的性质。统计平均的性质。正态分布正态分布正态分布正态分布(Normal distribution)(Normal dist
9、ribution)设随机变量设随机变量X的概率密度为:的概率密度为:其中其中-0均为常数。称均为常数。称X X服从参数为服从参数为服从参数为服从参数为 ,的正态分布的正态分布的正态分布的正态分布,记,记作作XN(XN(,2 2).).:均值;:均值;:方差:方差=0;2=1时,称为标准正态分布,记为时,称为标准正态分布,记为XN(0XN(0,1)1)。遵从正态分布的遵从正态分布的随机变量随机变量X,其正态分布函数为:,其正态分布函数为:正态分布的若干性质正态分布的若干性质正态分布的若干性质正态分布的若干性质 正态分布完全由其均值正态分布完全由其均值 和方差和方差 2决定决定;正态分布的概率密度
10、函数曲线呈对称的正态分布的概率密度函数曲线呈对称的“钟形钟形”;经验规则(经验规则(3 准则):准则):689599 2 3 2 3 p(x)x3.3.总体和样本总体和样本 总体总体总体总体X X(population)研究对象的某种特征值的全体组成的集合。研究对象的某种特征值的全体组成的集合。用用X表示。表示。样本样本样本样本X1,X2,Xn(sample)在总体中选取部分有代表性的子集称为(随机)样本。在总体中选取部分有代表性的子集称为(随机)样本。一个样本是来自总体一个样本是来自总体X的一组相互独立同的一组相互独立同X分布的随机变量。分布的随机变量。样本值样本值样本值样本值x1,x2,x
11、n 从总体从总体X随机抽取的一组随机抽取的一组观测值,常用观测值,常用x1,x2,xn来表示来表示样本或样本值样本或样本值。4.4.统计量及其参数估计统计量及其参数估计统计量及其参数估计统计量及其参数估计统计量统计量统计量统计量(statistical quantity)设设X1,X2,Xn为总体为总体X的的n个样本,个样本,g(x1,x2,xn)为连为连 续函数,则称续函数,则称g(X1,X2,Xn)为一个统计量。为一个统计量。显然,统计量显然,统计量g(X1,X2,Xn)也是一个随机变量。也是一个随机变量。总体总体总体总体X X的数字特征的数字特征的数字特征的数字特征参数参数参数参数 总体
12、均值总体均值:刻划总体的平均取值:刻划总体的平均取值总体方差总体方差 2:刻划总体取值的分散(涨落)程度:刻划总体取值的分散(涨落)程度根据样本值推断总体性质根据样本值推断总体性质根据样本值推断总体性质根据样本值推断总体性质参数估计参数估计参数估计参数估计样本均值样本均值 :样本方差样本方差s s:显然,样本均值显然,样本均值、样本方差都属于统计量。、样本方差都属于统计量。通常用样本均值通常用样本均值、样本方差作为总体均值、总体方差的无偏估计量。、样本方差作为总体均值、总体方差的无偏估计量。无偏估计无偏估计:当当n取得充分大取得充分大,样本均值、样本方差分别逼近总体均值,样本均值、样本方差分别
13、逼近总体均值和总体方差。和总体方差。或或(当当n较大时较大时)5.5.统计推断的两类问题统计推断的两类问题统计推断的两类问题统计推断的两类问题参数估计和假设检验参数估计和假设检验参数估计和假设检验参数估计和假设检验参数估计问题参数估计问题参数估计问题参数估计问题 假定假定总体总体X的分布函数形式已知,对其中的某些参数进行估计。的分布函数形式已知,对其中的某些参数进行估计。估计方法:矩估计估计方法:矩估计法、最小二乘法、最大似然法,法、最小二乘法、最大似然法,假设检验问题假设检验问题假设检验问题假设检验问题 从样本值出发从样本值出发,判断关于总体分布的某种假设是否成立。,判断关于总体分布的某种假
14、设是否成立。1 1、提出原假设(或称零假设)和备选假设(或称对立假设)提出原假设(或称零假设)和备选假设(或称对立假设)提出原假设(或称零假设)和备选假设(或称对立假设)提出原假设(或称零假设)和备选假设(或称对立假设)2 2、指定显著性水平、指定显著性水平、指定显著性水平、指定显著性水平 (一般取(一般取(一般取(一般取 0.05,0.01,0.05,0.01,)值用以衡量(或拒绝)原假设成立所需证据的指标。值用以衡量(或拒绝)原假设成立所需证据的指标。值越小,否定原假设的条件越高,不容易否定原假设;值越小,否定原假设的条件越高,不容易否定原假设;值越大,否定原假设的条件越低,比较容易否定原
15、假值越大,否定原假设的条件越低,比较容易否定原假设。设。3 3、构造构造构造构造检验统计量检验统计量检验统计量检验统计量W W W W 4 4、进行统计试验进行统计试验进行统计试验进行统计试验收集数据、计算检验统计量及显著收集数据、计算检验统计量及显著收集数据、计算检验统计量及显著收集数据、计算检验统计量及显著性概率值性概率值性概率值性概率值p p p p5 5、根据显著性水平、根据显著性水平、根据显著性水平、根据显著性水平 值进行判断值进行判断值进行判断值进行判断 多元统计数据的图表示法 图形有助于对所研究数据的直观了解,一元或二元的数据都可以用图画出来,给研究人员一个直观理解。但是对于高维
16、数据,在平面上用图画出来不是一件容易的事情。许多统计学家给出了多元数据的图示方法,但是对于这些方面的研究还处于不成熟的状态,到目前为止还没有公认的方法。书中介绍的是一些在当今比较流行的方法。设变量的个数为p,观察的次数为n,第k次观察值记为N次观测数据组成的矩阵记为例:考察北京、上海、陕西、甘肃四个省市人均消费支出情况,选取以下五项指标,具体数据如下表肉禽及制品肉禽及制品住房住房医疗保健医疗保健交通通讯交通通讯文娱用品文娱用品及服务及服务北京563.51227.78147.76253.99510.78上海678.92365.07112.82301.46465.88陕西237.38174.481
17、19.78141.07245.57甘肃253.41136.13102.96108.13212.20 轮廓图的作图步骤为:1.在直角坐标系中,横坐标取p个点,以表示p个变量;2.对于给定的一个观测值,在p个点上的纵坐标与对应的变量值取正比;3.连接p个点得一折线,既得该次观察值的一条轮廓线;4.对于n次观察值,每次都重复上述步骤,可画出n条折线,构成n次观察值的轮廓图。多元统计数据的图表示法多元统计数据的图表示法轮廓图轮廓图肉禽及制品 住房医疗保健 交通通讯文娱用品及服务0100200300400500600700800北京 上海 陕西 甘肃 雷达图的作图步骤为:1.作一个圆,并把此圆分为p等分
18、;2.连接圆心和各分点,把这p条半径依次定义为各变量的坐标轴,并标以适当的刻度;3.对给定的一次观测值,把p个观测值分别标在相应的坐标轴上,然后将它们连成一个p边形;4.对于n次观察值,可画出n个p边形。多元统计数据的图表示法多元统计数据的图表示法雷达图雷达图肉禽及制品 住房医疗保健 交通通讯文娱用品及服务0100200300400500600700800北京 上海 陕西 甘肃 多元统计数据的图表示法多元统计数据的图表示法调和曲线图调和曲线图 从数学的角度,较为完美的多元数据图表示的方法可能就是Andcews在1972年提出的三角多项式法,其思想是把多维空间中的一个点对应于二维平面上的一条曲线。多元统计数据的图表示法多元统计数据的图表示法星座图星座图 请同学们参考实用多元统计分析实用多元统计分析由由 Richard A.Johnson&Dean W.Wichern 著著 清华大学出版社清华大学出版社 多元统计的难点在于变量太多。研究多元统计的主攻方向之一就是如何将高维数据投影到二维空间,并且在投影过程中不会过多地损失原有数据的信息,这样就可以使用这种方法在平面上画出这些原本属于高维数据的图形来。THANKS