《多元统计分析第一讲.ppt》由会员分享,可在线阅读,更多相关《多元统计分析第一讲.ppt(25页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、课程提纲(课程提纲(课程提纲(课程提纲(SyllabusSyllabus)教师教师教师教师 张青张青张青张青 联系方式:联系方式:zhangq 办公地点:理学院楼二层东侧办公地点:理学院楼二层东侧203 答疑时间:星期二晚答疑时间:星期二晚9:0010:00ftp:/202.204.125.250 user:math;pass:math 成绩评定成绩评定成绩评定成绩评定 作业:作业:40%实验课作业实验课作业(4次)次)考试:考试:60%教学安排教学安排教学安排教学安排 线性代数线性代数;多元正态分布;假设检验;聚类分析;多元正态分布;假设检验;聚类分析;判别分析;主成分分析;因子分析判别分析
2、;主成分分析;因子分析;典型相关;典型相关;回归分析回归分析 Statistics is much too important to be left Statistics is much too important to be left entirely to statisticians -entirely to statisticians -George BoxGeorge BoxTodays technologies make it very easy to collect large amounts of data;multivariate methods are needed to d
3、etermine whether such massive amounts of data actually contain information.While it is easy to collect data,it is much harder to collect information.生命科学生命科学生命科学生命科学社会科学社会科学社会科学社会科学统计分析方法统计分析方法统计分析方法统计分析方法现象现象现象现象多样性多样性重复性重复性复杂性复杂性随机性随机性多元统计分析方法多元统计分析方法多元统计分析方法多元统计分析方法多元回归分析方法多元回归分析方法多元回归分析方法多元回归分析方
4、法多元判别分析方法多元判别分析方法多元判别分析方法多元判别分析方法聚类分析方法聚类分析方法聚类分析方法聚类分析方法目的目的目的目的从看起来从看起来杂乱无章杂乱无章的数据中的数据中发现提炼发现提炼规律性的结论规律性的结论为什么要多元分析必备的知识必备的知识必备的知识必备的知识良好的良好的专业训练专业训练必要的必要的统计分析工具统计分析工具传统方法与多变量分析方法区别:Traditional statistical methods:State some hypothese Collect some data Substantiate or repudiate the hypothesesMulti
5、variate techniques:Exploring data in order to find worthwhile and valuable informationMultivariate methods:“variable-directed”techniques “individual-directed”techniques An Overview of multivariate methods“variable-directed”“individual-directed”Principal components 主成分分析Factor analysis 因子分析Regression
6、 analysis 回归分析Canonical correlation analysis 典型相关分析 Cluster analysis 聚类分析Discriminant analysis 判别分析Multivariate analysis of variance 方差分析Textbooks:theory of multivariate methodsor the application of the methods our lecture focusing on:Why should multivariate methods be used?When should they be used?
7、How can they be used?What has been learned by the application of the methods?1 1 数据矩阵和数据向量数据矩阵和数据向量P表示变量,n表示项目或实验单元例如,某书店销售情况变量1 销售金额:42 52 48 58变量2 售出数量 4 5 4 3统计方法的基本概念统计方法的基本概念随机变量随机变量随机变量随机变量 X X(random variable)(random variable)在自然界中,有些变量在每次观察前,不可能事先确定其取值;经过在自然界中,有些变量在每次观察前,不可能事先确定其取值;经过大量反复观察,
8、其取值又有一定的规律,这种变量称为大量反复观察,其取值又有一定的规律,这种变量称为随机变量随机变量随机变量随机变量X X。例例 (1).掷骰子出现某点数的概率为掷骰子出现某点数的概率为1/6,若掷,若掷100次,则出现该点数次,则出现该点数的次数的次数X是随机变量是随机变量;(2).332路公车每路公车每10分钟发一趟车,某人在随机的时间到达车站等分钟发一趟车,某人在随机的时间到达车站等车,则等车时间车,则等车时间X是随机变量。是随机变量。1.1.随机变量、概率分布随机变量、概率分布随机变量、概率分布随机变量、概率分布离散型随机变量离散型随机变量离散型随机变量离散型随机变量 X的所有可能取值是
9、有限个或可列个。的所有可能取值是有限个或可列个。连续型随机变量连续型随机变量连续型随机变量连续型随机变量 最常见的一类非离散型随机变量。最常见的一类非离散型随机变量。对连续型随机变量,考察事件对连续型随机变量,考察事件aXb的概率。若存在非负的可的概率。若存在非负的可积函数积函数p(x),使得:对任意的使得:对任意的a,b(ab),都有都有 则称则称p(x)为随机变量为随机变量X的的概率密度函数。概率密度函数。概率密度函数。概率密度函数。概率密度函数概率密度函数概率密度函数概率密度函数 (PDF,probability density function)PDF,probability dens
10、ity function)对所有随机变量对所有随机变量X,可以定义以下的概率分布函数可以定义以下的概率分布函数F(x):P(x)的性质:的性质:2.2.随机变量的数字特征随机变量的数字特征随机变量的数字特征随机变量的数字特征均值均值均值均值(mean)mean)或或或或数学期望数学期望数学期望数学期望(mathematical expectation)mathematical expectation)离散型随机变量的均值离散型随机变量的均值离散型随机变量的均值离散型随机变量的均值设设离散型随机变量离散型随机变量X的分布律为:的分布律为:若若收敛,则称收敛,则称E(X)为随机变量为随机变量X的的
11、均值均值均值均值或或数学期望数学期望数学期望数学期望。xi:质点质点i的坐标;的坐标;pi:质点质点i的质量的质量E(X):质心质心坐标坐标连续型随机变量的均值连续型随机变量的均值连续型随机变量的均值连续型随机变量的均值设设X为连续型随机变量,它的概率密度函数为为连续型随机变量,它的概率密度函数为p(x),若若收敛,则称收敛,则称E(X)为随机变量为随机变量X的的均值均值均值均值或或数学期望数学期望数学期望数学期望。小结:小结:E(X)反映随机变量反映随机变量X的统计平均性质,代表随机变量取值的一般水平的统计平均性质,代表随机变量取值的一般水平或集中的位置,略去了随机变量概率分布规律的具体细节
12、。或集中的位置,略去了随机变量概率分布规律的具体细节。方差方差方差方差(variance)variance)设随机变量设随机变量X的均值为的均值为E(X),则:则:对于离散型随机变量对于离散型随机变量X,其方差为:其方差为:对于连续型随机变量对于连续型随机变量X,其方差为:其方差为:计算计算D(X)的的简单公式:简单公式:小结:小结:D(X)反映随机变量反映随机变量X的相对于均值的相对于均值E(X)的偏离程度,代表随机变量取的偏离程度,代表随机变量取值的分散性,也是统计平均的性质。值的分散性,也是统计平均的性质。正态分布正态分布正态分布正态分布(Normal distribution)Norm
13、al distribution)设设随机变量随机变量X的概率密度为:的概率密度为:其中其中-0均为常数。称均为常数。称X X服从参数为服从参数为服从参数为服从参数为 ,的正态分布的正态分布的正态分布的正态分布,记,记作作XN(XN(,2 2).).:均值;均值;:方差:方差=0;2=1时,称为标准正态分布,记为时,称为标准正态分布,记为XN(0XN(0,1)1)。遵从正态分布的随机变量遵从正态分布的随机变量X,其正态分布函数为:其正态分布函数为:正态分布的若干性质正态分布的若干性质正态分布的若干性质正态分布的若干性质 正态分布完全由其均值正态分布完全由其均值 和方差和方差 2决定决定;正态分布
14、的概率密度函数曲线呈对称的正态分布的概率密度函数曲线呈对称的“钟形钟形”;经验规则(经验规则(3 准则):准则):689599 2 3 2 3 p(x)x3.3.总体和样本总体和样本总体和样本总体和样本总体总体总体总体X X(population)研究对象的某种特征值的全体组成的集合。用研究对象的某种特征值的全体组成的集合。用X表示。表示。样本样本样本样本X1,X2,Xn(sample)在总体中选取部分有代表性的子集称为(随机)样本。在总体中选取部分有代表性的子集称为(随机)样本。一个样本是来自总体一个样本是来自总体X的一组相互独立同的一组相互独立同X分布的随机变量。分布的随机变量。样本值样本
15、值样本值样本值x1,x2,xn 从总体从总体X随机抽取的一组观测值,常用随机抽取的一组观测值,常用x1,x2,xn来表示样本或来表示样本或样本值。样本值。4.4.统计量及其参数估计统计量及其参数估计统计量及其参数估计统计量及其参数估计统计量统计量统计量统计量(statistical quantity)设设X1,X2,Xn为总体为总体X的的n个样本,个样本,g(x1,x2,xn)为连续函数,为连续函数,则称则称g(X1,X2,Xn)为一个统计量。为一个统计量。显然,统计量显然,统计量g(X1,X2,Xn)也是一个随机变量。也是一个随机变量。总体总体总体总体X X的数字特征的数字特征的数字特征的数
16、字特征参数参数参数参数 总体均值总体均值:刻划总体的平均取值:刻划总体的平均取值 总体方差总体方差 2:刻划总体取值的分散(涨落)程度:刻划总体取值的分散(涨落)程度根据样本值推断总体性质根据样本值推断总体性质根据样本值推断总体性质根据样本值推断总体性质参数估计参数估计参数估计参数估计样本均值样本均值 :样本方差样本方差s:显然,样本均值、样本方差都属于统计量。显然,样本均值、样本方差都属于统计量。通常用样本均值、样本方差作为总体均值、总体方差的无偏估计量。通常用样本均值、样本方差作为总体均值、总体方差的无偏估计量。无偏估计无偏估计:当当n取得充分大,样本均值、样本方差分别逼近总体均值取得充分
17、大,样本均值、样本方差分别逼近总体均值和总体方差。和总体方差。或或(当当n较大时较大时)5.5.统计推断的两类问题统计推断的两类问题统计推断的两类问题统计推断的两类问题参数估计和假设检验参数估计和假设检验参数估计和假设检验参数估计和假设检验参数估计问题参数估计问题参数估计问题参数估计问题 假定总体假定总体X的分布函数形式已知,对其中的某些参数进行估计。的分布函数形式已知,对其中的某些参数进行估计。估计方法:矩估计法、最小二乘法、最大似然法,估计方法:矩估计法、最小二乘法、最大似然法,假设检验问题假设检验问题假设检验问题假设检验问题 从从样本值出发,判断关于总体分布的某种假设是否成立。样本值出发
18、,判断关于总体分布的某种假设是否成立。1 1、提出原假设(或称零假设)和备选假设(或称对立假设)提出原假设(或称零假设)和备选假设(或称对立假设)提出原假设(或称零假设)和备选假设(或称对立假设)提出原假设(或称零假设)和备选假设(或称对立假设)2 2、指定显著性水平、指定显著性水平、指定显著性水平、指定显著性水平 (一般取(一般取(一般取(一般取 0.05,0.01,0.05,0.01,)值用以衡量(或拒绝)原假设成立所需证据的指标。值用以衡量(或拒绝)原假设成立所需证据的指标。值越小,否定原假设的条件越高,不容易否定原假设;值越小,否定原假设的条件越高,不容易否定原假设;值越大,否定原假设
19、的条件越低,比较容易否定原假值越大,否定原假设的条件越低,比较容易否定原假设。设。3 3、构造检验统计量、构造检验统计量、构造检验统计量、构造检验统计量WW 4 4、进行统计试验、进行统计试验、进行统计试验、进行统计试验收集数据、计算检验统计量及显著收集数据、计算检验统计量及显著收集数据、计算检验统计量及显著收集数据、计算检验统计量及显著性概率值性概率值性概率值性概率值p p5 5、根据显著性水平、根据显著性水平、根据显著性水平、根据显著性水平 值进行判断值进行判断值进行判断值进行判断 变量与变量的关系:变量与变量的关系:确定性关系确定性关系函数关系函数关系函数关系函数关系U=IRv=gt变量
20、与变量的关系:变量与变量的关系:非确定性关系非确定性关系统计相关统计相关统计相关统计相关(具有统计规律)(具有统计规律)Y=f(x1,x2,xn)+回归分析方法回归分析方法回归分析方法回归分析方法7.7.回归分析回归分析回归分析回归分析回归分析的基本问题回归分析的基本问题回归分析的基本问题回归分析的基本问题 寻求表达寻求表达Y与与x1,x2,xn的相关关系的的相关关系的经验回归方程经验回归方程经验回归方程经验回归方程,简称简称回归方程回归方程回归方程回归方程;利用回归方程,在一定可靠度的要求下,预估当自变量利用回归方程,在一定可靠度的要求下,预估当自变量x1,x2,xn取取确定值时,随机变量确定值时,随机变量Y的取值,称为的取值,称为预测预测预测预测问题问题问题问题;为使为使Y在给定的范围内取值,利用回归方程,控制自变在给定的范围内取值,利用回归方程,控制自变量量x1,x2,xn的取值范围,称为的取值范围,称为控制问题控制问题控制问题控制问题。