《总体、样本和统计量.ppt》由会员分享,可在线阅读,更多相关《总体、样本和统计量.ppt(20页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数理统计数理统计数学与计算机科学学院数学与计算机科学学院杜秀丽按时到课,上课期间请关闭手机:按时到课,上课期间请关闭手机:按时完成作业,在每次上课之前交作业,不得在课堂上写作业,按时完成作业,在每次上课之前交作业,不得在课堂上写作业,杜绝抄袭杜绝抄袭严禁任何时候任何形式的作弊行为,否则成绩以零分记在考严禁任何时候任何形式的作弊行为,否则成绩以零分记在考试时切记带学生证试时切记带学生证期中考试形式:提交一份统计报告,具体内容自定,数据自己期中考试形式:提交一份统计报告,具体内容自定,数据自己收集收集在掌握手工计算方法的基础上,鼓励使用软件或编程方法计算在掌握手工计算方法的基础上,鼓励使用软件或编
2、程方法计算统计习题建议至少会使用统计习题建议至少会使用Excel和和Matlab成绩计算:作业成绩计算:作业10分分+报告报告20分分+期终考试期终考试70分分星期二第星期二第5节节J3 四楼教师休息室恭候诸位答疑四楼教师休息室恭候诸位答疑 希望我们牛年合作愉快希望我们牛年合作愉快!基本要求:基本要求:一一.何谓数理统计学何谓数理统计学 在正确的前提下,我们可以利用由一般到特殊的在正确的前提下,我们可以利用由一般到特殊的演绎演绎演绎演绎推理严推理严格证明一个结论的正确性从确定的前提可以推出有关的确定的格证明一个结论的正确性从确定的前提可以推出有关的确定的事实,我们不会对这种问题有太多的敬畏,总
3、有聪明的人可以准事实,我们不会对这种问题有太多的敬畏,总有聪明的人可以准确地做出这种推理。确地做出这种推理。归纳法是从若干事实概括出它们的共性的一种思想方法,其本质特征是:虽然考察的只是若干个别现象,但所得的结论却能超出考察的范围归纳法不仅是一种逻辑推理方法,也是一种科学研究方法,更是一种科学发现方法归纳推理,就是要从所有可能的结论中挑选出一个自认为是最有可能正确的结论,当然用归纳法得出的结论并非总是正确的认真思考归纳推理,我们要解决以下问题:认真思考归纳推理,我们要解决以下问题:1、针对一个问题,怎样合理有效地观测记录有关事实、针对一个问题,怎样合理有效地观测记录有关事实?2、基于已经观测到
4、的事实,有哪些结论可供选择呢、基于已经观测到的事实,有哪些结论可供选择呢?3、能否给出一个统一的方法,告诉我们该选择哪一个结论呢、能否给出一个统一的方法,告诉我们该选择哪一个结论呢?4、做出选择的同时,我们必须同时承担多大出错的风险呢、做出选择的同时,我们必须同时承担多大出错的风险呢?虽然归纳推理的历史和人类发展史一样长,但是直到二十世纪,虽然归纳推理的历史和人类发展史一样长,但是直到二十世纪,才出现了处理这种问题的突破口。问题的难点在于,由特殊到一般才出现了处理这种问题的突破口。问题的难点在于,由特殊到一般的归纳推理建立起来的知识是不确定的,只有解决了度量不确定性的归纳推理建立起来的知识是不
5、确定的,只有解决了度量不确定性的问题,才能利用归纳法得到真正有用的知识:的问题,才能利用归纳法得到真正有用的知识:不确定的知识不确定的知识+不确定性的度量不确定性的度量=有用的知识有用的知识数理统计正是研究这样一种新的逻辑思维方法的一种科学也数理统计正是研究这样一种新的逻辑思维方法的一种科学也就是说,数理统计不仅给出结论,还给出结论的不确定性的准就是说,数理统计不仅给出结论,还给出结论的不确定性的准确度量确度量 今后,我们把观测到的有关事实叫做数据用传统的语言说,数理统计学就是关于数量信息的收集、整理和分析的学科严格地说,数理统计学就是应用概率论的理论严格地说,数理统计学就是应用概率论的理论,
6、从实际观察资料出发从实际观察资料出发,对随机现象所蕴含的内部规律进行分析及推断的一门学科对随机现象所蕴含的内部规律进行分析及推断的一门学科基本任务:基本任务:研究如何有效地收集、整理和分析受随机因素影研究如何有效地收集、整理和分析受随机因素影响的数据响的数据,并对所考察的问题做出推断和预测并对所考察的问题做出推断和预测,直直至为采取决策和行为提供建议和依据至为采取决策和行为提供建议和依据在今天高度复杂的世界里,数理统计变得越来越重要了。即使作为一个普通公民,在很多方面,从经济状况到判断一种牙膏的好坏,都会受到大量数字的困扰,如果不具有一定的统计学知识,很难做出明智的决定如果你在接受高的教育,学
7、习政治,经济,商业,保险,金融,广告,或者是物理,化学,医学,卫生,等等,你会发现统计学是多么重要 二二.数理统计学的基本内容数理统计学的基本内容1.试验的设计与研究试验的设计与研究以获得局部的有代表性的数据以获得局部的有代表性的数据2.统计推断统计推断利用有限的信息利用有限的信息,以一定的可靠程度对整体进以一定的可靠程度对整体进行推断行推断6.1 总体、样本和统计量总体、样本和统计量一一.总体和样本总体和样本ch6 抽样分布抽样分布考察下面这些问题中的研究对象:考察下面这些问题中的研究对象:(l)、某地区高中学生的身高发育情况;、某地区高中学生的身高发育情况;(2)、袁隆平新水稻品种的亩产量
8、;、袁隆平新水稻品种的亩产量;(3)、某班学生的数学学习成绩;、某班学生的数学学习成绩;(4)、中国人口状况;、中国人口状况;(5)、姚明的技术水平、姚明的技术水平(投篮,三分球,命中率,篮板等投篮,三分球,命中率,篮板等);(6)、学习成绩与性别的关系:、学习成绩与性别的关系:(7)、红楼梦前、红楼梦前80回与后回与后40回的用字、用词、用句差异;回的用字、用词、用句差异;(8)、某个厂所生产的电子元件的寿命;、某个厂所生产的电子元件的寿命;1.总体总体总体总体(母体母体):具有某一特征的研究对象的全体所构成的集合具有某一特征的研究对象的全体所构成的集合个体个体:组成总体的各个成员组成总体的
9、各个成员总体可以是动物,植物,岩石,股票,商品,试验数据,书本,人口等等。总体容量总体容量:总体中包含的个体总数目总体中包含的个体总数目总体的数学描述:我们可以注意到,总体的每个个体都会相联系着一个或几个数字或具体特征总体的每个个体都会相联系着一个或几个数字或具体特征。我们感兴趣的也正是这些数字或特征。有时候我们把不同特征也用不同的数字表示。所以我们用一个字母来表示总体例如用例如用X表示袁隆平新水稻品种的亩产量如果表示袁隆平新水稻品种的亩产量如果X的取值是一个定值,那么我们只要种一块试验田,就可以得出全部信息,不需要归的取值是一个定值,那么我们只要种一块试验田,就可以得出全部信息,不需要归纳推
10、理,也就不需要数理统计了纳推理,也就不需要数理统计了事实上,只要总体不只有一个个体,X的取值就不只一个任意作一次实验、观测或测量,可以看到X可能取这样的值,也可能取那样的值所以我们应该把所以我们应该把X看作是一个随机变量看作是一个随机变量当然,如果我们知道这个随机变量的分布,也不需要用再去种实验田、调查数据、研究袁隆平新水稻品种的亩产量了,因为其特性我们已经完全了解了 所以,在数理统计中,我们把研究对象全体叫做总体,并且抽象地将总体看在数理统计中,我们把研究对象全体叫做总体,并且抽象地将总体看作是一个随机变量或随机向量,用大些英文字母作是一个随机变量或随机向量,用大些英文字母X,Y,Z等表示等
11、表示数理统计的一个基本前提是:总体分布未知 数理统计的基本任务就是搞清楚总体的概率分布但是,利用有限的信息得出的结论总是会出错的,所以我们实际上是要搞清楚它的各种可能的分布,及其相应的可能性大小 2.样本样本要想搞清楚总体的分布,我们会遇到种种困难,例如:(1)、不可能把每个个体的特征都记录研究;(2)、不可能收集到所有数据;(3)、即使可能收集到所有数据,但是要花费大量的财力物力;等等数理统计正是处理上面遇到的窘境的理想手段。所以,数理统计第一步,就是收集数据。从总体中抽取一部分个体出来,叫做一个样本这个过程叫做抽样样本样本:从总体中抽取部分个体所组成的集合。从总体中抽取部分个体所组成的集合
12、。样本容量样本容量:样样本中包含的个体总数目。本中包含的个体总数目。抽取样本的目的是希望通过较少的数据来推断总体的性质。但是,我们总是测量每个个体相应的数量指标和特征并作为一条记录所以今后把测得的数据全体叫做样本。(1).代表性代表性:每个每个Xi与与X同分布同分布(2).独立性独立性:X1,X2,Xn相互独立相互独立样本要有代表性,它应该是总体的一个“雏型”。我们不能用特定的部分个体做样本,那叫报喜不报忧,或者叫弄虚作假。统计最忌讳弄虚作假。所以,容量为n的样本会取到什么值,应该是随机的,即应该是一个随机变量或随机向量因此我们用(X1,X2,Xn)表示表示,n是是样本容量。样本容量。当一次抽
13、样结束后,我们就得到了n个具体观测值,相应地记为(x1,x2,xn),叫做样本观测值 那么怎样得到一个有代表性的样本呢?一个基本的原则是,在抽取样本时,总体中的每一个个体都有相同的机会被取到特别地,我们所使用的样本(X1,X2,Xn)是满足下面条件的样本,叫做简单随机样本:今后我们用到的样本如无特别说明,都是简单随机样本 3.联合联合概率分布若X1,X2,Xn是抽自总体X的一个简单样本(1)若总体若总体X的分布列为的分布列为pi=P(X=ai),i=1,2,,则样本的联合分布列为,则样本的联合分布列为P(X1=x1,X2=x2,Xn=xn)=P(X1=x1)P(X2=x2)P P(Xn=xn)
14、(2)若总体若总体X的密度函数为的密度函数为p(x),则样,则样本的联合密度函数为:本的联合密度函数为:p(x1,x2,xn)=p(x1)p(x2)p(xn)(3)若总体X的分布函数为F(x),则样本的联合分布函数为:F(x1,x2,xn)=F(x1)F(x2)F(xn)二二.统计量统计量 样本来自总体,包含了总体分布的信息但是我们有时候只对总体某方面的信息感兴趣,这时就需要对样本进行加工处理,从样本提取出我们感兴趣的总体信息一个重要的方法就是构造统计量直观上看,统计量就是把本来是多元随机变量的样本进行压缩后的一个一元随机变量。定义定义 设X1,X2,Xn是抽自总体X的一个样本,T(X1,X2
15、,Xn)是X1,X2,Xn 的不含未知参数的n元实函数,则 称T=T(X1,X2,Xn)为一个统计量统计量。称如此得到的实数t=T(x1,x2,xn)为统计量统计量T的观察值的观察值。注:统计量是样本的函数,因此是一个随机变量,统计量的分布称为抽抽样分布样分布.比如比如T1=X1+X2+XnT2=(X1+5)/nT3=2X2+(是未知参数)是未知参数)所以给定一个样本,可以有无数的统计量我们要有目的地构造统计量,而且要通过统计量性质来对总体进行研究。下面先介绍几个常用的统计量统计量用大写字母表示,用相应的小写字母表示统计量的观测值2.几个常用统计量几个常用统计量I.样本均值样本均值:II.样本
16、方差样本方差:III.样本标准差样本标准差:IV.样本样本k阶原点矩阶原点矩:V.顺序统计量顺序统计量:设设(X1,X2,Xn)是来自总体是来自总体X的一个样本的一个样本,每每当样本得到一组观察值当样本得到一组观察值x1,x2,xn,将其按从将其按从小到大的次序排列为小到大的次序排列为x(1),x(2),x(n)第第k个值个值x(k)作为作为X(k)的观察值的观察值,则则X(k)(k=1,2,n)均为统计量均为统计量,统称为统称为顺序统计量顺序统计量X(1)为为最小项统计量最小项统计量;X(n)为为最大项统计量最大项统计量样本中位数:样本中位数:样本极差:样本极差:.样本协方差和相关系数样本协
17、方差:样本相关系数:二维总体(X,Y),样本(X1,Y1),(Xn,Yn),设总体设总体X的期望的期望EX=,方差方差DX=2则则 1)3.和和 的数字特征的数字特征上式表明,样本均值X有这样的性质:其观测值以总体期望 为中心,波动方差2/n。也就是说,样本容量越大,X的方差的方差就越小,就越向总体期望就越小,就越向总体期望集中。所以,我们用集中。所以,我们用 X的观测值来估计总体期望的观测值来估计总体期望 是合理的,X把样本中关于 的信息提取出来了。那么,还会不会有比它更好的统计量能更有效地提取 的信息呢?或者说,X是否已经充分地提取了样本中关于 的信息呢?我们在后面会讨论这个问题。2)令令称为修正的样本方差称为修正的样本方差称为修正的样本标准差称为修正的样本标准差作业:P212,习题六的第1题2.利用EXCEL或MATLAB或你所熟悉的软件,生成来自于指数分布总体e(1)的容量为10的样本。(提示:先生成标准均匀分布的随机数,然后再利用课本76页均匀分布的特殊性进行变换。)