《第4章概率分布及应用.课件电子教案教学教程.pptx》由会员分享,可在线阅读,更多相关《第4章概率分布及应用.课件电子教案教学教程.pptx(75页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1体育统计方法与实例体育统计方法与实例高等教育出版社高等教育出版社第4章 概率分布及应用4.1概率的基本知识学习目标目标1 了解随机现象和随机试验的概念目标2 掌握随机事件和随机事件概率的定义目标3 理解小概率事件原则4.1.1 随机现象、随机试验与随机事件随机现象日常生活中,有许多事件在一定的条件下必然会发生。例如,在标准大气压下,水加热到100时必然会产生沸腾。这种在一定条件下必然发生的现象,叫做必然现象。由必然现象产生的结果叫做必然事件。上例中,水的沸腾就是必然事件。除了必然现象以外,在生活中还存在随机现象。如:足球运动员在罚点球时,无法预知自己能否将此球罚进,也就是说,此球有可能进,也
2、有可能不进。同样的还有在奥运会篮球决赛中,到底谁会赢得最后的胜利,结果都是未知的。像这种在一定条件下可能发生或不可能发生的现象称为随机现象。随机试验与随机事件对于随机现象的一次观察可以看做是一次实验,这样的实验称为随机试验。随机试验具有三个特点:(1)可以在相同条件下重复的进行。(2)每次实验的可能结果不止一个,但实验的所有可能结果在试验之前是确切知道的。(3)在实验结束前,不能够确定该次试验的确切结果。具有上面特点的随机试验产生的结果就称为随机事件,简称事件。在体育世界中存在着大量的随机事件。4.1.2 随机事件的概率4.2 离散型随机变量的概率分布学习目标目标1 了解随机变量的概念目标2
3、熟悉随机变量的概率分布4.2.1 随机变量在体育科学研究的社会调查中,研究工作主要是依赖于某个样本数据,而这些样本数据通常是由某个变量的一个或多个观测值所组成。比如,调查100个健身爱好者,考察他们对健身项目的偏好,并记录下喜欢慢跑的人数X;调查一个健身俱乐部,记录下每个会员在此的消费金额X,等等。这样的观察也就是前面所说的试验。由于记录某次试验结果时事先并不知道X的取值,因此X就被称为随机变量。换句话说,某次试验结果的数值性描述,称为随机变量。随机变量用数值来描述的特定试验一切可能出现的结果,它的取值事先不能确定,具有随机性。例如篮球比赛中的罚篮,其结果就是一个随机变量,因为在罚球之前并不知
4、道球是否会进,若用1表示进,0表示未进,则随机变量的取值可能是1,也可能是0。根据随机变量的取值的不同,又可以进一步将其为两大类,分别是离散型随机变量和连续型随机变量。(严格意义上来讲,随机变量应分为离散型随机变量和非离散型随机变量,但后者范围太广,其中最重要最常见的就是连续型随机变量)4.2.2离散型随机变量的概率分布只能取有限个或可数个值的随机变量,称为离散型随机变量。例如,在100个健身爱好者组成的调查样本中,喜欢慢跑的人数X只能取0,1,2,100这些数值之一,所以称X为离散型随机变量。多数情况下,试验结果是可以直接用数值来描述的,但也有一些试验结果本身体现为某种非数值的属性,比如,一
5、个运动员的性别,结果有两个即男或女,这时可以用数字代码来表示,分别用1和0代表男性和女性,这种定义的数值没有实质性大小含义,数值与试验结果的对应也是随意的。列出随机变量X的所有可能取值x1,x2,以及取每个值的概率p1,p2,,并用表格的形式表现出来,就称为离散型随机变量的概率分布。离散型随机变量的概率分布可以用下表4-2-2的形式表示出来。P(X=xi)=pi(i=1,2,)也称为概率函数。将X取某个值的概率记作pi,离散型概率分布具有以下性质:1)pi0 ;2)p1+p2+p3+pi=1。表表4-2-2离散型随机变量概率分布离散型随机变量概率分布例4-2-1 在一次篮球比赛中,甲方进攻时被
6、乙方侵犯,裁判员判罚乙方犯规并让甲方罚篮两次,求出甲方两次罚篮所得分数的概率分布。(每罚进一球可得一分,共罚球两次)例4-2-1 在一次篮球比赛中,甲方进攻时被乙方侵犯,裁判员判罚乙方犯规并让甲方罚篮两次,求出甲方两次罚篮所得分数的概率分布。(每罚进一球可得一分,共罚球两次)根据罚篮结果可知甲方罚篮会出现三种结果即两罚不进;两罚中一;两罚全中;依据以上三种情况可知得分的情况分别会是0分、1分、2分,由此可得到相应的概率分布,见下表4-2-3:表表4-2-3罚篮两次所得分数的概率分布罚篮两次所得分数的概率分布掌握随机变量概率分布的好处就是只要确知一个随机变量的概率分布,并用一定的公式表达出来,就
7、能根据这一分布计算出随机变量的任意一个取值的概率。一般常用的离散型概率分布包括两点分布、二项分布、泊松分布和超几何概率分布。4.2.3 二项分布最简单的随机试验是只有两种可能结果的试验,称之为伯努利试验。例如抛掷一枚硬币,只会出现正面朝上或正面朝下的两种情况中的一种。一般地,把两个试验结果分布看作是“成功”和“失败”,用数值“1”和“0”表示,若定义一次伯努利试验成功的次数为离散型随机变量X,则它的概率分布就是最简单的一个分布类型,即两点分布,亦称伯努利分布。 若将伯努利试验独立的重复n次,n是一个固定数值,则该试验称为n重伯努利试验。具体来说,n重伯努利试验满足能够满足下列条件: 1)一次试
8、验只有两种可能结果,“成功”或“失败”,两种结果必须互斥。2)一次试验“成功”的概率为p,“失败”的概率为q=1-p,而且概率p对每次实验都是相同的。3)试验是相互独立的。4)试验可以重复n次。5)在n次试验中,“成功”的次数对应一个离散型随机变量,用X表示。这样,在n次试验中,出现“成功”的次数的概率分布就是二项分布。 例例4-2-2 已知一批某品牌的羽毛球拍的次品率为2%,从中有放回的抽取5个来检验。求5个产品中:1)没有次品的概率;2)恰好有1个次品的概率;3)有3个以下次品的概率。 例例4-2-2 已知一批某品牌的羽毛球拍的次品率为2%,从中有放回的抽取5个来检验。求5个产品中:1)没
9、有次品的概率;2)恰好有1个次品的概率;3)有3个以下次品的概率。解:抽取一个产品相当于一次试验,因此n=5。由于是有放回地抽取,所以每次实验是独立的,每次抽取的次品率都是4%。假设X为抽取的次数,显然XB(n,p)。根据公式可得1)P(X=0)=C50(0.02)0(1-0.02)5-0=0.903920802) P(X=1)=C51(0.02)1(1-0.02)5-1=0.092236823) P(X3)=P(X=0)+P(X=1)+P(X=2)=0.99992239当实验次数n偏大时,随机变量取不同值的概率计算会变得很繁琐,不过人们已经总结出n重伯努利试验的概率表格,只要知道n和p的值,
10、就可以查到对应的概率值。4.3 连续型随机变量的概率分布学习目标目标1 掌握正态分布的性质目标2 熟悉正态分布的检验方法离散型随机变量的概率分布,只能取有限个或可数个值的随机变量。而连续型随机变量与离散型随机变量本质的不同就在于前者在某一区间的取值可以是无限的,不可数的。如某体操运动员在完成动作后的得分,在理论上可以取整个区间内的任意得分。对于一个离散型随机变量,可以计算其某一特定取值的概率,而对于一个连续型随机变量,计算其特点取值的概率是无任何意义的,也是不可能实现的,必须在某一区间内考虑相应的概率问题。连续型概率分布是用于描述连续型随机变量在不同范围内取值的概率大小的,主要是通过概率密度函
11、数进行描述的。而概率密度函数只是给出了连续型随机变量某一特定值的函数值,这一函数值不是真正意义上的取值概率,连续型随机变量在给定区间内取值的概率对应的是概率密度函数曲线(或直线)在该区间上围成的面积。其中,常见的连续型概率分布有正态分布、均匀分布和指数分布,特别是正态分布,它在概率论中具有十分重要的意义,在体育统计推断中也具有非常广泛的应用,如方差分析等,因此本节主要介绍正态分布的理论基础和应用方法。4.3.1 正态分布及其性质 正态分布最初是由C.F.高斯(Carl Friedrich Gauss,1777-1855)作为描述误差相对频数分布的模型而提出的。令人惊讶的是,这条曲线竟然为许多不
12、同领域的数据的相对频数提供了一个恰当的模型,因而得到了广泛的应用。在现实生活中,有许多现象都可以由正态分布来描述,其他一些分布也可以用正态分布做近似计算,而且由正态分布还可以导出其他一些重要的分布,如t分布、F分布等。 频数分布直方图通常是一个中间高、两边低、近似对称的图形。如果样本含量不断的增大,组间距不断变小,分组数越来越多时,其频数分布直方图的阶梯逐渐接近;最后当样本量n趋向于,组间距I趋向于0时,可形成一条光滑的钟形曲线,这种中间隆起,对称的向两边下降的曲线,称为正态曲线。如图4-3-1所示。图4-3-1 正态分布曲线4.3.2 标准正态分布和非标准正态分布在进行统计工作时,人们都希望
13、能以最简捷、最方便的方式利用正态分布来解决一些实际问题。而从正态分布的概率密度函数来看,不同的均值和标准差的取值就会使得函数不同,意味着在不同的情况下要获取正态曲线下某区间的概率会很麻烦。为了能够有一个统一的方式利用正态分布,减少使用过程中的麻烦,因而把不同参数的正态分布改造成标准正态分布。实际上,通过变量的代换,就使得转换后的函数中的均值变为0,标准差变为1。这样就能使任何变量的正态分布,其均数和标准差不管是否相同,都能够转化为标准正态分布。然而在具体的研究工作中,我们一般都是以样本的资料作为基础,往往难以获得总体的均数和标准差,所以在变量的标准化时,常常以样本的均数和标准差代替总体的均数和
14、样本差,这是一种近似的处理办法。如果把这个曲线进行从左到右无穷分割成无数个近似矩形,那么实际上曲线下方的面积也就是由这无穷个矩形面积相加而成的,而每一个矩形面积代表了z变量在这区间取值个数所占有的比例,所有的比例值加起来也正好等于1,所以曲线下方的面积为1,代表了概率。比如,取值于-1.96和1.96之间的概率是0.95,取值于-2.58和2.58之间的概率是99%。实际上这个曲线下方的面积已经得到充分的研究。4.3.3 正态分布检验 科学研究是一个严谨的过程,特别是在统计方法的应用上更要严谨的对待,而不应随意的看待数据的统计。但是在实际生活中发现许多的毕业论文和期刊论文中在使用统计分析时,忽
15、略了数据是否呈正态分布的问题,假如资料数据为非正态分布,那么以正态分布为基础的统计方法的使用便是错误的使用,因此得出的统计学结果也是不可靠的。所以,在大费周章的收集资料后,为了使研究结果更具有科学性,要保证研究中的每个步骤都要严谨和正确的对待。因此,在具体的数据统计分析之前还要检验数据样本是否来自正态分布的总体,然后根据具体的结果选择合理的统计学方法。一般常用的正态分布检验有D检验、峰度和偏度检验、 检验、Kolmogorov-Smirnov检验(K-S检验)等,其中由于K-S检验法保证了对应的累计频率分布函数与理论分布函数只差在最大情况下的置信概率,因此,它的可靠性较好。2K-S检验的原理和
16、SPSS操作步骤。K-S检验计算方法:1)H0:总体服从正态分布2)求 和S3) 做理论频数计算表4)求检验统计量:D=max 5)确定显著性水平,查K-S表求临界值6)统计结论:当DD(n)时,拒绝H0;当D0.05,因此接受原假设H0,可以认为该省13岁男性青少年的肺活量体重指数服从正态分布。4.4 正态分布在体育中的应用学习目标目标1 熟悉正态曲线的分布规律目标2 掌握正态分布的应用 前几节内容介绍了正态分布的基础理论,理论总是来源于实践,但又指导实践活动。正态理论在现实生活中有着重要的作用,特别是在体育领域中,需要用到正态分布理论的地方非常多,例如:体育考核标准的制定、依据体育成绩进行
17、科学的评分等。本节内容以正态分布理论为基础,详细介绍正态分布在体育中的应用。通过实际案例的展示,使得读者能够清楚的认知到正态分布理论的作用。4.4.1 制定考核标准 在体育竞赛中一般都是以时间和距离来衡量比赛成绩水平的,特别是要注意以时间为衡量标准,一般时间越小越好,称为低优指标(极小型指标);而以距离为衡量标准的,距离长度越大越好,如标枪、铁饼等,这种类型的称为高优指标(极大型指标)。但是在现实生活中还有一些指标适度最好,如BMI等,称为居中型指标。因此在考核标准制定的实际中,首先要区分成绩指标类型,再加以评分,以免产生错误。 例例4-4-1 4-4-1 已知某高校体育专业大一新生的前抛实心
18、球成绩分布服从正态分布, x=14.7米,s=0.7米。如果制定测验标准要求8%达到优秀、30%达到良好、10%不及格,其余为及格,那么优秀、良好、及格的成绩标准应该是多少?解:投掷实心球成绩服从正态分布,且以距离为衡量标准,所以距离越远则成绩越优秀。成绩优秀、良好、不及格的概率分布如下图所示:图 4-4-1 正态分布图4.4.2 估计实际分布情况例4-4-2 某全民健身活动中心,每天接待的人数x服从正态分布,其平均数=800人,标准差=150人,求:1)该健身中心每天接待人数在650-1000人之间的概率;2)该健身中心每天接待人数超过1100人的概率;3)该健身中心每天接待人数不足350人
19、的概率;4.4.3 体育评分1.标准Z分2.标准T分标准T分是在z分公式的基础上定义的,它的基本公式形式是T=C+kz(其中,C是一个选定的常数,k是一个系数,z是z分)。评价者需要确定C和系数k,如果按照百分制评分的话,则需要定义一个满分点,另外一个点可以根据需要来定义,比如z分为0时,t分为50分;或z分为-3时,T分为0分;或z分为-1时,t分为及格点60分;或要求不及格率不超过10%,这时对应的z分为-1.28,对应的t分为60分等等。这时把满分点和另外一个得分点分别代入公式,获得一个方程组。这里以田赛项目z=0,T=50;z=3,T=100两个点为例确定T分评分公式。 不管是z分还是
20、T分的评分方式都是有局限性的,这是由于T分采取的是直线评分方式,也就是说,成绩提高一个单位,分值也提高一个单位,分值的增加是均匀的。见图4-4-2。由于运动的成绩提高的难度不是直线上升的。所以这两种评分方式反映不出项目提高的难度,对于优秀运动的评定有失公平,但对于群众性的体育运动还是有其应用价值的。图4-4-2 T分直线展示图3.累进记分由于z分和T分评分方式体现不出项目的难度,为了克服这种局限性,可以采用曲线的记分方式,也就是说随着成绩的不断提高,成绩的得分应该随着项目的提高难度的增加而呈曲线上升方式。评分公式记为: ,又称为累进记分公式,用这种公式进行评分的方法称为累进记分法。 3.成绩百
21、分位评分z分、T分、累进记分都要求变量呈正态分布。在实际运用时,如果变量不呈正态分布,则不能采用以上评分方法进行评分。这时,经常采用成绩百分位方法进行评分,这种评分方法不受变量分布形态限制。所谓成绩百分位一般指不高于被测试者成绩的被试者人数占全体被试者人数的百分比。比如,某位运动员的跳远成绩为5.60m,百分位成绩为72,表示在全体被试者中有72%的受试者跳远成绩等于或低于此运动员的成绩。我们常用百分位作为原始成绩的评分方法,它反映了被受者在群体中的具体位置。具体评分可以在SPSS中实现。 例例4-4-3建立体育招生考试评分表(采用T分或累进记分方法制作项目评分表)为了便于体育评分,评价者往往
22、制定出评分表,使用者只要查看评分表就能对项目进行评分。对于群体性项目的评分,往往采用T分公式,而对于优秀运动员的评分表制定常常采用累进记分公式,以反映项目提高的难度。下面我们以一个实例,讲述运用Excel制作评分表步骤如下:测得60男生跳远样本数据(如图4-3-3所示),试运用样本制定此样本所在总体的评分表。(1)首先确定分制,即采用百分制,还是20分制;(2)确定评分距,即1分一段、2分一段还是其它;(3)运用T分公式或累进记分公式计算每一段的界限;(4)列出评分表。图4-4-3跳远成绩原始数据第一步:建立跳远成绩的Excel数据文件。图4-4-4 跳远成绩Excel数据表在B1、B2输入平
23、均数和标准差,然后在B2插入计算平均数的函数,得到平均数为5.31;在C2列插入标准差的函数,得到标准差为0.34。第二步:计算跳远成绩的平均数和标准差图图4-4-5 根据根据T分计算成绩标准分计算成绩标准 第三步,在D1列输入标题“分数段”,在E1列输入标题“评分标准”。这里我们按100制,每5分一段,在D2、D3、D4中分别输入100、95、90。T分公式采用T=50+50z/3,即把z=3时定义为100点,把z= - 3时定义为0分点。这时,得到z=(T*3-150)/50,又由于 ,则 。所以在E2列输入此公式用于计算T分所对应的成绩。见图 4-4-5所示。 输入公式以后回车后,则可以
24、得到100对应的成绩,然后点击E2右下角出现黑色十字架按着鼠标左键,下拉则可以得到每一个分值对应的成绩。图4-4-6 跳远成绩T分评分表比如,某一运动员跳远成绩为6.10m,我们可以从上表中查出此运动员的分数为85分。练习题41. 某一不透明的盒中装有10个外形一样的球,其中5个黑球,5个白球,现从中任取5球,用X表示取到的白球数,求X的概率分布列。2已知XN0,1求: (1) P(X1.35)? (2) P(X-1.78)? (3) P(-1.751.85?3已知XN0,1(1)若P(Xb)0.1515,求b=?4已知X175,52求: (1)P(180)? (3)P(175185)?5.
25、已知XN100,102 (1)若P(Xb)0.1515,求b=? 6某年级学生280人,跳远平均成绩为5.00米,标准差为0.4米,现规定4.5米及格,试估计有多少学生不及格(设跳远成绩服从正态分布)。 7某年级学生100米跑平均成绩为14.7秒,标准差为0.7秒,如果要求10%的人得优秀,30%得良好,8%不及格,问优秀、良好、及格的标准应为多少秒。8若跳高成绩服从正态分布,其平均数为1.5米,标准差为0.08米。现规定20%的学生可评优秀。问至少跳多高才能获得优秀。 9测得某年级学生跳远成绩服从正态分布,其平均数为5.0米,标准差为0.2米,(1)若要求90%的学生达到及格,问及格的标准应为多少米?(2)若成绩在4.8米至5.2米之间有50人,问参加跳远的学生有多少人?10某年龄组跳远平均成绩是3.2米,标准差是0.20米,试计算跳远成绩为3.45米和3.12米的标准T分各是多少。11某足球队进行了一次身体素质与技术测验,测试了步法移动(秒)、百米跑(秒)、垫球(个)三个项目,测试结果如下:现甲、乙、丙三人的测试成绩分别为:甲的三项成绩为:11.2,11.3,100乙的三项成绩为:11.8,11.0,90丙的三项成绩为:11.0,11.4,88试比较这三人成绩的优劣。