《统计数据的搜集和整理课件.ppt》由会员分享,可在线阅读,更多相关《统计数据的搜集和整理课件.ppt(42页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计数据的搜集和整理第1页,此课件共42页哦2.1.1统计数据的不齐性统计数据的不齐性1.数据的变异性数据的变异性 生物科学研究中的数据千差万别,各不相同,即存生物科学研究中的数据千差万别,各不相同,即存在着变异。在着变异。变异变异是生物试验数据的共同特点和基本特征。是生物试验数据的共同特点和基本特征。2.1 总体和样本数据数据(data):在生物科学试验或调查过程中,对研究对象在生物科学试验或调查过程中,对研究对象的某些特征或性状进行观察记载得到的数字资料。的某些特征或性状进行观察记载得到的数字资料。第2页,此课件共42页哦2.1.1统计数据的不齐性统计数据的不齐性2.数据的趋中性数据的趋中
2、性:同一种生物品种同一性状的观测数据在其平均数两同一种生物品种同一性状的观测数据在其平均数两侧集中分布,距平均数越近,分布的越多,距平均数侧集中分布,距平均数越近,分布的越多,距平均数越远,分布的越少。越远,分布的越少。第3页,此课件共42页哦2.1.2变数和变量变数和变量1.变数(变数(variable)凡是其观测值具有凡是其观测值具有变异的特征变异的特征或性状称为变数。或性状称为变数。例如,研究对象是农作物,株高、粒重、穗长、穗粒数、例如,研究对象是农作物,株高、粒重、穗长、穗粒数、产量都是变数产量都是变数表示方法:用表示方法:用X表示,多个变数则用表示,多个变数则用X、Y、Z、等等表示表
3、示第4页,此课件共42页哦2.变量(变量(Variate)变数的每一个具体值或观测值。变数的每一个具体值或观测值。表示方法:对表示方法:对n个个体就其个个体就其X变数进行观测,可得变数进行观测,可得到到n个变量或观测值,可用个变量或观测值,可用X1、X2、Xn表示。表示。Xi:X变数的某个变量或观测值,变数的某个变量或观测值,i代表代表1到到n中的任何一个。中的任何一个。第5页,此课件共42页哦2.1.3、总体和样本、总体和样本1.总体(总体(Population)整个研究对象中每一个个体某一变数观测值的集合。整个研究对象中每一个个体某一变数观测值的集合。总体中的每一个数据或个体叫总体单位总体
4、中的每一个数据或个体叫总体单位总体中的个体数叫总体单位数(总体容量),用总体中的个体数叫总体单位数(总体容量),用N表示表示总体根据总体单位数目可分为总体根据总体单位数目可分为无限总体无限总体和和有限总体有限总体第6页,此课件共42页哦2.1.3总体和样本总体和样本2.样本(样本(sample)总体中的一部分,样本中包含的个体数目称为样总体中的一部分,样本中包含的个体数目称为样本含量(本含量(sample size)第7页,此课件共42页哦2.1.4抽样抽样1.抽样抽样(sampling)从总体中获得样本的过程。从总体中获得样本的过程。目的:是希望通过对样本的研究,推断其总体目的:是希望通过对
5、样本的研究,推断其总体方法:随机抽样方法:随机抽样(random sampling),例如,抽签、,例如,抽签、拈阄等拈阄等 第8页,此课件共42页哦2.1.4抽样抽样从一有限总体中抽样,可分为:从一有限总体中抽样,可分为:放回式抽样放回式抽样(sampling with replacement):从总体中:从总体中抽出一个样本,记下它的特征后,放回总体中,再抽出一个样本,记下它的特征后,放回总体中,再做第二次抽样。做第二次抽样。非放回式抽样非放回式抽样(sampling without replacement):从总体:从总体中抽出个体后,不再放回。中抽出个体后,不再放回。第9页,此课件共4
6、2页哦2.2数据类型及频数(率)分布数据类型及频数(率)分布2.2.1连续型数据和离散性数据连续型数据和离散性数据2.2.2频数(率)表和图的编绘频数(率)表和图的编绘第10页,此课件共42页哦2.2.1连续型数据和离散性数据连续型数据和离散性数据1.连续型数据(连续型数据(continuous data)与某种标准做比较所得到的数据,又称为度量数与某种标准做比较所得到的数据,又称为度量数据(据(measurement data)变量的方法(变量的方法(measurement data)第11页,此课件共42页哦2.离散型数据(离散型数据(discrete data):):由记录不同类别个体的
7、数目所得到的数据,又称为由记录不同类别个体的数目所得到的数据,又称为计数数据(计数数据(count data)属性的方法(属性的方法(method of attribute)第12页,此课件共42页哦2.2.2频数(率)表和图的编绘频数(率)表和图的编绘 在判断数据的类型后,就要进一步研究数据的变在判断数据的类型后,就要进一步研究数据的变化规律。描述数据变化规律的最简单方法是将这些数化规律。描述数据变化规律的最简单方法是将这些数据列成据列成频数表频数表或绘成或绘成频数图频数图,根据频数分布进行研究。,根据频数分布进行研究。第13页,此课件共42页哦1.1.单项式分组单项式分组单项式分组单项式分
8、组:适用于变异范围不大的离散型数据和质:适用于变异范围不大的离散型数据和质量性状的分组。量性状的分组。单项式分组是一个单独的数值单项式分组是一个单独的数值分组只需要计算频数,编制频数分布表分组只需要计算频数,编制频数分布表组成各组的数值就是该组的组值组成各组的数值就是该组的组值第14页,此课件共42页哦表:表:100株豫麦株豫麦9号主茎结实小穗数频数分布号主茎结实小穗数频数分布主茎结实小穗数主茎结实小穗数频数频数频率()频率()164417991819191932322021212112122233合计合计100100第15页,此课件共42页哦表表 某玉米杂交组合某玉米杂交组合F2代两对性状的
9、分离代两对性状的分离性状性状次数次数相对次数()相对次数()黄色非甜黄色非甜85056.16黄色甜粒黄色甜粒28218.61白色非甜白色非甜28718.94白色甜粒白色甜粒966.34合计合计1515100.00第16页,此课件共42页哦2.组限式分组组限式分组组限式分组组限式分组:将连续型数据或变异范围较大的离散型数据,:将连续型数据或变异范围较大的离散型数据,按照一定的数值距离,进行分组的方法按照一定的数值距离,进行分组的方法(1)计算全距计算全距全距(极差),用全距(极差),用R表示。表示。等于资料中的最大值于最小值的差等于资料中的最大值于最小值的差第17页,此课件共42页哦例1表1.2
10、 某小麦杂交组合F2代100株的株高8788111105917370929894999198110989083979288869410299891049494929687949286102887590908084918294991029196949485888083816995809792961099180809410280869190838491879576909177103898885959210492958386818691898396867592第18页,此课件共42页哦(2)确定组数和组距确定组数和组距1).确定组数:分组的公式:确定组数:分组的公式:组数组数13.3lgn(n:样本
11、:样本单位数)单位数)组数的范围:组数的范围:630之间,一般应在之间,一般应在15组左右,视样本单组左右,视样本单位数而定位数而定组数多少也可根据样本单位数组数多少也可根据样本单位数n,查表确定。,查表确定。表1.3 按样本单位数确定组数的参考标准样本单位数406060100100200200500500以上应分组数687109121530第19页,此课件共42页哦2 2)确定组距:)确定组距:组距全距组距全距组数组数也可用也可用标准差标准差的的1/21/21/31/3作为组距作为组距由于分组阶段,由于分组阶段,不知道可以通过不知道可以通过R R(全距)加以计算(全距)加以计算组数组数13.
12、3lgn 13.3lg1007.6 8组距全距组距全距组数组数42 85.25cm利用一个与其接近且方便的值,组距定为利用一个与其接近且方便的值,组距定为5cm表1.4 样本单位数不同时全距相当于总体标准差的倍数样本单位数20305070100150R/3.74.14.54.85.05.3样本单位数2003004005001000R/5.55.85.96.16.5第20页,此课件共42页哦(3)确定组限确定组限 组限是各组的界限,即每组的两个极端数,一个组的最组限是各组的界限,即每组的两个极端数,一个组的最大值为大值为组上限组上限,最小值为,最小值为组下限组下限。组限应从最低一组定起组限应从最
13、低一组定起最低一组的组下限要小于资料中的最小值最低一组的组下限要小于资料中的最小值最低一组的组下限加上最低一组的组下限加上1/2组距后接近资料中的最组距后接近资料中的最小值小值最高一组的组上限要大于资料中的最大值最高一组的组上限要大于资料中的最大值最高一组的组上限减去最高一组的组上限减去1/2组距后接近资料中的最组距后接近资料中的最大值。大值。第21页,此课件共42页哦(4)(4)计算频数计算频数 计算各组频数可用划记法,可用计算各组频数可用划记法,可用“正正”字划记,便字划记,便于计算。于计算。表表 100株小麦株高划记计算次数株小麦株高划记计算次数10正正正正(7)97.5102.4918
14、正正正正正正(6)92.597.493(9)107.5112.494(8)102.5107.4930正正正正正正正正正正正正(5)87.592.4918正正正正正正(4)82.587.4910正正正正(3)77.582.495正正(2)72.577.492(1)67.572.49频数频数划记划记组限(组限(cm)第22页,此课件共42页哦(5)(5)编制频数分布表编制频数分布表 各组次数计算出后,将各组的组限、组中值、次各组次数计算出后,将各组的组限、组中值、次数以及相对次数一起归入表格,即为频数分布表。数以及相对次数一起归入表格,即为频数分布表。组中值组上限组下限组中值组上限组下限/2各组的
15、频率()各组的频数各组的频率()各组的频数100/总频数总频数第23页,此课件共42页哦表表 100100株小麦株高频数(率)表株小麦株高频数(率)表组限(组限(cm)组中值(组中值(cm)频数频数频率()频率()67.572.49702272.577.49755577.582.4980101082.587.4985181887.592.4990303092.597.4995181897.5102.491001010102.5107.4910544107.5112.4911033合合 计计100100第24页,此课件共42页哦3.3.三种最常用的频数图三种最常用的频数图(1)直方图直方图(hi
16、stogram)频数(率)直方频数(率)直方图图横轴:横轴:各组的组界各组的组界 纵轴:纵轴:频数(率)频数(率)以以每一组的组界每一组的组界为为一个边,一个边,相应的频相应的频数(率)数(率)为另一个为另一个边,作矩形边,作矩形第25页,此课件共42页哦(2)(2)多边形图多边形图多边形图(多边形图(polygon)横轴:横轴:组中值组中值 纵轴:纵轴:频数频数(率)(率)在坐标平面内,标出在坐标平面内,标出相应的点,以中值为相应的点,以中值为横坐标,以该中值对横坐标,以该中值对应的频数(率)为纵应的频数(率)为纵坐标,用线段连接各坐标,用线段连接各点点第26页,此课件共42页哦(3)(3)
17、累积频数图累积频数图(cumulative frequency graph)根据频数(率)表制成累积频数表根据频数(率)表制成累积频数表横轴:横轴:组中值组中值 纵轴:纵轴:累积频数(率)累积频数(率)组中值(组中值(cm)累积频数累积频数70275780178535906595831009310597110100第27页,此课件共42页哦4.研究频数(率)分布的意义研究频数(率)分布的意义 根据编绘的频数(率)图,可以明显地看出数据的根据编绘的频数(率)图,可以明显地看出数据的三个三个重要特征重要特征。数据的集中情况数据的集中情况直观地看出数据的变异情况直观地看出数据的变异情况数据是集中在平
18、均数附近,还是分散在平均数两侧数据是集中在平均数附近,还是分散在平均数两侧图形的形状图形的形状 此外,还可以显示一些不规则的情况。此时,需要认真此外,还可以显示一些不规则的情况。此时,需要认真研究,尽可能找出原因。研究,尽可能找出原因。第28页,此课件共42页哦2.3样本的几个特征数样本的几个特征数2.3.1平均数(平均数(mean)1.算术平均数算术平均数 资料中各观测值的总和除以观测值个数所得的商。资料中各观测值的总和除以观测值个数所得的商。总体:总体:样本:样本:第29页,此课件共42页哦2.加权算术平均数加权算术平均数 适用于已分组的数据适用于已分组的数据总体:总体:组值。组值。频数,
19、频数,N总频数,总频数,k组数,组数,和和相乘相乘样本:样本:第30页,此课件共42页哦3.几何平均数几何平均数 几何平均数几何平均数G是是n个数值积的个数值积的n次方根。几何平均数次方根。几何平均数主要用来计算平均增长率。主要用来计算平均增长率。(1)几何平均数的计算几何平均数的计算此外,如果数据的变异成倍性关系,则几何平均数更适此外,如果数据的变异成倍性关系,则几何平均数更适合于说明数据的典型水平。合于说明数据的典型水平。(2)平均增长率的计算平均增长率的计算第31页,此课件共42页哦 此外,平均数还有:此外,平均数还有:调和平均数调和平均数H:是各观测值的算术平均数的倒数,主:是各观测值
20、的算术平均数的倒数,主要用于计算平均速度。要用于计算平均速度。中位数中位数:排列在中间位置的数值。:排列在中间位置的数值。众数众数Mo:是资料中出现次数最多的数值。:是资料中出现次数最多的数值。中位数和众数是地位平均数,不受极端观测值的中位数和众数是地位平均数,不受极端观测值的影响,计算简便,又可用于开口的次数分布。但其数影响,计算简便,又可用于开口的次数分布。但其数理基础不够健全,又不能利用全部数据提供的信息,理基础不够健全,又不能利用全部数据提供的信息,所以应用范围比较狭窄。所以应用范围比较狭窄。第32页,此课件共42页哦2.3.2变异数变异数1.极差极差极差(全距),用极差(全距),用R
21、表示。表示。等于资料中的最大值于最小值的差等于资料中的最大值于最小值的差,n10时适用时适用 例如,有五个数:例如,有五个数:96.4、96.6、97.2、97.4、97.8(ml)R=97.896.41.4ml极差表达变异的方法最简单,但也极差表达变异的方法最简单,但也最容易受远离数最容易受远离数群的一个数的影响群的一个数的影响。而且也很难解释而且也很难解释一个个别的数与平均数之间的关系一个个别的数与平均数之间的关系。第33页,此课件共42页哦2.标准差标准差(1)方差:离均差平方和的平均数方差:离均差平方和的平均数 方差的定义公式方差的定义公式总体总体样本,当样本,当n 30时,可用时,可
22、用n代替代替n-1(自由度,(自由度,df/v)自由度的统计意义是样本内自由度的统计意义是样本内独立而能自由变动的观测值独立而能自由变动的观测值个数个数第34页,此课件共42页哦 (2)标准差:方差的算术平方根。标准差:方差的算术平方根。定义公式:定义公式:总体总体样本样本离差平方和(离差平方和(sum of square of deviations)第35页,此课件共42页哦(3)标准差的计算标准差的计算 不分组数据(非频数资料)标准差的计算,计算公式为:不分组数据(非频数资料)标准差的计算,计算公式为:总体总体样本样本第36页,此课件共42页哦例:从两个小区分别随机抽取例:从两个小区分别随
23、机抽取10株小麦,测其单穗株小麦,测其单穗粒数,结果如下表,计算粒数,结果如下表,计算标准差标准差。IIIxx2 xx2 266762878425625309002352929841235292144126676224842562524576245762772926676266762878425625277292562525364252576681解:将表中数据代入公解:将表中数据代入公式,得:式,得:s1 1.63s2 2.91第37页,此课件共42页哦分组数据标准差的计算分组数据标准差的计算 由于分组数据(频数资料)一般都是大样本,所以总由于分组数据(频数资料)一般都是大样本,所以总体和样
24、本标准差的计算公式完全一样,为:体和样本标准差的计算公式完全一样,为:其中,其中,f=频数,频数,x=组值,组值,N=总频数,总频数,k=组数组数第38页,此课件共42页哦xX2 ffxf X21625646410241728991532601183241934261561936132608115522040021420840021441122525292224843661452合计合计100190536480第39页,此课件共42页哦3.变异系数变异系数(1)变异系数变异系数(coefficient of variability,CV):是标准差):是标准差与平均数的比值,用百分数表示。与平
25、均数的比值,用百分数表示。第40页,此课件共42页哦(2)引进变异系数的必要性:引进变异系数的必要性:标准差可用来度量标准差可用来度量样本的变异程度样本的变异程度,但也有一定的局限,但也有一定的局限性。性。l受受度量单位制约度量单位制约,不同性状的变异程度不能用标准,不同性状的变异程度不能用标准差进行比较差进行比较l同一性状的变异程度要受到同一性状的变异程度要受到平均数大小平均数大小的制约。的制约。第41页,此课件共42页哦例,现有小麦品种例,现有小麦品种A和和B,它们株高的平均数和标准差,它们株高的平均数和标准差分别为:分别为:A=120/5.0,B=70+/4.0。比较。比较A和和B的变的变异程度?异程度?解:把以上数据代入下面公式,得:解:把以上数据代入下面公式,得:CVA=0.042和和CVB=0.057 虽然虽然B品种的标准差小于品种的标准差小于A品种的标准差,但其变异品种的标准差,但其变异系数却大于系数却大于A,说明,说明B不如不如A整齐。整齐。第42页,此课件共42页哦