《第二章 统计是定义.ppt》由会员分享,可在线阅读,更多相关《第二章 统计是定义.ppt(58页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、生物统计学生物统计学BIOSTATISTIC统计的定义统计的定义 用用以以收收集集数数据据、分分析析数数据据和和由由数数据据得得出出结结论论的的一一组组概概念、原则和方法念、原则和方法。统计应用引例统计应用引例我国东部和西部的概念是一个比较笼统的概念。如何能够根据需要,选择一些指标来把各省,或各市县甚至村进行分类呢?一个从来没有研究过红楼梦的统计学家如何根据比较写作习惯得出红楼梦从哪一章节开始就不是曹雪芹的手笔了呢?生物统计学的概念生物统计学的概念生物统计学(生物统计学(biostatisticsbiostatistics):是用数):是用数理统计(理统计(mathematical stati
2、sticsmathematical statistics)的)的原理和方法来分析和解释生物界各种现象原理和方法来分析和解释生物界各种现象和试验调查资料,是研究生命过程中以样和试验调查资料,是研究生命过程中以样本来推断总体的一门学科。本来推断总体的一门学科。如何理解下面说法?如何理解下面说法?“明天降水概率为40%”“支持率为95的置信区间为(25%,30%)”“甲药物比乙药物的疗效显著”“判断某动物属于杂食偏草食动物”“该结果统计意义显著”“身高与体重有显著的相关性”统统计计的的一一个个重重要要但但又又往往往往不不易易为为人人所所理理解解的的特特点点是是统统计计从从来来不不绝绝对对地地说说“是
3、是”或者或者“不是不是”。统统计计只只能能够够说说可可能能,而而且且往往往往提提供供某某事可能发生的概率。事可能发生的概率。统统计计只只说说可可能能性性是是实实际际世世界界的的真真实实体体现。真实世界充满了不确定性。现。真实世界充满了不确定性。总体(总体(population):):具有相同性质的个体具有相同性质的个体所组成的集合称为总体,或述为研究对所组成的集合称为总体,或述为研究对象的全体。象的全体。个体(个体(individual):):组成总体的基本单元组成总体的基本单元称为个体。称为个体。总体、个体与样本总体、个体与样本总体、个体与样本总体、个体与样本样本(样本(sample):):
4、从总体中抽取的若干个体所构成的集合称为从总体中抽取的若干个体所构成的集合称为样本。它作为总体的代表,是用来估计总样本。它作为总体的代表,是用来估计总体一般特性的。体一般特性的。组成样本的每个个体叫组成样本的每个个体叫样本单元(样本单元(sample unit),样本中个体的数目称为样本中个体的数目称为样本容量(样本容量(sample size),也叫,也叫样本含量样本含量,用字母,用字母n来表示,来表示,在生物学研究中,在生物学研究中,n30的样本叫大样本,的样本叫大样本,n30的样本叫小样本。的样本叫小样本。总体与样本的关系总体与样本的关系样本是总体的缩影,统计分析的任务就是样本是总体的缩影
5、,统计分析的任务就是由样本推断总体,因此任何试验都存在由样本推断总体,因此任何试验都存在抽样问题。为使样本正确地反映总体,抽样问题。为使样本正确地反映总体,抽样时必须采用随机的方法,即随机抽抽样时必须采用随机的方法,即随机抽样。样。参数和统计数参数和统计数参数和统计数参数和统计数参数:参数:描述总体特征的数量叫参数。一般用希腊字母表示。参数是恒定不变的常量,常用希腊字母表示。如总体平均数,总体标准差。参数是反映事物的总体规律性的数值,科学研究的目的就在于求得对总体参数的了解。统计数统计数:描述样本特征的数量叫统计数。一:描述样本特征的数量叫统计数。一般用拉丁字母表示。般用拉丁字母表示。统计数是
6、估计值,根统计数是估计值,根据样本不同而不同,常用小写拉丁字母表据样本不同而不同,常用小写拉丁字母表示,如样本平均数(示,如样本平均数(x)、样本标准差)、样本标准差(s)。)。效应与互作效应与互作主效应(主效应(main effect):):试验因素相对独立的作用称为主效应,简称主效或效应(effection)。互作效应(互作效应(interaction effect):两个或两个以:两个或两个以上处理因素间相互作用所产生的效应,简称互上处理因素间相互作用所产生的效应,简称互作或连应(作或连应(interaction)误差的分类:误差的分类:随机误差随机误差(random error):由于
7、试验中许多无法控制的偶然因素所造成的观测值偏离真值的差异。完全是偶然的,找不出确切原因引起的误差,也称偶然性误差(accidental error)。特点:不可避免,无法控制。可通过增加抽样或试验次数降低随机误差系统误差系统误差(systematic error):有一定原因引起的误差,也称偏差(bias)。特点:有一些相对固定的因素引起。在某种程度上可以控制,需要精细试验错误(mistake)是指在试验过程中,人为因素所引起的差错。如:测量仪器校正不准药品配制比例不当称量不准确、数据抄错、计算错误注意:降低随机误差避免系统误差杜绝错误准确性(准确性(accuracy):):指在调查或试验中某
8、一试指在调查或试验中某一试验指标或性状的观测值与真值接近的程度,也验指标或性状的观测值与真值接近的程度,也称准确度称准确度精确性(精确性(precision):):指调查或试验中同一试验指调查或试验中同一试验指标或性状的重复观测值彼此接近程度的大小。指标或性状的重复观测值彼此接近程度的大小。特点:准确性不等于精确性,准确性反映测定值特点:准确性不等于精确性,准确性反映测定值与真值符合程度的大小,而精确性反映多次测与真值符合程度的大小,而精确性反映多次测定值的变异程度定值的变异程度准确性与精确性准确性与精确性准确性与精确性准确性与精确性目的与要求目的与要求 目的:根据生物统计学的基本原理和方法,
9、能正确设计科学试验,正确处理试验结果,从中得出较为客观的结论,从而解决在生产与科研实践中诸多单纯依靠生物学知识所不能解决的问题。要求:能掌握生物统计学的基本原理和方法,合理地设计试验和总结试验结果,对试验所获得的数据能够熟练地进行数理统计分析。教学的重点在于:各项统计分析方法的理论依据和适用范围。第 二章 试验资料的整理与特征数计算2.1统计数据的搜集与整理 数据的不齐性:1、变异性是自然界存在的客观规律(生物体的变异性主要由遗传因素、环境因素和发育差异造成)。2、生物学研究的对象都是很大的群体,不可能研究全部对象,只能通过研究其中的一部分,来推断全部对象。2.1.1 数据类型一、一、数据类型
10、数据类型定(数)量变量(数量性状资料):可测量或计数的变量,可用具体数值与特定计量单位表达的数据称为定量变量。离散型数据(又称离散型变量):由记录不同类别个体的数目所得到的数据,又称计数数据。如脉搏计数、血细胞计数、电泳谱带数、动物死亡个数、孵化个数等。各个观察值只能以整数表示连续型数据(又称连续型变量):是用连续性的数值大小反映某项特征的变量,又称度量数据。如试验中测得的植物的株高,动物体的体长、重量,某化学物质的吸光度等。各个观测值不一定是整数定性变量(质量性状资料):指能观察到而不能直接测量的变量。这类性状本身不能直接用数值表示。名义变量:如:性别(男女)、血型(A、B、AB、O)、反应
11、阴性与阳性等有序(等级)分类变量:通过相对的优劣差异等级、大小差异等级分类所定义的测量尺度。如,疗效(显效、有效、好转、无效)、动物偏草食程度(完全草食性、杂食性偏草食性、杂食性偏肉食性、完全肉食性)等、植物感病程度定性变量(质量性状资料)为便于统计分析,需先把质量性状资料数量化,方法如下:统计次数法(frequency counting):于一定总体内,根据某一质量性状的类别统计其次数或频数,以次数或频数来作为该质量性状的数据评分法(point system):用数字级别表示某现象在表现程度上的差别2.1.2 试验资料的搜集试验资料的来源有两个:一是调查,二是试验。统计试验资料的来源有两个:
12、一是调查,二是试验。统计学对原始资料都要求完整和准确学对原始资料都要求完整和准确调查(survey)普查:是指对研究对象的每一个个体都进行测量或度量的一种全面调查要求:在一定时间或范围内进行,目的是摸清研究对象的基本情况。不常用抽样调查(samplingsurvey):根据一定的原则对研究对象抽取一部分个体进行测量或度量,把得到的数据资料作为样本进行统计处理,然后利用样本特征数对总体进行推断。抽样是抽样是从总体中获得样本的过程。从总体中获得样本的过程。随机抽样(random sample):是指总体中的每一个个体都有同等的机会被抽取组成样本。从有限总体中抽样,可分为放回式抽样和非放回式抽样放回
13、式抽样:从总体中抽出一个个体,记下特征后放回总体中,再做第二次抽样;非放回式抽样:从总体中抽出个体后,不再放回。对于无限总体来说,放回式抽样和非放回式抽样实际上是没有区别的。抽样抽样2.1.2 试验资料的搜集随机抽样必须满足两个条件:随机抽样必须满足两个条件:总体中每个个体被抽中的机会是均等的总体中任意一个个体是否被抽中是相互独立的,即个体是否被抽中不受其他个体的影响特点:生物学研究中要完全符合随机样本的理论要求非常困难,要求抽样尽量不受人为影响2.1.3 试验资料的整理原始资料的检查与核对:三方面数据本身是否有错误取样是否有差错不合理数据的订正方法:核对原始资料的测量和记载有无差错检查原始资
14、料有无遗失特大、特效异常值的出现缺失数据估计、删除或订正重复错误和异常值要求:在统计处理中非常重要,保证数据完整、真实、可靠。必要时要进行复查或重新试验二、二、频数(率)表和频数(率)图的编绘频数(率)表和频数(率)图的编绘通常,当观测值不多(n30)时,不必分组,直接进行统计分析;当观测值较多(n30)时,宜将观测值分成若干组,以便统计分析。将观测值分组后,制成频数分布表,可直观看到资料的集中和变异情况。频数分布:一个随机试验的所有结果事件与对应的频数的排列。离散型数据与连续型数据的频数表和频数图略有不同。1、离散型数据频数(率)表和图的编绘方法(1)、确定观察值的个数;(2)、将每个观察值
15、确定为一组,该观察值即为该组的组值;(3)、将原始数据表中数据,用唱票的方式填入频数表中,计算出和组的频数和频率。例例1-1 1-1 调查调查5050枚受精枚受精种种蛋孵化出蛋孵化出雏鸡雏鸡的天的天数数.表11 50枚受精种蛋孵化出雏鸡的天数的频数(率)分布表图图11 50枚受精种蛋孵化出雏鸡的天数的频数分布图枚受精种蛋孵化出雏鸡的天数的频数分布图注意:有些离散型数据,观察值较多,变异范围较大,若以每一观察值为一组,则组数太多,每组包含的观察值太少,数据的规律性显示不出来。对于这样的数据,可扩大将几个相邻观察值合为一组,适当减少组数。100只蛋鸡每年产蛋数的次数分布表2、连续型数据频数(率)表
16、和图的编绘、连续型数据频数(率)表和图的编绘例1-2:(1)、从原始数据中找出最大值和最小值,并求出极差R。(2)、决定划分的组数,分组数是由数据的多少决定的,在数据较少时,如50100个数,可分为710组。数据较多时,可分为15-20组。(3)、确定组距 组距i:极差/组数=(组上限-组下限)(4)、根据极差与决定划分的组数、组距,确定各组组限及组中值。A:第一组的组中值以接近或等于资料中的最小值为好。B.确定第一组的下限:组中值iC.确定第一组的上限:下限i以此类推,直到上限大于资料的最大值(5)、将原始数据表中数据,用唱票的方式填入频数表中,计算出各组的频数和频率。图图12 某树种苗高直
17、方图某树种苗高直方图横轴表示组界,纵轴表示频数(频数图)或频率(频率图)横轴表示组界,纵轴表示频数(频数图)或频率(频率图)图图13 “三尺三三尺三”株高多边形图株高多边形图 横轴为中值,纵轴为频数(率),标上各点,连接各点构成多边形图。横轴为中值,纵轴为频数(率),标上各点,连接各点构成多边形图。中值中值累积频数(率)累积频数(率)中值中值累积频数(率)累积频数(率)142 115771145 316086148 716396151 2016699154 43169100表表14 苗高的累计频数分布表苗高的累计频数分布表图图14 苗高累计频数分布图苗高累计频数分布图三、研究频数(率)分布的意
18、义 根据频数(率)表或图,可以看出数据的三个重要特征。集中情况:平均数,中位数,众数变异情况:反映分散在平均数两侧的程度,越分散在平均数附近说明数据越不整齐图形的形状:对称与不对称显示异常分布:可以显示一些不规则的情况,以便寻找原因。下面请做习题:下面请做习题:P22,2.52.22.2 试验资料特征数的计算试验资料特征数的计算算术平均数算术平均数算术平均数算术平均数中位数中位数中位数中位数众数众数众数众数集中位置集中位置极差极差极差极差标准差标准差标准差标准差变异系数变异系数变异系数变异系数分散程度分散程度偏斜度偏斜度偏斜度偏斜度形状形状方差方差方差方差数量数据特征数量数据特征峭度峭度峭度峭
19、度几何平均数几何平均数几何平均数几何平均数一、平均数一、平均数meanmean(或或x x)算术平均数(arithmeticmean):简称也叫平均数。常用简单算术平均数方法,实际应用中也常用加权平均的方法来计算。是最常用的平均数。简单 加权几何平均数:资料中有n个观测数(正数),其乘积开n次方所得的数值为几何平均数。一般,处于稳定消长过程中生物群体的数量变化呈几何级数,如在细菌、藻类等培养,求平均消长率应采用几何平均数,若用算术平均数则偏高(几何平均数小于算术平均数)。中位数:位于有序数列中点上的数。中位数反映观测值在位次上的集中与平均特性,它对极值不敏感。样本容量为奇数时,中位数为第(n+
20、1)/2位的变量值;样本容量为偶数时,中位数则取与中点位置相邻的两个变量值的算术平均数,即(xn/2+x(n/2)+1)/2。众数:具有最高频数的组值或中值。均匀分布的数据并不存在众数;而某些数据可能存在两个或三个众数。二、二、标准差(标准差(或或S S表示表示 )范围(或极差)(R)maxx minx平均离差(MD):离均差绝对值的平均数。样本方差(S2):离均差平方的和(离差平方和)除以n,即标准差(SD)或(S):样本方差的开平方注意:样本标准差不用n,而是用n-1为除数。因为(x-x)2是一最小平方和,如果以n为除数,则所得的s是的偏小估计,如果用n-1替代n,则可避免偏小估计的弊端,
21、提高样本估计总体变异的精确度。三、标准差的计算方法:简化计算方法非频数资料的简化计算公式:频数资料的简化计算公式:离散型数据:连续型数据:用中值代替,类似离散型数据计算方法四、变异系数四、变异系数标准差可以反映数据的离散程度,如果在两个样本之间进行比较,还要考虑标准差是在什么样的基础上进行的波动,即需要考虑两个样本平均数的大小。例如马和狗体重的标准差相同,那么谁更整齐呢?一定是马,因为马的体重远远大于狗。定义式:考虑标准差和平均数两者关系用来表明样本标准差对平均数的变异幅度。可以用来判断数据整齐程度,变异系数比较小的数据组比较整齐。做习题:做习题:某苗木10粒种子发芽天数分别为9,8,7,10
22、,12,10,11,14,8,9天,试计算这10粒种子发芽的平均数、极差、方差、标准差和变异系数。某地20岁男子100人,其身高平均数为166.06cm,标准差为4.95cm;其体重平均数为53.72kg,标准差为4.93kg。试比较其身高与体重的变异情况。答案X=9.8天,R=7天,s2=4.4天2,s=2.098天,CV=21.41%身高变异系数为CV=4.95/166.06*100%=2.98%体重变异系数为CV=4.93/53.72*100%=9.18%所以该地20岁男子体重的变异大于身高的变异2.4 本章内容所用的Excel的功能一、直方图工具(作频数分布表和分布图)ABCDEFGH
23、IJK47.267.789.5108.553.031.560.784.062.268.215.957.151.670.597.858.27864.684.850.568.723.940.556.85841.585.558.551.860.591.863.731.978.229.323.567.862.596.5843674.579.639.958.241.563.867.380.711.66434.4286547.975.959.879.557.276.534.549.667.518.45355.961.263.371.765.8103.51258.569.840.25563.985.066.
24、539.875.555.5104.78555.2104.275.371.966.096.720.515.72026.379.377.4102.495.179.983.056.070.876.874118.542.422.686.85387.943.883.071.83667.872.590.510141.776.195.989.065.010031.471.894.570.188.756.427.9103.981.536.788.579.469.579.572.165.523.240.2111.949.981.041.576.97282.164.469.854.168.6119.940.586
25、.759.52562.87090.667.156.773.862.372.311390.357.886.13439.449.74150.467.579.568.338.368.63414.625.554.394.388.48560.88152.51177323.371.785.178.08174.572.96480.5108.672.587.556.090.889.470.655.5102.293.594.467.347.3直方图对话框输入格式图示柏拉图,可以在输出表中同时显示按降序排列频率数据。如果此复选框被清除,Excel将只按升序来排列数据。次数分布表、柏拉图表及其累积频率次数分布图(直
26、方图)离散型数据白黑花白黑花白黑白白白花白白花白白花白黑白白黑白白黑白白黑花白白花白白白白黑白白黑花白黑花白黑花白白白白白白白黑花白黑花白黑花白黑花白黑花白黑花杂一代白毛黑斑猪自交后的毛色分离情况 将白、黑和花分别转换成1、2和3,然后利用直方图工具求出频数分布表,再将1、2和3恢复成白、黑和花就得到了这三种毛色猪的次数分布表,其结果为白、黑和花三种毛色猪的次数分别为39、17和16头二、描述统计分析(计算特征数)二、描述统计分析(计算特征数)描述统计分析的基本统计量(一)算术平均数中位数样本方差描述统计分析的基本统计量(二)样本标准差标准误偏斜度描述统计分析的基本统计量(三)峰值(峭度)置信半径峰值=0,正态分布,峰值为正值,曲线过于陡峭,峰值为负值,曲线过于平坦描述统计分析对话框标志项(变量名)200200头大白母猪仔猪一月窝重的描述统计分析结果头大白母猪仔猪一月窝重的描述统计分析结果表示:在5%的显著水平下总体均值的置信区间为(X-3.13,X+3.13)。