《统计基础培训.ppt》由会员分享,可在线阅读,更多相关《统计基础培训.ppt(55页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计基础知识与统计基础知识与excelexcel在统计分析中的应用在统计分析中的应用1 统计基础知识统计基础知识2 统计图和统计表统计图和统计表3 excel在统计分析中的应用在统计分析中的应用主要内容主要内容1 1 统计基础知识统计基础知识1.1 1.1 统计描述的意义统计描述的意义1.2 1.2 频数表频数表1.3 1.3 集中趋势的描述集中趋势的描述1.4 1.4 离散趋势的描述离散趋势的描述1.5 1.5 抽样误差抽样误差1.6 1.6 正态分布正态分布1.1 1.1 统计描述的意义统计描述的意义社会活动看似杂乱无章,对个体来说有很多不确定性,但总社会活动看似杂乱无章,对个体来说有很多
2、不确定性,但总体上都是服从一些统计规律的。体上都是服从一些统计规律的。科研工作有很多数据,统计描述就是对这些数据进行加工和科研工作有很多数据,统计描述就是对这些数据进行加工和提炼,找出规律、预测未知。提炼,找出规律、预测未知。统计描述是最简洁有力的语言。统计描述是最简洁有力的语言。统计描述通过描述性指标和统计图(表)反映资料的分布规统计描述通过描述性指标和统计图(表)反映资料的分布规律及其数量特征。律及其数量特征。1.2 1.2 频数表频数表Table 1.Table 1.某单位某单位19991999年的年的101101名职工的血清总胆固醇含量。名职工的血清总胆固醇含量。频数表:将变量值分为不
3、同数量的组段,清点各组段的例数。频数表:将变量值分为不同数量的组段,清点各组段的例数。意义:概括了解变量值在各组段的意义:概括了解变量值在各组段的分布和规律分布和规律。2.354.213.325.354.174.132.784.263.584.344.844.414.783.953.923.583.664.283.263.52.74.614.752.913.914.594.192.684.524.913.183.684.833.873.953.914.154.554.83.414.123.955.084.533.923.585.353.843.63.514.063.073.554.233.57
4、4.833.523.844.53.964.53.274.523.194.593.753.984.134.263.633.875.713.34.734.175.133.784.573.83.933.783.994.484.284.065.265.253.985.033.513.863.023.74.333.293.254.154.364.953.003.261 1.确定全距确定全距:R=R=最大值最大值最小值最小值=5.71-2.35=3.36=5.71-2.35=3.362.2.定组数(定组数(8-138-13组)和组距组)和组距:各组段的起点和终点分别称为上限和下限,某组段的组中值为该组段的
5、各组段的起点和终点分别称为上限和下限,某组段的组中值为该组段的(上限(上限+下限)下限)/2/2。相邻两组段的下限之差为组距。常用全距的。相邻两组段的下限之差为组距。常用全距的1/101/10取取整做组距。整做组距。3.36/10=0.3360.3 3.36/10=0.3360.33.3.写出组段的下限:写出组段的下限:第第1 1组段值小于或等于最小变量值,并以整数为好。如组段值小于或等于最小变量值,并以整数为好。如2.32.34.4.列出频数表:列出频数表:变量(变量(x x)归为下限)归为下限x x上限。上限。计量资料频数表的编制步骤计量资料频数表的编制步骤Table 1.Table 1.
6、100100名职工血清总胆固醇频数表名职工血清总胆固醇频数表组段组段频数频数f ff f(%)2.3-2.3-1 11.01.02.6-2.6-3 33.03.02.9-2.9-6 66.06.03.2-3.2-8 88.08.03.5-3.5-171717.017.03.8-3.8-202020.020.04.1-4.1-171717.017.04.4-4.4-121212.012.04.7-4.7-8 88.08.05.0-5.0-5 55.05.05.3-5.3-2 22.02.05.3-5.65.3-5.61 11.01.0合计合计100100100.0100.0频数分布图频数分布图直
7、方图直方图正态分布正态分布:频数分布的集中位置在中间,左右两侧大致对称。频数分布的集中位置在中间,左右两侧大致对称。正偏态正偏态分布分布:频数分布不对称,集中位置偏向数值小的一侧。频数分布不对称,集中位置偏向数值小的一侧。负偏态分布负偏态分布:集中位置偏向数值大的一侧。集中位置偏向数值大的一侧。1.3 1.3 集中趋势的描述集中趋势的描述 描述对象:描述同质观察值描述对象:描述同质观察值平均水平平均水平或或中心位置。中心位置。1.3.1 1.3.1 均数(均数(averageaverage,meanmean):):基本公式:基本公式:加权法公式:加权法公式:应用范围:适用于正态或类似正态分布的
8、数值变量资料。应用范围:适用于正态或类似正态分布的数值变量资料。1.3.2 1.3.2 几何均数几何均数(G)(G)应用范围:适用于数值呈应用范围:适用于数值呈倍数变化倍数变化或数据经过对数变换后或数据经过对数变换后 呈呈正态分布正态分布的数值变量资料。的数值变量资料。基本公式:基本公式:加权法公式:加权法公式:1.3.3 1.3.3 中位数中位数定义:将一组变量值由小到大依次排列,居以中间位定义:将一组变量值由小到大依次排列,居以中间位 次的观察值即为中位数次的观察值即为中位数使用范围:适用于描述使用范围:适用于描述偏态分布偏态分布资料的平均水平资料的平均水平。n n为偶数为偶数n n为奇数
9、为奇数1.3.4 1.3.4 百分位数(百分位数(percentilepercentile)定义:将一组变量值由小到大依次排列,定义:将一组变量值由小到大依次排列,nX%nX%为第为第x x百分位数的秩百分位数的秩次,其对应的变量值(次,其对应的变量值(x x)为第)为第x x百分位数,记为百分位数,记为PxPx。中位数即为中位数即为P P5050。第第p p百分位数的计算:百分位数的计算:第第1 1步:以递增顺序排列原始数据(即从小到大排列)。步:以递增顺序排列原始数据(即从小到大排列)。第第2 2步:计算指数步:计算指数i=ni=np%p%第第3 3步:步:l l)若)若i i不是整数,将
10、不是整数,将i i向上取整。向上取整。大于大于i i的毗邻整数即为第的毗邻整数即为第p p百分位数的位置。百分位数的位置。2)2)若若i i是整数,则第是整数,则第p p百分位数是第百分位数是第i i项项与第(与第(i il l)项数据的平均值。)项数据的平均值。1.4 1.4 离散程度的描述离散程度的描述1.4.1 1.4.1 全距(全距(RangeRange,R R):):定义:定义:R R=最大值最大值 最小值最小值意义:意义:R R值越大,表示该组数据的变异越大。值越大,表示该组数据的变异越大。缺点:缺点:数据利用不全,部分信息损失,在例数少时结果不稳定。数据利用不全,部分信息损失,在
11、例数少时结果不稳定。仅考虑最大值与最小值之差,不能反映组内其他观察值的仅考虑最大值与最小值之差,不能反映组内其他观察值的 变异度。变异度。描述对象:反映一组同质观察值的变异度描述对象:反映一组同质观察值的变异度1.4.2 1.4.2 四分位数间距四分位数间距(quartile,(quartile,简记为简记为Q)Q):定义:为上四分位数定义:为上四分位数Q QU U与下四分位数与下四分位数Q QL L之差。之差。Q=PQ=P7575%-P-P25%25%意义:作为变异指标比极差稳定。常用于表示偏态分布资料的变异。意义:作为变异指标比极差稳定。常用于表示偏态分布资料的变异。Q Q越大,变异度越大
12、;反之,越大,变异度越大;反之,Q Q越小,变异度越小。越小,变异度越小。1.4.3 1.4.3 方差和标准差方差和标准差(standard deviation,STDEV)(standard deviation,STDEV)总体方差总体方差(2)(2)总体标准差总体标准差()()样本标准差样本标准差(s)s)1.4.41.4.4 变异系数变异系数(CV)(CV)应用:应用:2 2.比较组单位相同比较组单位相同,但均数相差悬殊的组间变异程度但均数相差悬殊的组间变异程度.CV CV越大,表示数据变异越大。越大,表示数据变异越大。常用于衡量方法、仪器的精密度。常用于衡量方法、仪器的精密度。公式:公
13、式:1.1.组间单位不同时变异程度的比较。组间单位不同时变异程度的比较。意义:意义:1.5 1.5 抽样误差抽样误差 1.5.1 1.5.1 抽样误差抽样误差抽样误差:抽样误差:由于个体变异的存在,抽样研究所造成的样本统计量与总体参数之由于个体变异的存在,抽样研究所造成的样本统计量与总体参数之间的差异,称为抽样误差。间的差异,称为抽样误差。均数的抽样误差:均数的抽样误差:这种由抽样研究造成的样本均数与总体均数间的差异称为均数的抽这种由抽样研究造成的样本均数与总体均数间的差异称为均数的抽样误差。样误差。样本均数的标准差称均数的标准误样本均数的标准差称均数的标准误1.5.2 1.5.2 标准误(标
14、准误(standard errorstandard error)定义:定义:公式:公式:意义:意义:反映均数抽样误差大小的指标。反映均数抽样误差大小的指标。标准误大,表示抽样误差大;标准误大,表示抽样误差大;标准误小,表示抽样误差小。标准误小,表示抽样误差小。1.6 1.6 正态分布正态分布频数分布与正态分布曲线示意图频数分布与正态分布曲线示意图正态分布曲线下面积的含义正态分布曲线下面积的含义1.1.表示变量值(表示变量值(x x)在)在a-ba-b区间变量值所占全部(总体)变量区间变量值所占全部(总体)变量值的比例或概率值的比例或概率(p)(p)。2.2.变量值在整个曲线下的面积为变量值在整
15、个曲线下的面积为100%,100%,或出现的概率为或出现的概率为1 1。正态分布曲线理论上的特征正态分布曲线理论上的特征(1 1)以)以X=X=为中心为中心,X X值呈值呈钟型分布钟型分布。(2 2)在)在 X=X=处,处,f f(x x)取最大值。取最大值。(3 3)正态分布正态分布由由 、决定决定 正态分布的位置和形状。正态分布的位置和形状。随随不同,曲线位置不同,称不同,曲线位置不同,称为为位置参数。位置参数。越大,曲线形状不同,越大,曲线形状不同,称称为为形状参数。形状参数。正态分布参数位置变化示意图正态分布参数位置变化示意图正态分布变异度不同变化示意图正态分布变异度不同变化示意图2
16、2 统计表与统计图统计表与统计图2.1 2.1 统计表统计表2.1.1 2.1.1 统计表的结构统计表的结构医院有效病例无效病例合计甲121830乙31940丙205070合计6377140表2 2002年某地三医院同种感冒药治疗鼻塞的效果横标目横标目纵标目纵标目表号表号 标题标题横标目名称横标目名称2.1.2 2.1.2 编制统计表的原则编制统计表的原则 重点突出,一张表只表达一个中心内容。重点突出,一张表只表达一个中心内容。主语在左,宾语在右,从左至右构成一句完整而通顺的话。主语在左,宾语在右,从左至右构成一句完整而通顺的话。简单明了,文字、数字与线条尽量简洁。简单明了,文字、数字与线条尽
17、量简洁。2.1.3 2.1.3 编制统计表的要求编制统计表的要求标题标题:概括说明表的内容,必要时注明时间和地点,:概括说明表的内容,必要时注明时间和地点,列于表的列于表的上方居中。上方居中。字数一般不超过字数一般不超过2020个。个。标目标目:简明确切,有单位的要注明单位。横标目列于表的左侧,:简明确切,有单位的要注明单位。横标目列于表的左侧,为被研究的事物;纵标目列于表的上端,为横标目的统计指标。为被研究的事物;纵标目列于表的上端,为横标目的统计指标。数字数字:一律用阿拉伯字表示;同一指标的小数位数应一致并对齐。表:一律用阿拉伯字表示;同一指标的小数位数应一致并对齐。表中暂缺或无数字者分别
18、以中暂缺或无数字者分别以“”和和“”表示,表示,数字为零者要记做数字为零者要记做“0 0”,表,表内不留空格。内不留空格。线条线条:除表的顶线、底线、纵标目下、合计上的横线外,其余线:除表的顶线、底线、纵标目下、合计上的横线外,其余线均省略;顶线和底线应略粗。表的左上角不宜用斜线。均省略;顶线和底线应略粗。表的左上角不宜用斜线。2.2 2.2 统计图统计图条图条图 (bar chart)(bar chart)圆图(圆图(pie chartpie chart)百分比条图(百分比条图(percent bar chartpercent bar chart)线图(线图(line graphline g
19、raph)直方图(直方图(histogramhistogram)散点图(散点图(scatter diagramscatter diagram)统计地图(统计地图(statistical mapstatistical map)2.2.1 2.2.1 统计图的种类统计图的种类1.1.按资料的性质和分析目的选用适合的图形:间断性资料选用条图、圆按资料的性质和分析目的选用适合的图形:间断性资料选用条图、圆图、百分条图;连续性资料选用线图、直方图。图、百分条图;连续性资料选用线图、直方图。2.2.要有标题,扼要说明资料的内容,必要时注明时间、地点,一般写在要有标题,扼要说明资料的内容,必要时注明时间、地
20、点,一般写在图的下面。图的下面。3.3.条图、线图和直方图都有纵轴与横轴。纵横坐标长度的比例一般约条图、线图和直方图都有纵轴与横轴。纵横坐标长度的比例一般约5 5:7 7(或(或7 7:5 5)为宜。)为宜。4.4.纵轴和横轴应标注标目及其单位;标明尺度。纵轴和横轴应标注标目及其单位;标明尺度。5.5.比较不同事物时,用不同的线条或颜色表示,要附图例说明。比较不同事物时,用不同的线条或颜色表示,要附图例说明。2.2.2 2.2.2 绘制统计图的基本要求绘制统计图的基本要求2.2.3 2.2.3 条图条图 用直条的长度表示相互独立的统计指标的大小用直条的长度表示相互独立的统计指标的大小,可分为可
21、分为:单式条图单式条图;复式复式条图条图;分段条图分段条图 误差条图误差条图图图2-17 20002-17 2000年三大城市四苗接种率年三大城市四苗接种率()图图2-27 2-27 四种营养素喂养小白鼠四种营养素喂养小白鼠三周后所增体重(克)三周后所增体重(克)图图2-26 2-26 老、中、青三代的结核老、中、青三代的结核菌素阳性率与强阳性率()菌素阳性率与强阳性率()3 excel3 excel在统计分析中的应用在统计分析中的应用3.1 3.1 利用利用excelexcel进行进行T T检验检验3.2 3.2 利用利用excelexcel进行直线相关方程计算进行直线相关方程计算3.1 3
22、.1 利用利用excelexcel进行进行T T检验检验小鼠对子号12345678910实验组3.0 2.32.41.14.03.72.71.92.61.3对照组3.6 4.54.24.43.75.67.04.15.04.5表表 1 1 某化合物抑瘤实验的结果某化合物抑瘤实验的结果Step 1 Step 1 建立建立excelexcel表格表格Step 2 Step 2 选择选择TTESTTTEST函数函数Step 3 Step 3 输入各个参数输入各个参数Step 4 Step 4 点击点击“确定确定”,返回,返回P P值值Step 5 Step 5 结果分析结果分析P P0.050.05,
23、小概率事件,实验组与对照组存在显小概率事件,实验组与对照组存在显著性差异,说明该药物有效。著性差异,说明该药物有效。在柱状图中,在柱状图中,P P0.050.05 用用*标识,标识,P P 0.010.01时,用时,用*表示。表示。P P0.050.05,实验组与对照组没有显著性差实验组与对照组没有显著性差异,说明该药物无效异,说明该药物无效 3.2 3.2 利用利用excelexcel进行直线相关方程计算进行直线相关方程计算药物浓度(g/l)00.010.020.030.040.050.060.070.080.1OD76000.1150.2440.3840.5260.6480.7820.90
24、61.0291.262表表 1 1 不同药物浓度的吸收值不同药物浓度的吸收值 Step 1 Step 1 建立建立excelexcel文件文件Step 2 Step 2 插入插入-图表图表-散点图散点图Step 3 Step 3 输入横标目和纵标目输入横标目和纵标目Step 4 Step 4 点击点击“完成完成”小数位数小数位数不一致不一致Step 5 Step 5 修改坐标轴修改坐标轴右键右键-坐标轴格式坐标轴格式-数字数字-选数值,小数位数为选数值,小数位数为2 2Step 6 Step 6 添加趋势线添加趋势线天津艾赛博生物技术有限公司(机密)Step 7 Step 7 完成完成Thank you!