《数据统计与分析方法ppt课件.ppt》由会员分享,可在线阅读,更多相关《数据统计与分析方法ppt课件.ppt(122页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、心电图的由来17801780年有一天,年有一天,4343岁的意大利解剖学岁的意大利解剖学家伽伐尼家伽伐尼Galvani LuigiGalvani Luigi,1737-17981737-1798),),在实验室解剖青蛙,在用银质手术刀在实验室解剖青蛙,在用银质手术刀触碰放在铁盘上的青蛙的时候,无意触碰放在铁盘上的青蛙的时候,无意间发现青蛙腿部肌肉抽搐了一下,仿间发现青蛙腿部肌肉抽搐了一下,仿佛受到电流的刺激如果换用一种金佛受到电流的刺激如果换用一种金属器械去触动青蛙,就无此种反应。属器械去触动青蛙,就无此种反应。18321832年,一个晴朗的日子,还是意年,一个晴朗的日子,还是意大利,还是青蛙
2、,只是做实验的人大利,还是青蛙,只是做实验的人换成了马泰乌奇。换成了马泰乌奇。这一次,马泰乌奇探测到损伤和未这一次,马泰乌奇探测到损伤和未损伤的肌肉之间存在一种电流,他损伤的肌肉之间存在一种电流,他称之为称之为“肌肉电流肌肉电流”。他发现,包。他发现,包括心脏在内,一切正在收缩的肌肉括心脏在内,一切正在收缩的肌肉都会产生肌肉电流。都会产生肌肉电流。1、什么是数据? 数据是指对客观事件进行记录并可以鉴数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些及相互关系等进行记载的物理符号或这些物理符号的组合。它是
3、可识别的、抽象的物理符号的组合。它是可识别的、抽象的符号。符号。数据表现形式数据表现形式表现形式一表现形式一数据列表数据表现形式二数据表现形式二2 24 48 82 26 69 92 22 24 42 24 45 53 38 81 15 59 95 52 25 55 52 25 54 42 23 37 72 21 11 11 17 71 11 16 66 62 24 47 74 42 22 23 30 03 33 32 20 04 41 12 24 42 20 06 66 67 74 47 70 03 36 66 64 41 10 04 40 03 33 33 30 03 34 43 34 4
4、7 77 70 01 10 00 02 20 00 03 30 00 04 40 00 05 50 00 06 60 00 07 70 00 08 80 00 01 12 2月月1 1月月2 2月月3 3月月4 4月月5 5月月6 6月月7 7月月8 8月月9 9月月1 10 0月月1 11 1月月1 12 2月月描述性分析:数据分时段走势、差距变化情况以及描述性分析:数据分时段走势、差距变化情况以及 相应的时间背景相应的时间背景销售码洋趋势图销售码洋趋势图数据表现形式三数据表现形式三3 31 1. .0 0% %3 36 6. .2 2% %4 43 3. .4 4% %3 36 6. .4
5、 4% %6 64 4. .3 3% %8 85 5. .3 3% %5 57 7. .5 5% %6 60 0. .2 2% %5 53 3. .5 5% %4 47 7. .4 4% %3 39 9. .5 5% %3 35 5. .5 5% %3 33 3. .0 0% %1 13 3. .2 2% %2 21 1. .1 1% %3 30 0. .8 8% %3 36 6. .1 1% %4 49 9. .0 0% %6 67 7. .0 0% %5 51 1. .5 5% %4 47 7. .3 3% %4 43 3. .3 3% %3 37 7. .4 4% %3 30 0. .4
6、 4% %2 25 5. .5 5% %2 27 7. .3 3% %0 0% %1 10 0% %2 20 0% %3 30 0% %4 40 0% %5 50 0% %6 60 0% %7 70 0% %8 80 0% %9 90 0% %1 12 2月月1 1月月2 2月月3 3月月4 4月月5 5月月6 6月月7 7月月8 8月月9 9月月1 10 0月月1 11 1月月1 12 2月月销售码洋结构比销售码洋结构比1、计量资料 (measurement data) 用仪器、工具等测量方法获得的数据,又称数值变量。 特点:有计量单位,如患者的身高(cm),体重(kg),血压(kPa)等.
7、2、计数资料 (count data) 按某种属性分类计数后得到的数据,又称无序分类变量,有二分类和多分类两种情形. 特点:无计量单位,如肤色(黑白)、血型(ABO)、职业(工农兵)、性别(男,女)等.3、等级资料 (ordinal data) 半定性或半定量的观察结果,有大小顺序,又称有序分类变量.如 癌症分期:早、中、晚。 药物疗效:治愈、好转、无效、死亡。 尿蛋白: ,+,+及以上住院号住院号年龄年龄身高身高体重体重住院住院天数天数职业职业文化文化程度程度分娩分娩方式方式妊娠妊娠结局结局20256552716571.55无无中学中学顺产顺产足月足月20256532216074.05无无小
8、学小学助产助产足月足月20258302515868.06管理员管理员大学大学顺产顺产足月足月20225432316169.05无无中学中学剖宫产剖宫产足月足月20224662515962.011商业商业中学中学剖宫产剖宫产足月足月20245352715768.02无无小学小学顺产顺产早产早产20258342015866.04无无中学中学助产助产早产早产20194642415870.53无无中学中学助产助产足月足月20257832915457.07干部干部中学中学剖宫产剖宫产足月足月计量资料计数资料 例:一组2040岁成年人的血压以12kPa为界分为正常与异常两组,统计每组例数 8 低血压 8
9、正常血压 12 轻度高血压 15 中度高血压 17 重度高血压计量资料等级资料计数资料什么是统计方法什么是统计方法 统计方法统计方法是指有关收集、整理、是指有关收集、整理、分析和解释统计分析和解释统计数据数据,并对其所,并对其所反映的问题作出一定结论的方法反映的问题作出一定结论的方法。统计方法统计方法是一种从微观结构上是一种从微观结构上来研究物质的宏观性质及其规律来研究物质的宏观性质及其规律的独特的方法。的独特的方法。一般统计方法 根据数据的类型可以分为以下三种统计方法根据数据的类型可以分为以下三种统计方法 1 、计量资料的统计方法、计量资料的统计方法* 2 、计数资料的统计方法、计数资料的统
10、计方法 3 、等级资料的统计方法、等级资料的统计方法运用统计方法应遵循的原则&坚持用数据说话的基本观点。&有目的地收集数据。&掌握数据的来源。&认真整理数据。统计分析流程统计分析流程确定问题确定分析目标采用科学方法收集数据考察数据时效性整理数据统计分析出具分析报告,提出解决意或建议1 1、频数分布、频数分布 (frequency distribution)(frequency distribution)为了了解数据的分布情况,可以编制频数表(frequency table).(1)求极差(range):即最大值与最小值之差,又称为全距。(2)数据分组: 由样本容量n确定组数、通常分10-15个
11、组; 一般采取等距分组, 组距=极差/组数。(3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。l 频数表的编制步骤编号编号血清甘油三脂血清甘油三脂编号编号血清甘油三脂血清甘油三脂1 10.510.512 20.520.521531531.651.653 30.590.591541541.661.664 40.610.611551551.671.675 50.610.611561561.671.676 60.620.621571571.691.697 70.630.631581581.
12、71.78 80.640.641591591.711.711601601.771.77 表2-1: 160名正常成年女子的血清甘油三酯(mmol/L) 组段组段 (1) 划划 记记(2) 频数,频数,f(3) 组中值,组中值,X(4) fX(5)= (3)(4)0.5 30.551.650.6正正90.655.850.7正正正正120.759.000.8正正正正130.8511.050.9正正正正正正170.9516.151.0正正正正正正181.0518.901.1正正正正正正正正201.1523.001.2正正正正正正181.2522.501.3正正正正正正171.3522.951.4正正
13、正正131.4518.851.5正正91.5512.401.6正正 81.6514.851.71.8 合计合计 31.755.25160182.30编制频数表,绘制频数分布图对称分布:以频数最多组段为中心左右大体对称.右(正)偏态分布: 频数最多组段右侧组段数多.(skewed to the right distribution)左(负)偏态分布: 频数最多组段左侧组段数多.(skewed to the right distribution)2、集中趋势的描述 统计上使用平均数(average)来反映计量资料的集中趋势( central tendency ). 常用平均数有:1. 算术均数(a
14、rithmetic mean),简称均数 (mean)2. 几何均数(geometric mean)3. 中位数 (median)4. 百分位数(percentile)nXnXXXXn21iikkkffXffffXffXfXXfX32132111lglgiiifXGf12nnGX XX为偶数为奇数nxxnxMdnnn22/12/2/ )1(3、离散趋势的描述 反映数据的离散度(Dispersion), 即个体观察值的变异(variation)程度, 常用的统计指标有: 1. 极差(Range) (全距) 2. 四分位数间距 (Quartile range) 3. 方差(Variance) 4.
15、 标准差(Standard Deviation) 5. 变异系数(Coefficient of Variation)minmaxXXR221XXnSn四分位间距:QRP75 P25%100XSCV住院号住院号年龄年龄职业职业文化程度文化程度分娩方式分娩方式妊娠结局妊娠结局202565527无无中学中学顺产顺产足月足月202565322无无小学小学助产助产足月足月202583025管理人员管理人员大学大学顺产顺产足月足月202567724知识分子知识分子中学中学顺产顺产早产早产202564730管理人员管理人员大学大学顺产顺产足月足月202584832无无小学小学剖宫产剖宫产足月足月201991
16、527无无中学中学顺产顺产死产死产202586129无无大学大学剖宫产剖宫产足月足月202460125农民农民中学中学顺产顺产足月足月200038626无无小学小学顺产顺产足月足月1 1、计数资料数据的整理、计数资料数据的整理按年龄(按年龄(2 2岁一组)与职业整理岁一组)与职业整理年龄年龄工人工人管理人员管理人员农民农民商业服务商业服务无无知识分子知识分子总计总计1818 2 2 0 0 0 0 0 0 3 3 0 0 5 52020 9 9 2 2 6 61010 1818 0 0 454522222828 7 710102424 70701111150150242450503434282
17、85252153153444436136126265050434325254545133133707036636628283434353510103434 7878575724824830301111141411112222 3939171711411432321414 2 2 3 31414 2424 3 3 60603434 4 4 2 2 5 5 3 3 1212 2 2 28283636 2 2 1 1 1 1 4 4 5 5 1 1 14143838 3 3 1 1 1 1 0 0 2 2 1 1 8 84040 0 0 0 0 2 2 0 0 0 0 0 0 2 2合计合计 207
18、207 141141102102208208537537206206140114012、常用相对数指标 计数资料常用的数据形式是绝对数,如某病的出院人数,治愈人数等.但绝对数不具可比性,需要计算相对数.l 率(rate):说明某现象或某事物发生的频率或强度。率=(实际发生数/可能发生总数)比例基数 比例基数:100%、1000、10000/万、100000(1/10万)等 如:发病率、死亡率、发生率、阳性率、患病率等l 构成比(proportion):说明某一事物内部,各组成部分所占的比重,也叫百分比。构成比=(某部分观察单位数/各组成部分观察单位总数)100% 如:教研室20人中高级职称有5
19、人,占25。l 相对比(relative ratio):是A、B两个有关指标之比,说明A是B的若干倍或百分之几,通常用倍数或分数表示。如:男:女、医生:护士、教师:学生 年龄组年龄组 受检人数受检人数白内障白内障例数例数 患者年龄患者年龄构成比(构成比(%)患病率(患病率(%)=(3)/(2)4050607080合计合计560441296149 2268129135 97 1915.1828.7930.1321.65 4.2412.1429.2545.6165.1086.36 1468448100.0030.52例例: : 率与构成比率与构成比(1) 不能以构成比代替率。(2) 计算相对数的分
20、母不宜过小, 小则直接叙述。(3) 进行率的对比分析时,应注意资料可比性。如比较疗效时,比较组间应病情轻重相同,性别影响,应按性别分组后再作比较。(4) 正确求平均率。 例: 若P1=x1/n1 P2=x2/n2 P3=x3/n3 P(x1+ x2+ x3)/ n1+ n2+ n3) (正确) P(P1+ P2+ P3)/3 (错误)3、相对数应用注意事项 统计表(statistical table)数据代替文字描述,便于统计结果的精确、简洁的表达和对比分析. 统计图(statistical chart)用图形代替数据,获得直观、形象的效果.定义:将统计分析的事物及指标用表格列出.特点:避免长
21、篇文字叙述,便于阅读和对比分析;数据具体.定义:用点的位置,线段的升降,直条的长短或面积的大小等形式表达统计资料.特点:直观,醒目,常给人以深刻印象.统计表由以下几个部分组成:标题、标目、线条、数字、备注表2-9 某省某工厂 1994、1998年四项检测指标异常检出率检测检测指标指标1994年年1998年年受检人数受检人数 异常人数异常人数 检出率检出率(%) 受检人数受检人数异常人数异常人数 检出率检出率(%) 血压血压 心率心率 TTT GPT 5195195195195544362010.16 0.48 6.94 3.85582582582582383923166.526.703.952
22、.75 :TTTTTT(麝香草酚浊度试验),(麝香草酚浊度试验), :GPTGPT(谷丙转氨酶)。(谷丙转氨酶)。 ( (丁建生等丁建生等. . 中国卫生统计中国卫生统计 1999; 16(3):166 )1999; 16(3):166 )1、统计表的结构. . . 纵 标 目总 标 目(单位). 合 计 . . 横 标 目纵 标 目纵 标 目纵 标 目总 标 目横标目的总 标 目备注:表号 标题(包括何时、何地、何事)2、三线表 根据分组标目的复杂程度,统计表可大致分为简单表根据分组标目的复杂程度,统计表可大致分为简单表和复合表。和复合表。 简单表简单表(simple table)(simp
23、le table):只按一个特征或标志分组。:只按一个特征或标志分组。如表如表2-8 2-8 。 复合表复合表(combinative table) (combinative table) :按两个或两个以上特:按两个或两个以上特征或标志结合起来分组。如表征或标志结合起来分组。如表2-92-9。3、统计表的分类表表 2-15 第第三三组组病病人人各各年年存存活活及及死死亡亡情情况况 (原原表表) 年年份份(1) 病病例例数数(2) 存存活活数数(3) 住住院院期期死死亡亡总总例例数数 (4)=(2)+(3) 急急性性期期 死死亡亡数数 (5) 住住院院期期总总病病死死率率(%) (6)=(4)
24、/(2) 急急性性期期病病死死率率(%) (7)=(5)/(2) 1964 17 9 8 7 47.1 41.2 1965 13 8 5 4 38.5 30.8 1966 15 8 7 6 46.7 40.0 1967 15 9 6 6 40.0 40.0 1968 12 8 4 4 33.3 33.3 合合计计 72 42 30 27 41.7 37.5 表表 2-16 19641968 年年急急性性心心肌肌梗梗塞塞患患者者的的病病死死率率 (修修改改表表) 死死亡亡例例数数 病病死死率率(%) 年年份份 病病例例数数 住住院院数数 急急性性期期 住住院院期期 急急性性期期 1964 17
25、8 7 47.1 41.2 1965 13 5 4 38.5 30.8 1966 15 7 6 46.7 40.0 1967 15 6 6 40.0 40.0 1968 12 4 4 33.3 33.3 合合计计 72 30 27 41.7 37.5 3、不良统计表的修改 统计图(statistical chart 或statistical graph)是用点、线、面等几何图形,直观形象地表达、描述数据或结果。 3、统计图 SPSS绘制基本图形SPSS绘制基本图形条形图(Bar Chart) 用途:用等宽直条的长短来表示相互独立的各统计指标的数值大小,也叫直条图. 分单式和复式两种.单式条形图
26、复式条形图圆图(Pie Chart) 用途:以圆的半径将圆面分割成多个大小不等的扇形,以扇形面积来表达构成比的图形。 线图(Line Chart) 用途:适用于连续变量资料,说明某事物因时间、条件推移而变迁的趋势。 直方图(Histogram) 用途:直方图是以面积表示数量,适用于表达连续性资料的频数或频率分布。 什么是数据分析 请牢记: 所有的分析要从“结果结果” 出发,没有结论的数字罗列并不是分析; “结果结果”:发现问题和解决问题。 数据分析不是一门复杂的科学数据分析不是一门复杂的科学;而是一些简单的“common sense”;复杂的运算通常只是令分析结果更差而不是更好;绝大多数是简单
27、的想法和简单的沟通 数据分析有时候是一门艺术数据分析有时候是一门艺术同样的数据会有不同的解读优秀和平庸的差异,有时候差在一种灵感数据分析目的让数据说话;行动的向导;杜绝浪费;提供决策的依据。数据分析误区数据分析误区误区一误区一: :展示元素不宜大于展示元素不宜大于3 3个个0 01 10 00 00 00 00 02 20 00 00 00 00 03 30 00 00 00 00 04 40 00 00 00 00 05 50 00 00 00 00 06 60 00 00 00 00 07 70 00 00 00 00 08 80 00 00 00 00 09 90 00 00 00 00
28、 01 10 00 00 00 00 00 01 12 2月月1 1月月2 2月月3 3月月4 4月月5 5月月6 6月月7 7月月8 8月月9 9月月1 10 0月月1 11 1月月1 12 2月月数据分析误区数据分析误区误区二误区二:时间序列数据最好使用折线图,而不宜使时间序列数据最好使用折线图,而不宜使用柱状图等用柱状图等0 01 10 00 00 00 00 02 20 00 00 00 00 03 30 00 00 00 00 04 40 00 00 00 00 05 50 00 00 00 00 06 60 00 00 00 00 07 70 00 00 00 00 08 80 0
29、0 00 00 00 09 90 00 00 00 00 01 10 00 00 00 00 00 01 12 2月月1 1月月2 2月月3 3月月4 4月月5 5月月6 6月月7 7月月8 8月月9 9月月1 10 0月月1 11 1月月1 12 2月月误区三:研究用数据最好不使用三维立体图研究用数据最好不使用三维立体图1 12 2月月1 1月月2 2月月3 3月月4 4月月5 5月月6 6月月7 7月月8 8月月9 9月月1 10 0月月1 11 1月月1 12 2月月S S1 1S S3 30 01 10 00 00 00 00 02 20 00 00 00 00 03 30 00 00
30、 00 00 04 40 00 00 00 00 05 50 00 00 00 00 06 60 00 00 00 00 07 70 00 00 00 00 08 80 00 00 00 00 09 90 00 00 00 00 01 10 00 00 00 00 00 0数据分析误区数据分析误区误区四:为避免图表的欺骗性,图线最好占据误区四:为避免图表的欺骗性,图线最好占据2/3 2/3 至至3/43/4的高度(调整的高度(调整Y Y轴刻度)轴刻度)7 7 3 3 . . 7 7 % %6 6 8 8 . . 1 1 % %6 6 9 9 . . 0 0 % %7 7 2 2 . . 9 9
31、 % %7 7 3 3 . . 1 1 % %7 7 5 5 . . 6 6 % %7 7 0 0 . . 9 9 % %7 7 1 1 . . 9 9 % %7 7 1 1 . . 6 6 % %6 6 9 9 . . 0 0 % %6 6 2 2 . . 2 2 % %6 6 7 7 . . 1 1 % %7 7 5 5 . . 7 7 % %8 8 3 3 . . 5 5 % %7 7 1 1 . . 5 5 % %7 7 5 5 . . 4 4 % %7 7 9 9 . . 0 0 % %7 7 5 5 . . 8 8 % %7 7 6 6 . . 9 9 % %7 7 4 4 . .
32、 5 5 % %6 6 8 8 . . 9 9 % %7 7 2 2 . . 9 9 % %7 7 7 7 . . 3 3 % %6 6 7 7 . . 7 7 % %7 7 5 5 . . 5 5 % %7 7 9 9 . . 6 6 % %0 0 % %1 1 0 0 % %2 2 0 0 % %3 3 0 0 % %4 4 0 0 % %5 5 0 0 % %6 6 0 0 % %7 7 0 0 % %8 8 0 0 % %9 9 0 0 % %1 1 0 0 0 0 % %1 1 2 2 月月 1 1 月月 2 2 月月 3 3 月月 4 4 月月 5 5 月月 6 6 月月 7 7
33、月月 8 8 月月 9 9 月月 1 1 0 0 月月1 1 1 1 月月1 1 2 2 月月7 73 3. .7 7% %6 68 8. .1 1% %6 69 9. .0 0% %7 72 2. .9 9% %7 73 3. .1 1% %7 75 5. .6 6% %7 70 0. .9 9% %7 71 1. .9 9% %7 71 1. .6 6% %6 69 9. .0 0% %6 62 2. .2 2% %6 67 7. .1 1% %7 75 5. .7 7% %8 83 3. .5 5% %7 71 1. .5 5% %7 75 5. .4 4% %7 79 9. .0 0%
34、 %7 75 5. .8 8% %7 76 6. .9 9% %7 74 4. .5 5% %6 68 8. .9 9% %7 72 2. .9 9% %7 77 7. .3 3% %6 67 7. .7 7% %7 75 5. .5 5% %7 79 9. .6 6% %6 60 0% %6 65 5% %7 70 0% %7 75 5% %8 80 0% %8 85 5% %1 12 2月月 1 1月月 2 2月月 3 3月月 4 4月月 5 5月月 6 6月月 7 7月月 8 8月月 9 9月月 1 10 0月月 1 11 1月月 1 12 2月月数据分析误区数据分析误区1 1、抽样法、
35、抽样法* *2 2、聚类分析(、聚类分析(Cluster AnalysisCluster Analysis)* *3 3、因子分析(、因子分析(Factor AnalysisFactor Analysis)4 4、相关分析、相关分析(Correlation Analysis)(Correlation Analysis)5 5、对应分析对应分析(Correspondence Correspondence AnalysisAnalysis)6 6、回归分析(、回归分析(regression analysis)regression analysis)7 7、方差分析、方差分析(ANOVA/Analy
36、sis of (ANOVA/Analysis of Variance)Variance)总体、个体总体、个体总体又叫母体,是研究对象的全体。总体又叫母体,是研究对象的全体。出版商一个批次到货出版商一个批次到货的全部都可以称为总体。的全部都可以称为总体。构成总体的基本单位,称为个体。构成总体的基本单位,称为个体。每册书都是一个个体。每册书都是一个个体。来货检验常用抽样方法进行,即从来货总件数中抽出一部分件数,并来货检验常用抽样方法进行,即从来货总件数中抽出一部分件数,并测试每件的有关册数是否够数的特性数据,进行统计分析后,对总体测试每件的有关册数是否够数的特性数据,进行统计分析后,对总体作出估计
37、和判断。作出估计和判断。一般地,设一个总体含有一般地,设一个总体含有N N个个个体个体,从,从中逐个不放回地中逐个不放回地抽取抽取n n个个体作为个个体作为样本样本(nNnN),如果每次抽取使),如果每次抽取使总体总体内的各内的各个个体被抽到的个个体被抽到的机会机会都相等,就把这种都相等,就把这种抽样方法叫做简单随机抽样。抽样方法抽样方法叫做简单随机抽样。抽样方法主要包括:随机抽样、分层抽样、整体主要包括:随机抽样、分层抽样、整体抽样、系统抽样。抽样、系统抽样。样本样本样本样本又叫又叫子样子样,是从总体中抽出来一部分个体的集合。,是从总体中抽出来一部分个体的集合。样本中每个个体叫样本中每个个体
38、叫样品样品,样本中所包含样品数目称为样本大小,样本中所包含样品数目称为样本大小,又叫又叫样本量样本量,常用,常用n n表示。表示。对样本的特性进行测定,所得的数据称为对样本的特性进行测定,所得的数据称为样本值样本值。当样本个数越多时,分析结果越接近总体的值,样本对总体的代当样本个数越多时,分析结果越接近总体的值,样本对总体的代表性就越好。表性就越好。抽样方法抽样方法用的统计抽样方法主要有以下三种用的统计抽样方法主要有以下三种随机抽样法随机抽样法分层抽样法分层抽样法系统抽样法系统抽样法书书业业公公司司抽样方法抽样方法随机抽样随机抽样指总体中每一个个体都有同等可能的机会被抽到。这种抽样方法事先不能
39、考虑抽取哪一个样品,完全用偶然方法抽样,常用抽签或利用随机数表来抽取样品以保证样品代表性。抽样当图书品种不多时,随机抽样是一种有效的抽样方法;抽样方法抽样方法分层抽样分层抽样分层抽样是先将总体按照研究内容密切有关的主要因素分类或分层,然后在各层中按照随机原则抽取样本。分层抽样可以减少层内差异,增加样本的代表性。抽样样本当到货产品较多时,分层抽样是一种有效的抽样方法;当到货产品较多时,分层抽样是一种有效的抽样方法;抽样方法抽样方法系统抽样系统抽样从总体中每隔K个个体抽取一个个体的抽样方法,比值K是总体容量N与样本容量n之比;当出版商批量发货及产品特别多时,并且易作某种次序的整理时,当出版商批量发
40、货及产品特别多时,并且易作某种次序的整理时,系统抽样比分层抽样好;系统抽样比分层抽样好; 1, 2, . K K+ 1, K+2, ., 2K 2K + 1, 2K+2, ., 3K 直到 N为止例,从具有1000个个体的总体中抽取50个个体。总体、样本、数据间的关系总体、样本、数据间的关系总体总体样本样本结论结论数据数据抽样分析管理测试数理整理和统计数理整理和统计抽样的目的是通过样本来反映总体。抽样的目的是通过样本来反映总体。在书业公司经营管理中,常常将测试的样本数据,通过整理加工,找在书业公司经营管理中,常常将测试的样本数据,通过整理加工,找出它们的特性,从而推断总体的变化规律、趋势和性质
41、。出它们的特性,从而推断总体的变化规律、趋势和性质。一批数据的分布情况,可以用中心倾向及数据的分散程度来表示,表一批数据的分布情况,可以用中心倾向及数据的分散程度来表示,表示中心倾向的有平均值、中位值等,表示数据分散程度的有方差、标示中心倾向的有平均值、中位值等,表示数据分散程度的有方差、标准偏差、极差等。准偏差、极差等。描述总体数据离散程度的参数为方差描述总体数据离散程度的参数为方差2 2 ,描述总体数据中心倾向的,描述总体数据中心倾向的数为均值数为均值 。若利用样本参数近似描述总体状况时,可以利用样本。若利用样本参数近似描述总体状况时,可以利用样本方差方差S S2 2近似代替总体方差近似代
42、替总体方差2 2,利用样本均值,利用样本均值X X近似代替总体均值近似代替总体均值p p。数理整理和统计数理整理和统计样本平均值样本平均值样本中位值样本中位值X = X1+X2+X3 .+Xnn中位值是按照数据大小顺序排列位于中间的数值,中位值记为X若n为偶数,则取位于中间两个数值的平均值为中位值;数理整理和统计数理整理和统计样本极差样本极差样本方差和样本标准偏差样本方差和样本标准偏差样本方差和样本标准差就是用来度量数据波动幅度大小的一个重要特性值。样本方差是一组数据中每一个数值与平均值之差的平方和的平均值,通常记为S2;样本方差的平方根S称作样本标准偏差,它与样本方差一样,是反映一组数据分散
43、程度的特性值:样本极差表示一组数据分布的范围,是指数据中最大值与最小值的差: R = Xmax - Xmin2、聚类分析 聚类分析指将物理或抽象对象的集合分组成为由聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。类似的对象组成的多个类的分析过程。 聚类是将数据分类到不同的类或者簇这样的一个聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是一种探索同簇间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个性的分析,
44、在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进分类的标准,聚类分析能够从样本数据出发,自动进行分类。行分类。 聚类分析所使用方法的不同,常常会得到不同的聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。所得到的聚类数未必一致。分类 俗语说,物以类聚、人以群分。 但什么是分类的根据呢? 比如,要想把中国的县分成若干类,就有很多种分类法; 可以按照自然条件来分, 比如考虑降水、土地、日照、湿度等各方面; 也可以考虑收入、教育水准、医疗条件、基础设施等指标; 既
45、可以用某一项来分类,也可以同时考虑多项指标来分类。 聚类分析 对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。 比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类, 当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。 下面要介绍的分类的方法称为聚类分析(cluster analysis)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。 饮料数据(drink.sav ) 16种饮料的热量、咖啡因、钠及价格四种变量种饮料的
46、热量、咖啡因、钠及价格四种变量 如何度量远近? 如果想要对如果想要对100个学生进行分类,如果仅仅知道个学生进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类;他们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成这些成绩在直线上形成100个点。这样就可以把个点。这样就可以把接近的点放到一类。接近的点放到一类。 如果还知道他们的物理成绩,这样数学和物理成如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的绩就形成二维平面上的100个点,也可以按照距个点,也可以按照距离远近来分类。离远近来分类。 三维或者更高维的情况也是类似;只不过三维以三维或者更高维的情况也是类似
47、;只不过三维以上的图形无法直观地画出来而已。在饮料数据中上的图形无法直观地画出来而已。在饮料数据中,每种饮料都有四个变量值。这就是四维空间点,每种饮料都有四个变量值。这就是四维空间点的问题了。的问题了。 聚类分析聚类分析1 1、系统聚类法、系统聚类法-(分层聚类)系统聚类法是应(分层聚类)系统聚类法是应用最广泛的一种(用最广泛的一种(Hierarchical ClusterHierarchical Cluster过程)过程) 1 1)、)、 聚类原则:都是相近的聚为一类,即距离聚类原则:都是相近的聚为一类,即距离最近或最相似的聚为最近或最相似的聚为 一类。一类。 2 2)、)、 分层聚类的方法
48、可以用于样本聚类(分层聚类的方法可以用于样本聚类(Q Q)型,也可以用于变量聚类(型,也可以用于变量聚类(RR型)。型)。2 2、非系统聚类法、非系统聚类法-(快速聚类法(快速聚类法-K-K-均值聚类均值聚类法)(法)(K-means Cluster)K-means Cluster)3 3、两步聚类法、两步聚类法-一种探索性的聚类方法(一种探索性的聚类方法(TwoStep TwoStep ClusterCluster)K-K-均值聚类分析均值聚类分析K-means Cluster 又称为快速样本聚类法,是非系统聚类中最常用的聚类法。又称为快速样本聚类法,是非系统聚类中最常用的聚类法。优点:优点
49、: 是占内存少、计算量小、处理速度快,特别适合大样本的聚是占内存少、计算量小、处理速度快,特别适合大样本的聚类分析。类分析。缺点:缺点: 应用范围有限,要求用户制定分类数目应用范围有限,要求用户制定分类数目( (要告知要告知) ),只能对,只能对观观测量(样本)测量(样本)聚类,而不能对变量聚类,且所使用的聚类变量聚类,而不能对变量聚类,且所使用的聚类变量必须都是连续性变量必须都是连续性变量。时间序列分析时间序列分析( time series ( time series analysis)analysis)方法方法, ,强调的是通过对一个强调的是通过对一个区域进行一定时间段内的连续遥感观区域进
50、行一定时间段内的连续遥感观测,提取图像有关特征,并分析其变测,提取图像有关特征,并分析其变化过程与发展规模。当然,首先需要化过程与发展规模。当然,首先需要根据检测对象的时相变化特点来确定根据检测对象的时相变化特点来确定遥感监测的周期,从而选择合适的遥遥感监测的周期,从而选择合适的遥感数据。感数据。时间序列分析时间序列分析( time series analysis)( time series analysis)时间序列的基本概念时间序列的基本概念一、时间序列1、含义:指被观察到的依时间为序排列的数据序列。2、特点: (1)现实的、真实的一组数据,而不是数理统计中做实验得到的。既然是真实的,它就