《统计学概论讲义.docx》由会员分享,可在线阅读,更多相关《统计学概论讲义.docx(13页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计学概论讲义授 授课目录 第一章质量管理概说 其次章统计学概论 第三章机率概论及机率安排 第四章统计制程管制与管制图 第五章计量值管制图 第六章计数值管制图 第七章制程实力分析 第八章允收抽样的基本方法 第九章计数值抽样安排 第十章计量值抽样安排 第十一章量具之再现度与再生度 第十二章质量管理之新七大手法 1. 导论 统计学是一探讨如何搜集数据与分析数据的科学探讨方法。在 不确定 的状态下,藉由 样本数据 所供应的讯息,经归纳分析、推论检定、 决策与预料。等过程。以事实( 数字) 作决策。其次章 統計學概論2.1 相识统计 自古以来,人类从事各项探讨活动均是 为求真理 ,亦是社会 文明进步的
2、原动力。然而通往 真理的路 上充溢混沌与挫折 ,如何厘清真相,统计学自然就成为一门极重要的科学探讨工具。 统计学是由 搜集数据 、 整理数据 、 分析数据 及 说明意义 等规则与程序所组成。 统计学探讨过程: 推论= 估计 + 假设检定 Inferential Statistics = Estimation + Testing Hypothesis設定合適的理論或模式 搜集樣本資料、實驗設計、抽樣或模擬 資料分析與研判 估計與檢定 決策或預測2.2 统计精神就是科学探讨的精神 闻名统计学家费雪(R. A. Fisher, 1890-1962) 曰:统计方法的 目的 是基于阅历视察,去改进我们对
3、系统 的了解- 即统计的基本精神。 架构一系列有组织有系统且可分析的探讨过程,以获得客观牢靠的结论- 即科学探讨的精神。系 系统理论- 线性系统Ref: The Six Sigma Way, by Peter S. Pande, Robert P.Neuman, amp; Roland R. Cavanagh, McGraw-Hill.系统三要素- 输入、过程、输出I/P Organization/Process常用的几个统计学术语 母体:该次探讨中全部欲探讨之事务之全体对象。 参数 :用 来描述 母体 的特征之数值,或称母数。 样本:由母体中随机抽取部分群体之集合。 统计量 :用来描述此 样
4、本 的特征之数值。母体(Population) 、参数(Parameter) 、样本(Sample) 、统计量(Statistics)母體 樣本 安排、參數 統計量 隨機抽取 推 推論 檢定檢定 計算計算 描述描述欲了解致远工管系学生每周 平均 看书时间,经随机抽样30 位该系学生,计算结果: 为 该系学生每周平均看书时间为 21hrs- 点估计。 为 该系学生每周平均看书时间为 21-25 hrs- 区间估计 ,有 且有 95% 的信念,信任母体平均值为落于该区间内,即该系学生每周平均为 看书时间为 21-25 hrs 。- 此称之为点估计与区间估计-倘该系系学会宣称,为 本系学生每周平均看
5、书时间为 23 hrs ,怀疑者进行随机抽样,欲以实际的数据验证与驳斥此宣称,然数据显示怀疑者是 不能驳斥此宣称 ,因为, 为 该系学生每周平均看书时间为 23 hrs 的确在 95% 信任间 区间 21-25 hrs 之内。倘该系系学会宣称,为 本系学生每周平均看书时间为 30 hrs ,怀疑者进行随机抽样,欲以实际的数据验证与驳斥此宣称,然数据显示怀疑者 能驳斥此宣称 ,因为, 为 该系学生每周平均看书时间为 30 hrs 不在 95% 信任区间 间 21-25 hrs 之内。- 此过程称之为假设检定-2.3 统计在现代社会所扮演的角色 以事实( 数字) 作决策 政治经济- 民调、得票率预
6、料、失业率预料、各项经济指标 商业方面- 市场占有率、利率、汇率 企管方面- 物管、人管、财管、品管 工程方面- 质量、牢靠度、交通流量 农业方面- 品种改良、生产量、胜利率与存活率 医药方面- 流行病的感染模式、胜利率与存活率 教化方面- 教学评鉴、犯罪率 观光方面- 旅游景点的受欢迎程度、周休二的影响 响2.4 统计学的发展 于 源于 1 世纪 ,领导者或君主为了解国家(State) 的人口、经济、生产、税赋、天文与气候等。 到 直到 18 世纪左右,主要偏向数据与图形显示的范围,即所谓学 叙述统计学(Descriptive Statistics)- 将资料予以分析后,用数据、模式或图表陈
7、示出来。 19 世纪末和 20 世纪初,演化包括数据的说明、数据分析归纳、更精确的估计与检定结果、与模式建构等,即所谓 推论统计学(Inferential Statistics) 或分析统计学(Analytic Statistics)-由 由 随机描样,经样本统计量去推论母体参数,或检定母体参数。对动态数据则有趋势分析、建构模式与预料的功能。现代统计学大师 1 、 Karl Pearson, (1875-1936)- 介绍简洁的统计量,如 众数 、 标准偏差 及 相关系数 ,尤其 回来分析 观念和 卡方检定 都为其贡献。2 、 R. A. Fisher, (1890-1962)- 提出小样本统
8、计方法,并建立 一样性 、 有效性 、 充分性 、 最也许似法 等,提出试验设计 ,另其对 常态安排和 和 t 安排 的理论与应用都有极大贡献。3 、 J. Neyman, (1894-1981) and Egon Pearson, (1895-)-在 估计 与 检定 方面供应理论基础,如提出型 型I、 、型 型II误差 及 检定力 、 信任区间 等观念。4 、 A. Wald, (1902-1950)- 统计 决策理论 之始祖。数学、社会科学与统计学之关系上游數學( 原料供应者) 中游統計( 產品生產者) 下游社會科學( 產品消費者)做统计工作时,须注此意数学与统计不同之处 1 、 100/
9、300 = 1/3 ,数学式 100/300 = 1/3 是恒等式,但抽 在统计却有不同的意义。如于一母体中抽 3 人 人 ,其中有 有 1 人 人是 是男生,则男生所占样本的比例是 1/3, , 如此可能无证据说明此母体中的男女生比例不是各占一半抽 ;但倘于此母体中抽 300 人 人有 ,其中有 100 人 人 是男生,为 则男生所占的样本比例为 1/3, , 如此已有证据说明此母体内男女生比例不是各占一半。2 、 49/100 1/2 ,在数学上此式是对的,但在统计检抽 定时,倘于此母体中抽 100 人,其中有 49 人是男生,为 则男生所占的样本比例为 49/100 ,虽然 49/100
10、 1/2, ,是 但可能无足够证据说明此母体内男生比例不是 1/2 的 的结论。 统计计算常用软件 Excel 、Minitab 、Matlab 、 、SAS 、SPSS 、Statistica2.5 统计资料的整理与描述 探讨自然或社会现象,首先要搜集相关的统计资料。接着对所搜集的资料进行处理描述,并制作统计图表,以简洁、有系统的方式,陈示说明数据的主要内容与特性,使之一目了然。藉由统计资料去了解母体的特性( 参数) ,常用代表 集中趋势的统计量,如样本的平均值 ; 与 代表离散的统计量,如样本的变异数或标准偏差 。此即叙述统计量。(Measures of Central Tendency-
11、Location) (Measures of Dispersion-Scale) 2.5.1 统计资料的搜集一般数据依性质可分为:连续型数据与离散型数据 1. 连续型资料(Continuous Data) :如量测身高、体重、容量、重量、长度等数据,它是一种 计量尺度(Metric Sacle)。,而且理论上可以量到小数点以下几位的数据。2. 离散型资料(Discrete Data) :它是一种 计数尺度 ,又细分三型- 类别尺度、依次尺度、比率尺度。(1) 类别尺度(Nominal Scale)- 依数据性质分类并赐予特殊数值或代号。如女性= 0 、男性= 1 ;合格= 、不合格=&time
12、s; × ;红色= 1 、黄色= 2、 、 蓝色= 3。此类别表示之数值或记号只区分类别,没有大小、依次或比率关系。其仅能计算某类别代号出现的次数或频率,其计算平均数则无意义。(2) 依次尺度(Ordinal Scale)- 依数据的重要性、强弱、好坏程度区分,赐予大小不等的数值。如小学= 1、 、中学= 2 、高校= 3 、探讨所= 4 ;很便宜= 1 、便宜= 2、 、一般= 3 、贵= 4 、很贵= 5。此类别虽在等第上有好坏、凹凸之分别, 但无从比较差距。(3) 比率尺度(Ratio Scale)- 以某一特定对象为基准,其他现象相对于此一标准的比值。例如,经济成长率、人口
13、成长率。2.5.2 数据处理与展示- 统计图表 人类辨识影像图形的实力,一般优于辨识数字与文字。千言万言的说明叙述,有时反不及图表的效果。字不如表, 表不如图 。制作统计图表,即以简洁、有系统的方式,陈示说明数据的主要内容与特性,使之一目了然。常用统计图表 (a) 次数安排或频率表- 直方图 (1) 确定所须组数。 (2) 计算全部数据的全距(Range) 。R = max-min 。并求出组距C = 全距/ 组数 (3) 求出各组的组距与组界 (4) 确定各组的频数 (5) 作直方图 Sturges Formula k( 組數)=1+3.32 log(n) , n= 樣本數 When n=
14、40k=1+3.32 log(40)= 6.36-7 組數 或依下列原則分組 n 50-100 100-250 250 以上 k 6-10 7-12 10-20为 例题:某技术员用车床车制螺丝,要求其直径为 10mm 。为了了解该的 技术员的加工质量,抽查其加工的 100 个螺据 丝,分别测得其直径数据 100 个。螺丝直径数据(100 个)10.24 9.94 10 9.99 9.85 9.94 10.42 10.3 10.36 10.09 10.21 9.79 9.7 10.04 9.98 9.81 10.13 10.21 9.84 9.55 10.01 10.36 9.88 9.22 1
15、0.01 9.85 9.61 10.03 10.41 10.12 10.15 9.76 10.57 9.76 10.15 10.11 10.03 10.15 10.21 10.05 9.73 9.82 9.82 10.06 10.42 10.24 10.6 9.58 10.06 9.98 10.12 9.97 10.3 10.12 10.14 10.17 10 10.09 10.11 9.7 9.49 9.97 10.18 9.99 9.89 9.83 9.55 9.87 10.19 10.39 10.27 10.18 10.01 9.77 9.58 10.33 10.15 9.91 9.67
16、 10.1 10.09 10.33 10.06 9.53 9.95 10.39 10.16 9.73 10.15 9.75 9.79 9.94 10.09 9.97 9.91 9.64 9.88 10.02 9.91 9.54 Max. = 10.60 ; Min. = 9.22 ; Range = 1.38 ;k = 7 (n =100) ; 组距 = 1.38/7 = 0.192 0.2 为使得全部数据不会落在组界上,并保证最小值9.22 落在第一组内,故取第一组的 组下限等于最小值减去最小量测单位的一半( 即0.01/2 = 0.005) 。则 第一组的 组下限 = 9.22 &ndas
17、h; 0.005 = 9.125 第一组的 组上限 = 第一组的 组下限+ 组距= 9.215 + 0.2 = 9.415接着,确定各组的频数 组 组 别 频 频 数 第一组:9.215 9.415 1 其次组:9.415 9.615 8 第三组:9.615 9.815 14 第四组:9.815 10.015 29 第五组:10.015 10.215 32 第六组:10.215 10.415 12 第七组:10.415 10.615 4 最终作直方图 直方图可以种方式表示:(1) Frequency (2) Cumulative Frequency (3) Percent (4) Cumula
18、tive Percent (3-1) Relative Fequency (3-2) Cumulative Relative Frequency (5) Density (6) Cumulative Density 9.20 9.45 9.70 9.95 10.20 10.45 10.700102030脸捣 畖(k=7)Frequency 螺丝直径落在直方图的可能性大小是以其高度表示,另由数学应用便利的角度观之,各直方的面积表示可能大小,由于各组的组距,即直方的宽度是相等的,因此用直方面积表示与用直方的高度表示是相同的。(b) 散布图系对两组变量之间关系感爱好,组成这两组变量的对应称 图,又称
19、 XY 散布图。范例: 身高 132 149 160 140 138 154 145 151 136 140 体重 38 45 58 40 38 53 41 47 34 36 10 學童身高- 體重散佈圖30405060130 140 150 160身高體重(c) 盒图或盒须图(Box Plot or Box and Whisker Plot)盒图中有微小值、极大值、Q 1,Q 2 ,Q 3 。范例:修改后 16.85 16.40 17.21 16.35 16.52 17.04 16.96 17.15 16.59 16.57 修改前17.5 17.63 18.25 18 17.86 17.75
20、 18.22 17.9 17.96 18.15(d) 柏拉图法(Pareto’s Diagram) 80/20 法则:80% 的问题是来自 20% 的源头。问题区分 少数重要项目(Vital Few)、 、 多数稍微项目(Trivial Many) 的分法称之为柏拉图原则- 重点的驾驭。Example of Pareto AnalysisThe data in Table 1 has been recorded for peach arriving at Super Market during August. Table 1 Raw data for Pareto Analysis
21、 Problem Categories Peaches Lost Bruised( 有受伤的) 100 Undersized( 太小的) 87 Rotten( 腐烂的) 235 Underripe( 未熟的) 9 Wrong Variety( 品种不同的) 7 Wormy( 有虫的) 3The Pareto table for the data in Table 1 is shown in Table 2. Rank Category Count Percentage Cum% 1 Rotten( 腐烂的) 235 53.29 53.29 2 Bruised( 有受伤的) 100 22.68
22、75.97 3 Undersized( 太小的) 87 19.73 95.70 4 Other 19 4.31 100.01RottenBruisedUndersizedOthers235 100871953.3 22.7 19.74.3 53.376.095.7 100.0050100150200250300350400450020406080100DefectCountPercentCum %PercentCountPareto Chart for CATEGORIES2.6 样本统计量( 统计量)(Sample Statistic) 统计图表可便利展示数据,但对于数据的 深化分析,其精确度与广度仍不足。为了探讨母体的特性( 参数) ,仍须用一些统计量测数,藉以了解母体的特性。常用的统计量测数为代表 集中趋势 统计量、代表 离散 统计量与 形态 统计量,来表达母体的安排情形。这些 样本统计量 亦称之 样本的特征值。2.6.1 集中.