《数学建模中的统计方法介绍ppt课件.ppt》由会员分享,可在线阅读,更多相关《数学建模中的统计方法介绍ppt课件.ppt(428页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、同济大学 数学系 数学建模中的统计方法同济大学 数学系 数学建模中的统计方法介绍 数据预处理与统计软件的选择 显著性检验 拟合优度检验和独立性检验 非参数检验 方差分析 回归分析 主成分分析 因子分析 聚类分析 判别分析数据预处理 为什么要预处理数据 描述性数据汇总 数据清理 数据集成和变换 数据归约 数据离散化和概念分层产生3同济大学 数学系 4数据预处理的原因 正确性(Correctness) 一致性(Consistency) 完整性(Completeness) 可靠性(Reliability) 数据质量的含义数据质量的含义 同济大学 数学系 现实世界的数据 不完整的 缺少属性值或某些感兴
2、趣的属性,或仅包含聚集数据。 含噪声的 包含错误或存在偏离期望的离群值。 不一致的 采用的编码或表示不同,如属性名称不同 冗余的 如属性之间可以相互导出同济大学 数学系 6数据错误的不可避免性 数据输入和获得过程数据错误 数据集成所表现出来的错误 数据传输过程所引入的错误 据统计有错误的数据占总数据的5%左右同济大学同济大学 数学系数学系 数据错误的危害性 高昂的操作费用 糟糕的决策制定 组织的不信任 分散管理的注意力同济大学 数学系 8数据预处理的形式 数据清理 补充缺失数据、平滑噪声数据、识别或删除离群点,解决不一致 数据集成 集成多个数据库、数据立方或文件 数据变换 规范化和聚集 数据归
3、约 简化数据、但产生同样或相似的结果同济大学 数学系 数据预处理的形式同济大学 数学系 数据预处理的意义 现实世界的数据一般是脏的、不完整的和不一致的。 数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。 高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。 检测异常数据、尽早地调整数据并归约待分析的数据,将在决策过程中得到高回报。同济大学 数学系 描述性数据汇总 获得数据的总体印象对于成功的数据预处理是至关重要的。 描述性数据汇总技术可以用来识别数据的典型性质,突显哪些数据值应当视为噪声或离群点。 动机:更好的理解数据。 主要内容:度量数据的
4、中心趋势和离散程度、描述数据汇总的图形显示。同济大学 数学系 度量数据的中心趋势 算数平均值 最常用 分布式度量 可以通过如下方法计算度量(即函数):将数据集划分成较小的子集,计算每个子集的度量,然后合并计算结果,得到原(整个)数据集的度量值。 求和、计数、最小、最大同济大学 数学系 度量数据的中心趋势 代数度量 可以通过应用一个代数函数于一个或多个分布度量计算的度量。 均值、中列数 整体度量 必须对整个数据集计算的度量。 中位数、众数同济大学 数学系 代数度量 mean(): 加权平均: 截断均值:去掉高、低极端值得到的均值。减小极端值对均值的影响。 中列数(midrange ):(max+
5、min)/211niixxn11niiiniiw xxw同济大学 数学系 整体度量 中位数(median):适用于倾斜的数据。近似值计算如下: 设N个数值排序,若N为奇数,中位数是有序集的中间值;若N为偶数,中位数是中间两个值的平均值。 例如:1,3,5,7 中位数4 1,3,5,6,7 中位数51/2()()lmediannfmedianLcf 同济大学 数学系 整体度量 众数(mode):集合中出现频率最高的值。 单峰、多峰(双峰、三峰)、无众数 对于适度倾斜的单峰频率曲线,有如下的经验关系:3 ()meanmodemeanmedian 同济大学 数学系 17中位数、均值和众数中位数、均值
6、和众数同济大学 数学系 18 极差最大值与最小值之差 四分位数中位数是第50个百分位数,是第2个四分位数第1个是第25个百分位数,Q1 中间四分位数极差 IQR = Q3 Q1 离群点outlier与数据的一般行为或模型不一致的数据对象 盒图 方差、标准差反映了每个数与均值相比平均相差的数值度量数据的离散程度度量数据的离散程度同济大学 数学系 度量数据的离散程度 盒图boxplot,也称箱线图 从下到上五条线分别表示最小值、下四分位数Q1 、中位数、上四分位数Q3和最大值 盒的长度等于IRQ 中位数用盒内的横线表示 盒外的两条线(胡须) 分别延伸到最小和最大观测值。同济大学 数学系 盒形图同济
7、大学 数学系 盒图的功能 1.直观明了地识别数据集中的离群点 2.判断数据集的偏态和尾重 3.比较几批数据的形状 同济大学 数学系 同济大学 数学系 23 直方图、 分位数图、分位数-分位数图(q-q图) 散布图、散布图矩阵 局部回归(Loess)曲线基本描述数据汇总的图形显示基本描述数据汇总的图形显示同济大学 数学系 直方图 Histogram 概括给定属性分布的图形方法 每个矩形等宽同济大学 数学系 分位数图 Quantile Plot 观察单变量数据分布的简单有效方法同济大学 数学系 散布图scatter plot 直接观察是否存在簇(cluster),离群点等 每个点对应一个坐标对同济
8、大学 数学系 局部回归(Loess)曲线 添加一条光滑曲线到散布图同济大学 数学系 数据清理现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理的任务: 填充缺失的值,光滑噪声并识别离群点,纠正数据中的不一致。同济大学 数学系 29 忽略元组 人工填写空缺值 使用一个全局常量填充空缺值 使用属性的平均值填充空缺值 使用与给定元组属同一类的所有样本的平均值 使用最可能的值填充空缺值缺失值缺失值 同济大学 数学系 30 分箱:通过考察数据的“近邻”(周围的值)来光滑有序数据的值。局部光滑。 回归:用一个函数(回归函数)拟合数据来光滑数据。 聚类:将类似的值聚集为簇。 其他:如数据归约、离散化
9、和概念分层。噪声数据噪声数据同济大学 数学系 31 分箱: 通过考察数据的“近邻”(周围的值)来光滑有序数据的值。局部光滑。划分:等频、等宽光滑:用箱均值、用箱中位数、用箱边界(去替换箱中的每个数据)噪声数据噪声数据同济大学 数学系 分箱法光滑数据q Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34* Partition into equal-frequency (equi-depth) bins: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 2
10、5 - Bin 3: 26, 28, 29, 34* Smoothing by bin means: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29* Smoothing by bin boundaries: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34同济大学 数学系 回归:用一个函数(回归函数)拟合数据来光滑数据。线性回归多元线性回归 聚类:将类似的值聚集为簇。检测离群点同济大学 数学系 回归Regression
11、xyy = x + 1X1Y1Y1同济大学 数学系 聚类Cluster Analysis同济大学 数学系 数据清理作为一个过程 偏差检测 使用“元数据” 编码使用的不一致、数据表示的不一致、字段过载等 一些规则:唯一性规则、连续性规则、空值规则。 商业工具:数据清洗工具、数据审计工具 数据变换(纠正偏差) 数据迁移工具 提取/变换/载入(ETL)工具 加强交互性 数据清理工具:Potters Wheel 开发数据变换操作规范说明语言同济大学 数学系 数据集成和变换 数据集成合并多个数据源中的数据,存放在一个一致的数据库(如数据仓库)中。 源数据可能包括多个数据库,数据立方体或一般文件。 数据变
12、换将数据转换或统一成适合于挖掘的形式。同济大学 数学系 38 实体识别元数据可帮助避免错误 属性冗余相关分析 数据重复(元组冗余) 数据值冲突的检测与处理表示、比例或编码不同数据集成数据集成同济大学 数学系 39 平滑:去掉数据中的噪声。技术包括分箱、回归、聚类。 聚集Aggregation :对数据进行汇总或聚集。 数据泛化(概化):使用概念分层,用高层概念替换低层或“原始”数据。 规范化:将属性数据按比例缩放,使之落入一个小的特定区间。最小-最大、Z-Score、按小数定标规范化。 属性构造(特征构造):由给定的属性构造新的属性并添加到属性集中,以帮助挖掘过程。可以帮助提高准确率和对高维数
13、据结构的理解。数据变换数据变换同济大学 数学系 规范化 1)最小-最大规范化:将原始数据v经线性变换,映射到区间new_minA, new_maxA例如:income的最大,最小值分别为9000,2000,则将它的值映射到0,1时,若income的值6800规范后为: (6800-2000)/(9000-2000)*(1-0)+0=0.686min(_max_min )_minmaxminAAAAAAvvnewnewnew同济大学 数学系 存在问题: 若存在离群点,可能影响规范化 若在规范化后添加新的数据,当新数据落在原数据的区间minA, maxA之外,将导致“越界”错误。同济大学 数学系
14、规范化 2) z-score规范化(零均值规范化):属性A的值基于A的平均值和标准差规范化。 对离群点不敏感AAvv同济大学 数学系 数据归约 Data Reduction 对海量数据进行复杂的数据分析和挖掘将需要很长时间,使得这种分析不现实或不可行。 数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近保持原数据的完整性。 对归约后的数据集挖掘将更有效,并产生相同(或几乎相同)的结果。同济大学 数学系 数据归约 数据归约策略: (1)数据立方体聚集:对数据立方体做聚集操作 (2)属性子集选择:检测并删除不相关、弱相关或冗余的属性和维。 (3)维度归约:删除不重要的属性 (4)数值归约
15、: 用规模较小的数据表示、替换或估计原始数据 (5)离散化和概念分层(concept hierarchy)产生 属性的原始数值用区间值或较高层的概念替换同济大学 数学系 数据立方体聚集 数据立方体存储多维聚集信息,提供对预计算的汇总数据进行快速访问。 如:立方体内存储季度销售额,若对年销售额感兴趣,可对数据执行聚集操作,例如sum()等。同济大学 数学系 同济大学 数学系 同济大学 数学系 属性子集选择 通过删除不相关或冗余的属性(或维)减小数据集。 其目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。 通过穷举搜索找出有属性的最佳子集是不现实的。通常采用压缩搜索
16、空间的启发式算法。如贪心算法:从局部最优到全局最优。逐步向前选择逐步向后删除向前选择和向后删除的结合决策树归纳同济大学 数学系 维度归约 维度归约使用数据编码或变换,以便得到原数据的归约或“压缩”表示。分为无损和有损两种。 主要方法: 串压缩:无损,但只允许有限的数据操作。 小波变换(DWT):有损,适合高维数据。 主成分分析(PCA):有损,能更好地处理稀疏数据。同济大学 数学系 数值归约 通过选择替代的、“较小的”数据表示形式来减少数据量。 可以分为参数方法和非参数方法。 参数方法:回归(regression )和对数线性模型 非参数方法:直方图、聚类、抽样同济大学 数学系 抽 样 用数据
17、的小得多的随机样本(子集)不是大型数据集。 抽样方法 s个样本无放回简单随机抽样(SRSWOR) s个样本有放回简单随机抽样(SRSWR) 聚类抽样 分层抽样同济大学 数学系 数据离散化和概念分层产生 数据离散化技术用少数区间标记替换连续属性的数值,从而减少和简化了原来的数据。 可以对一个属性递归地进行离散化,产生属性值的分层或多分辨率划分,称作概念概念分层分层。 概念分层(concept hierarchy)用于归约数据:用较高层的概念替换较低层的概念。同济大学 数学系 概念分层(-$400 -$5,000)(0 - $1,000)(0 - $200)($200 - $400)($400 -
18、 $600)($600 - $800)($800 - $1,000)($2,000 - $5, 000)($2,000 - $3,000)($3,000 - $4,000)($4,000 - $5,000)($1,000 - $2, 000)($1,000 - $1,200)($1,200 - $1,400)($1,400 - $1,600)($1,600 - $1,800)($1,800 - $2,000)同济大学 数学系 概念分层countryprovince_or_ statecitystreet15 distinct values365 distinct values3567 dist
19、inct values674,339 distinct values同济大学 数学系 统计软件的选择 Sas R Spss Matlab Excel同济大学 数学系 均数差异显著性检验第二节第二节 百分率资料的假设检验百分率资料的假设检验 第一节第一节 小样本均数的假设检验小样本均数的假设检验 同济大学 数学系 认识样本均数、率的假设检验认识样本均数、率的假设检验 一、单个平均数的假设检验二、两个平均数的假设检验三、多个平均数的假设检验二. 两个样本百分率差异的假设检验 一. 单个样本百分率的假设检验 样本均数假设检验样本百分率的假设检验 同济大学 数学系 【例4-2】 某屠宰场收购了一批商品
20、猪,一位有经验的收购人员估计这批猪的平均体重为100 kg,现随机抽测10头猪进行称重,得体重数据如下:115,98,105,95,90,110,104,108,92,118(kg),试检验此收购人员的估计是否正确?【例4-1】测定了某品种37头犊牛100g血液中总蛋白的含量,其平均数为4.263g;该品种成年母牛100g血液中总蛋白含量为7.570g,标准差为1.001。问该品种犊牛和成年母牛血液中总蛋白含量是否存在显著差异?1、当总体方差2 2已知2、当总体方差2 2未知注:大样本资料相当于总体方差2已知,可用样本标准差代替总体标准差同济大学 数学系 两个平均数的假设检验1 、非配对数据平
21、均数的比较、非配对数据平均数的比较【例4.4】 某种猪场分别测定长白后备种猪和蓝塘后备种猪90kg时的背膘厚度,测定结果如下表所示。设两品种后备种猪90kg时的背膘厚度值服从正态分布,且方差相等,问该两品种后备种猪90kg时的背膘厚度有无显著差异?两样本所属总体方差两样本所属总体方差 为已知为已知【例4-3】测定了31头犊牛和48头成年母牛血液中血糖的含量,得犊牛的平均血糖含量为81.23,标准差为15.64。成年母牛的平均血糖含量为70.43,标准差为12.07。犊牛和成年母牛间血糖含量有无显著差异?两样本所属总体方差两样本所属总体方差 未知但相等未知但相等两样本所属总体方差两样本所属总体方
22、差 未知也不相等未知也不相等 ,即方差不齐,即方差不齐两个平均数的假设检验【例4.5】 用家兔10只试验某批注射液对体温的影响,测定每只家兔注射前后的体温,见下表。设体温服从正态分布,问注射前后体温有无显著差异?2 、配对数据平均数的比较、配对数据平均数的比较 在进行统计检验时,可将对子内两个个体间的差数(在进行统计检验时,可将对子内两个个体间的差数(d d)作为一个新的样)作为一个新的样本来分析,从而将两个总体均数的比较假设检验转变为单个总体均数的检验,本来分析,从而将两个总体均数的比较假设检验转变为单个总体均数的检验,而不必考虑两样本所在总体方差而不必考虑两样本所在总体方差 是否相等。是否
23、相等。同济大学 数学系 多个平均数的假设检验【例4-6】 某地乳牛的隐性乳房炎患病率为 ,该地某牛场对560头乳牛进行检测,其中148头牛检测结果为阳性,问该牛场的隐性乳房炎是否与该地平均患病率相同。方差分析方差分析单个样本百分率的假设检验 两个样本百分率差异的假设检验 【例4-7】 检验鸡痢疾菌苗对鸡白痢的免疫效果。试验组接种了345羽鸡,结果有51羽发生鸡白痢,对照组(未注射鸡痢疾菌苗组)420羽鸡有79羽发生了鸡白痢。问痢疾菌苗对鸡白痢是否有免疫效果?小样本均数的假设检验 当总体方差2 2已知时,可以根据标准正态离差 xxu计算出样本平均数在某一区间内出现的概率值计算出样本平均数在某一区
24、间内出现的概率值用用u值进行的统计假设检验就称为值进行的统计假设检验就称为u-检验(检验(u -test) 当总体方差2 2未知,而样本容量又较小时 样本方差S S2 2估计总体方差2 2,其统计量: xSxt不再服从标准正态分布,而是不再服从标准正态分布,而是t-分布分布用用t值进行的统计假设检验就称为值进行的统计假设检验就称为t-检验(检验(t -test) 小样本资料的假设检验一般采用t -检验,大样本资料的假设检验一般采用u -检验 同济大学 数学系 在实际工作中我们往往需要检验一个样本平均数与已知的总体平均数是否有显著差异,即检验该样本是否来自某一总体。已知的总体平均数一般为一些公认
25、的理论数值、经验数值或期望数值。如畜禽正常生理指标、怀孕期、家禽出雏日龄以及生产性能指标等,都可以用样本平均数与之比较,检验差异显著性。单个样本平均数的假设检验单个样本平均数的假设检验就是检验某一样本是否来自于某一特定总体单个样本平均数的假设检验就是检验某一样本是否来自于某一特定总体检验样本所属总体的总体平均数是否等于某一特定总体的总体平均数检验样本所属总体的总体平均数是否等于某一特定总体的总体平均数同济大学 数学系 检验的基本步骤检验的基本步骤同济大学 数学系 同济大学 数学系 同济大学 数学系 例: 测定了某品种37头犊牛100g血液中总蛋白的含量,其平均数为4.263g;该品种成年母牛1
26、00g血液中总蛋白含量为7.570g,标准差为1.001。问该品种犊牛和成年母牛血液中总蛋白含量是否存在显著差异?(1)提出假设H0:=7.570g HA:7.570g (2)计算 值1、当总体方差2 2已知犊牛和成年母牛间血液中总蛋白含量无显著差异犊牛和成年母牛间血液中总蛋白含量无显著差异犊牛和成年母牛间血液中总蛋白含量存在显著差异犊牛和成年母牛间血液中总蛋白含量存在显著差异同济大学 数学系 (3)查表、推断P0.01 说明犊牛和成年母牛间血液中总蛋白含量存在极显著差异。说明犊牛和成年母牛间血液中总蛋白含量存在极显著差异。差异显著 否定无效假设否定无效假设H0 ,接受备择假设,接受备择假设H
27、A xxu总体标准误:总体标准误: 计算公式:计算公式: 同济大学 数学系 例:某鸡场饲养了一批肉仔鸡,42日龄时随机抽取了16只进行称重,体重资料如下:1820,1690,1790,1770,1810,1740,1760,1730,1790,1810,1780,1820,1710,1790, 1830,1780,一位有经验的收购人员估计这批商品肉仔鸡42日龄体重均数为1800g。试检验此收购人员的估计是否正确?(1)提出假设H0:=1800g HA:1800g (2)计算 t 值2、当总体方差2 2未知同济大学 数学系 样本平均数:样本平均数: 25.1776x样本标准差:样本标准差: 97
28、.40S样本标准误:样本标准误: nSSx1697.4024.10 xSxt024.10180025.1776319. 2(3)查表、推断df = n-1 = 16-1 = 15 t0.05,15= 2.131t0.01,15=2.947 |t|=2.319 t0.05,15 P0.05 说明这批肉仔鸡平均体重与估计值之间说明这批肉仔鸡平均体重与估计值之间“差异显著差异显著”,即该收购人,即该收购人员的估计不正确。员的估计不正确。差异显著 否定无效假设否定无效假设H0 ,接受备择假设,接受备择假设HA 同济大学 数学系 例:三秋龄上市螃蟹体重一般为160g,今从洪泽湖捕获一批三秋龄螃蟹,随机抽
29、取其中16只称重,得体重分别为:153,160,150,154,169,159,153,153,143,152,161,162,158,148,157,167,问这批螃蟹长势是否正常? 同济大学 数学系 两个样本平均数差异的假设检验就是根据两个样本平均数间的差值来推断这两个样本所属总体是否有显著差异。在进行两个样本的比较试验时,一般有两种试验设计方法: n 配对设计两个样本的试验单位(如试验动物)是配对的(即配对试验),所得到的样本观测值也是配对的(即配对数据) 在进行试验设计时,把条件相似的两个供试动物配成一对,每一个对子内的2个个体在遗传基础、体况、性别等各个方面尽可能地相似,而对子和对子
30、之间可适当有所不同。每个对子内随机挑选其中一个个体进入对照组,另外一个个体进入处理组,这样的试验称之为配对试验。 配对试验结束后得到的试验数据就是配对数据。 二二. 两个样本平均数差异的假设检验同济大学 数学系 配对试验的方法很灵活:配对试验的方法很灵活: 每个对子可以是一对动物 每个对子可以是同一个个体在不同时期进行不同的试验处理 每个对子可以是同一个个体用不同的方法进行的分析 n 非配对设计两个样本的试验单位是相互独立的、非配对的(非配对试验),所得到的样本观测值也是非配对的(非配对数据)。 非配对设计3个特征: 随机抽样 随机分组 随机处理同济大学 数学系 同济大学 数学系 非配对数据平
31、均数的比较样本平均数差数的抽样分布:)11(212221nnSSxxS2称为两样本的合并均方 ) 1() 1()()(212222112nnxxxxS2)()(212222212121nnnxxnxx均数差异标准误: )11(212nnS21xxSnSSx同济大学 数学系 21212222212121112)()(nnnnnxxnxx)11(212nnS21xxS当n1= n2= n时: ) 1()()(2222212121nnnxxnxxSxx如果两样本均方已知,则合并均方为: ) 1() 1() 1() 1(212222112nnSnSnS) 1() 1()()(212222112nnxx
32、xxS同济大学 数学系 2121222211112) 1() 1(21nnnnSnSnSxx当n1= n2= n时 nSSnnSSnSxx22212221) 1()(1(21如果对样本平均数的差数进行标准化,可得:如果对样本平均数的差数进行标准化,可得:21)()(2121xxSxxt在无效假设成立的前提下,在无效假设成立的前提下, 1=2或或1-2= 0 2121xxSxxt下一张下一张 首首 页页 退退 出出 上一张上一张 总体同济大学 数学系 检验的基本步骤同济大学 数学系 其中nSSx同济大学 数学系 下一张下一张 首首 页页 退退 出出 上一张上一张 同济大学 数学系 例:发酵法生产
33、兽用青霉素的两个工厂,其产品收率的方差分别为 。测得甲工厂25个数据, g/L,乙工厂30个数据, g/L,问这两个工厂兽用青霉素的收率是否有显著差异?(1)提出假设(2)计算 值两样本所属总体方差两样本所属总体方差 为已知为已知总体差异标准误:总体差异标准误: 计算公式:计算公式: 同济大学 数学系 (3)查表、推断说明实得差异由抽样误差造成,应认为两工厂兽用青霉素的收率无说明实得差异由抽样误差造成,应认为两工厂兽用青霉素的收率无显著差异。显著差异。差异不显著 接受备择假设接受备择假设H0 附:附: 同济大学 数学系 例 随机抽取了长太仔猪、太湖仔猪若干头,进行饲养试验,得净增重数据(单位:
34、)如下,比较两种仔猪的生长快慢(已知两总体方差相等)。长太长太3535323228283232373729293434353532323333太湖太湖26262929272728283434333329293232(1)提出假设 H0:1=2 HA:12 (2)计算 t 值 计算一级数据:计算一级数据:714023875.291076132770.3222222111xxxxxx两样本所属总体方差两样本所属总体方差 未知但相等未知但相等同济大学 数学系 21212222212121112)()(21nnnnnxxnxxSxx8110128108)238(714010)327(107612234
35、.12121xxSxxt34. 175.2970.3220. 2同济大学 数学系 (3)查表、推断) 1() 1(21nndf16) 18() 110(t0.05,16=2.120 t0.01,16=2.921 |t|=2.20 t0.05,16 P0.05 差异显著 否定无效假设,接受备择假设否定无效假设,接受备择假设长太杂交仔猪的生长速度与纯种太湖仔猪的生长速度相比“差异显著” 长太杂交仔猪的生长速度显著快于纯种太湖仔猪 下一张下一张 首首 页页 退退 出出 上一张上一张 同济大学 数学系 比较同一规格同一水体条件下生长的两种鲫鱼的增重情况,从鱼塘中随机捕获若干尾,饲养若干天后,称重得如下
36、数据,试问两种鲫鱼的增重是否存在差异? 异育银鲫异育银鲫495480505515510510490495505515湘云鲫湘云鲫485505490495480480515500同济大学 数学系 在进行配对数据平均数的比较时,首先假设两个样本所属总体平均数在进行配对数据平均数的比较时,首先假设两个样本所属总体平均数的差值为的差值为0,即:,即: 021d设一个对子内两个个体的观测值分别为设一个对子内两个个体的观测值分别为x1、x2, 则两个观测值的差:则两个观测值的差: 21xxdn个个d值的平均数为:值的平均数为: ndd21xxd) 1()() 1()(222nnnddnnddSd差数平均数
37、的标准差,即配对数据的差异标准误为:差数平均数的标准差,即配对数据的差异标准误为:配对数据平均数的比较配对数据平均数的比较 样本标准误nSSx同济大学 数学系 如果对配对数据样本平均数差数的平均数进行标准化,可得:如果对配对数据样本平均数差数的平均数进行标准化,可得: ddSdt在无效假设成立的前提下,即:在无效假设成立的前提下,即:021ddSdt 1 ndfn为对子数为对子数 例: 对正常健康成人测定血糖含量,随机抽取10名成年健康男子,早晨空腹时抽一次血,早餐后两小时抽一次血,检验血糖浓度的变化状况,测定结果如下,试比较两次抽血的测定结果有无显著差异?12345678910空腹空腹3.9
38、4.15.55.84.66.04.24.95.14.8餐后餐后7.96.38.77.56.28.55.18.08.55.9同济大学 数学系 检验的基本步骤同济大学 数学系 同济大学 数学系 (1)提出假设 H0:HA:0d0d(2)计算 t 值 计算出对子内计算出对子内2个观测值间的差值:个观测值间的差值:差值差值-4.0-2.2-3.2-1.7-1.6-2.5-0.9-3.1-3.4-1.137. 2)1 . 1()2 . 2()0 . 4(101d33. 0) 1()(22nnnddSddSdt 18. 733. 037. 2同济大学 数学系 (3)查表、推断1 ndf9110t0.05,
39、9=2.262,t0.01,9=3.250 |t|=7.18 t0.01,9 P0.01 差异极显著 否定无效假设,接受备择假设否定无效假设,接受备择假设饭后血糖浓度极显著地升高了饭后血糖浓度极显著地升高了 现用藻类来代替鱼粉添加到饲料中进行试验,以验证藻类的作用,选择全同胞的仔鸡(同性别,同体况)作一对,其中一只喂添加藻类的饲料(设为处理),另一只喂添加鱼粉的常规饲料(设为对照),共选了9对仔鸡做试验,试验期为一个月,试验结束后得增重数据如下,试比较两种饲料的饲喂效果有无显著差异。123456789处理(藻类处理(藻类103091098089012501060132011901250对照(鱼
40、粉对照(鱼粉11409501030101012101020129012701360同济大学 数学系 百分率资料的假设检验百分率资料的假设检验 当百分率p或1-p不太小,且np、n(1-p)不小于5时,百分率资料的分布接近于正态分布 对于服从二项分布的百分率资料,当n充分大时,可以用u-检验来进行分析 在动物生产实践和科学研究中,有很多资料属于二项分布类型,对于这类资料一般可用百分率来表示 同济大学 数学系 单个样本百分率的假设检验单个样本百分率的假设检验 单个样本百分率的假设检验就是检验某一样本百分率所属总体百分率与理论单个样本百分率的假设检验就是检验某一样本百分率所属总体百分率与理论百分率是
41、否一致的假设检验方法,即某一样本百分率是否符合总体百分率。百分率是否一致的假设检验方法,即某一样本百分率是否符合总体百分率。样本百分率:样本百分率:p 所属总体百分率:所属总体百分率:P理论百分率:理论百分率:0P无效假设无效假设H0: 0PP 备择假设备择假设HA: 0PP 样本百分率标准误: nPPp)1 (00对单个样本百分率进行标准化,可得: pPpu0 百分率的标准误百分率的标准误同济大学 数学系 例 在正常情况下,鹅蛋的受精率一般为0.65,今某鹅场改善饲养管理条件和公母鹅配比,孵化时检测受精率,结果1000枚鹅蛋中有681枚受精,问本次改善工作是否取得了成效?(1)提出假设 (2
42、)计算u 值 H0:P = 0.65 HA:P0.65 样本百分率:样本百分率: 681. 01000681p标准误:标准误: 015. 0100035. 065. 0pnPPp)1 (00同济大学 数学系 015. 065. 0681. 0pPpu0 07. 2(3 3)查表、推断u0.05=1.96,u0.01=2.58 |u| = 2.07 u0.05, P0.05 差异显著 否定无效假设,接受备择假设,即本次改善工作使得鹅蛋的受精率显著提高了。 同济大学 数学系 2. 2. 两个样本百分率差异的假设检验两个样本百分率差异的假设检验 两样本百分率差异的显著性检验就是检验两个样本百分率所属
43、总体百分率是否一致的一种假设检验方法,或者说两样本是否来自同一总体的一种检验方法。设两个样本容量分别为n n1 1和n n2 2,两样本发生某一事件的次数分别为x x1 1、x x2 2,则两样本百分率分别为: 111nxp 222nxp 无效假设无效假设H0: 21PP 备择假设备择假设HA: 21PP 2121ppSppu21ppS样本百分率差异标准误样本百分率差异标准误 同济大学 数学系 212121212111121nnnnxxnnxxSpp例:试验某种新药对螨虫的效果,常规药施于860只虫体,死亡585只,该新药施于920只虫体,死亡672只,问新药的疗效是否好于常规药?(1)提出假
44、设 H0:P1 = P2 HA:P1P2 (2)计算u 值 新药的杀灭率:新药的杀灭率: 73.09206721p常规药的杀灭率常规药的杀灭率:68.08605852p2111nnqp同济大学 数学系 6725850.706920860p10.294qp 121211ppSpqnn110.706 0.2949208600.02160.730.682.310.02161212ppppuS(3)查表、推断u0.05=1.96,u0.01=2.58 |u| = 2.31 u0.05 P0.05 差异显著 否定无效假设,接受备择假设,即新药的杀虫效果显著好于常规药。否定无效假设,接受备择假设,即新药的
45、杀虫效果显著好于常规药。同济大学 数学系 试验用抗菌药处理鱼苗能否提高鱼苗的成活率,处理组(施用抗菌素)试养了382尾,成活309尾,对照组(未施用抗菌素)试养了278尾,成活了204尾,试问水体中施用抗菌素能否提高鱼苗的成活率? 同济大学 数学系 小样本百分率假设检验的校正当百分率资料的样本容量较大时,资料服从正态分布,可以用u u-检验来进行分析 当百分率样本容量较小时(如n25,且np2,拒绝H0;若22,接受H0kiiiinpnpf122)( 同济大学 数学系 拟合优度检验(比例检验)例:为了提高市场占有率,A公司和B公司同时开展了广告宣传。在广告宣传战之前,A公司的市场占有率为45%
46、,B公司的市场占有率为40%,其他公司的市场占有率为15%。为了了解广告战之后A、B和其他公司的市场占有率是否发生变化,随机抽取了200名消费者,其中102人表示准备购买A公司产品,82人表示准备购买B公司产品,另外16人表示准备购买其他公司产品。检验广告战前后各公司的市场占有率是否发生了变化 ( 0.05)同济大学 数学系 2检验统计量的计算过程类别类别假设比例假设比例观察频数观察频数 f期望频数期望频数np差差差的平方差的平方A公司公司0.451029012144B公司公司0.40828024其他公司其他公司0.151630-14196合计合计120020018. 8)(122kiiiin
47、pnpf同济大学 数学系 拟合优度检验 H0: 1=0.45 2=0.4 3= 0.15 H1:原假设中至少有一个不成立原假设中至少有一个不成立 = 0.05 df =(3-1)= 2 临界值临界值(s):统计量统计量: 在 = 0.05的水平上拒绝H0可以认为广告后各公司产品市场占有率发生显著变化 决策决策:结论结论:208.185.99 =0.0518. 8)(122kiiiinpnpf同济大学 数学系 拟合优度检验-泊松分布 x=0,1,2,3,4!)(xuexfxu同济大学 数学系 让我们回到开始的一个例子,检验每让我们回到开始的一个例子,检验每年爆发战争次数分布是否服从泊松分布年爆发
48、战争次数分布是否服从泊松分布.提出假设提出假设H0: X服从参数为服从参数为 的泊松分布的泊松分布 按参数按参数为为0.69的泊松分布,计算事件的泊松分布,计算事件X=i 的的概率概率pi ,=0.69Xu 将有关计算结果列表如下将有关计算结果列表如下:pi的估计是的估计是,i=0,1,2,3,4!69. 0)(69. 0 xexfx根据观察结果,得参数根据观察结果,得参数 的极大似然估计为的极大似然估计为 同济大学 数学系 因因H0所假设的理论分布中有一个未知所假设的理论分布中有一个未知参数,故自由度为参数,故自由度为4-1-1=2.x 0 1 2 3 4fi 223 142 48 15 4
49、 0.50 0.35 0.12 0.03 0.005n 216.7 149.5 51.6 12.0 2.16 iiinpnpf2)(0.1830.376 0.251 1.623战争次数战争次数实测频数实测频数ip ip 14.162.43将将n 5的组予以合并,即将发生的组予以合并,即将发生3次及次及4次次战争的组归并为一组战争的组归并为一组.ip 同济大学 数学系 故认为每年发生战争的次数故认为每年发生战争的次数X服从服从参数为参数为0.69的泊松分布的泊松分布.按按 =0.05,自由度为,自由度为4-1-1=2查查 分布表得分布表得2 =5.991)2(205. 0 2 =2.435.99
50、1,由于统计量由于统计量2 的实测值的实测值未落入否定域未落入否定域.同济大学 数学系 例:检验5分钟时间段内进入该超市的顾客数是否服从泊松分布,以便合理进行员工规划。顾客到达数顾客到达数 观察频数观察频数顾客到达数顾客到达数 观察频数观察频数顾客到达数顾客到达数 观察频数观察频数 0 2 4 18 8 12 1 8 5 22 9 6 2 10 6 22 合计合计 128 3 12 7 16由126个5分钟时间段超市顾客到达的观察频数=5Xu 同济大学 数学系 表12-7 超市顾客到达的期望频数(u=5) 顾客到达数顾客到达数 泊松概率泊松概率 期望频数期望频数 (x) f(x) 128f(x