大数据全套教学课件.pptx

上传人:知****量 文档编号:78672862 上传时间:2023-03-18 格式:PPTX 页数:197 大小:2.56MB
返回 下载 相关 举报
大数据全套教学课件.pptx_第1页
第1页 / 共197页
大数据全套教学课件.pptx_第2页
第2页 / 共197页
点击查看更多>>
资源描述

《大数据全套教学课件.pptx》由会员分享,可在线阅读,更多相关《大数据全套教学课件.pptx(197页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第第 1 章章大数据概述大数据概述1.1指数时代1.2大数据特征和价值1.3大数据研究现状和发展动态1.4大数据研究存在的主要问题1.5大数据时代统计学重构意义1.1 指 数 时 代 我们现在常常用指数效应来说明这个指数时代,指数效应或者指数的颠覆性效应是现代社会一种新的常态。目前,人类产生的数据总量每两年翻一倍,所有这些都验证了摩尔定律。摩尔定律是由英特尔(Intel)创始人之一戈登摩尔(Gordon Moore)提出来的,他认为,当价格不变时,集成电路上可容纳的元器件的数目,每隔 1824 个月便会增加一倍,性能也将提升一倍。换言之,每一美元所能买到的电脑性能,将每隔 1824 个月翻一倍

2、以上。这一定律揭示了信息技术发展的速度,这也进一步带来了一系列指数式的链式反应,尽管这种趋势已经持续了超过半个世纪,摩尔定律仍被认为是观测或推测,而不是一个物理或自然法则,但所有这些都表明数据的快速增长,我们已经进入了指数社会时代1.2 大数据特征和价值大数据特征和价值1.2.1 大数据特征1.2.2 大数据价值1.21 大数据特征大数据特征4V 特点,Volume(数据量大);Velocity(输入和处理速度快);Value(价值密度低);Variety(数据多样性)大数据给我们带来三个颠覆性观念转变1.不是随机样本而是全体数据2.不是精确性而是混杂性3.不是因果关系而是相关关系1.22 大

3、数据价大数据价值值 1大数据延伸商业智能内大数据延伸商业智能内涵涵(1)客户关系管理(CRM)(2)盈利能力分析(3)控制成本(4)绩效管理2.2.大数据满足用户需求且市场空间巨大数据满足用户需求且市场空间巨大大3.3.大数据创造需求且拓宽市场边大数据创造需求且拓宽市场边界界4.4.大数据产业链分大数据产业链分析析 分为4个部分,即数据采集和整合、数据存储和运算、数据分析和挖掘、数据应用和消费5.5.大数据技术是重要生产大数据技术是重要生产力力1.3大数据研究大数据研究现现状和状和发发展展动态动态1.3.1 大数据研究现状1.3.2 大数据研究发展动态1.3.1大数据研究大数据研究现现状状“大

4、数据”并不是很大或者很多数据。第一,“大数据”并不是一部分数据样本,而是关于某个现象的所有数据;第二,由于掌握了关于某个现象的所有数据,那么在统计时就能接受更多不准确的信息;第三,“大数据”着重分析了解“什么”而不是“为什么”有学者把“大数 据”解读为巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人 工,在合理时间内达到截取、管理、处理并整理成为人类所能解读的信息。也有学者把“大数据”定义为巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到截取、管理、处理并整理成为帮助企业经营决策更积极目的资讯。什么样数据才可称其为“大数据”?目前,国内外的

5、专家学者对大数据只是在数据规模 上达成共识:“超大规模”表示的是 GB 级别的数据,“海量”表示的是 TB 级的数据,而“大数据”则是 PB 级别及其以上的数据。1.32 大数据研究发展动态大数据研究发展动态1.资源的管理与利用2.信息服务3.行业调整4关键技术1.4 大数据研究存在的主要大数据研究存在的主要问题问题1.4.1 大数据技术存在的问题1.4.2 研究方法问题1.4.3 领域融合问题1.41 大数据技大数据技术术存在的存在的问题问题1.数据采集方面2.数据存储方面3.数据分析方面4.数据显示方面5.数据安全方面1.42 研究方法研究方法问题问题 大数据研究开创了科研的第四范式,与传

6、统的逻辑推理研究不同,大数据研究是对数量巨大的数据做统计性的搜索、比较、聚类和分类等分析归纳1.43 领领域融合域融合问题问题 当前大数据研究主要集中在各个学科的科学家对本领域的海量数据的处理,信息领域的 科学家只能起到助手的作用。各领域的科学问题还掌握在各学科的科学家手里,缺乏学科之间的交叉与融合,缺乏既拥有清 清理和组织大型数据的能力又懂得“商业语言”的数据科学家。1.5 大数据大数据时时代代统计统计学重构意学重构意义义1.5.1 对大数据的初步认识1.5.2 统计思维变化1.5.3 大数据时代下统计学重构 数据统计分析,就是运用统计学的方法对数据进行处理。大数据分析离不开统计学,而传统的

7、统计学也无法解决大数据分析的问题,所以数据统计分析的方法不得不随着大数据时代的到来而发生改变。1.5.1 对对大数据的初步大数据的初步认识认识 目前通常用 4V(Volume,Variety,Velocity 和 Value)来形容大数据的特征,根本之处就是数字化基础上的数据化。通俗地说,大数据就是一切可记录信号的集合。1.5.2 统计思维变化统计思维变化 1认识数据的思维要变化 2收集数据的思维要变化 3分析数据的思维要变化1.5.3 大数据时代下统计学重构大数据时代下统计学重构 1需要改变总体、个体乃至样本的定义方式 2需要改变对不确定性的认识 3需要建立新的数据梳理与分类方法 4需要强化

8、结构化数据与非结构化数据的对接研究 5需要转变抽样调查的功能 6需要归纳推断法与演绎推理法并用 7需要相关分析与因果分析并重 8需要统计技术与云计算技术融合2.1统计学基本概念2.2数据收集处理与数据描述2.3数据描述性统计分析 第第2章章 统计基础统计基础2.1 统计统计学基本概念学基本概念 统计学是研究不确定性现象数量规律性的方法论科学,也是对客观现象进行定量分析的 重要工具。统计学可以分为理论统计学和应用统计学两类,前者侧重于统计方法的数学理论,后者侧重于统计方法在各个领域的应用。2.1.1 统计学及统计工作过程2.1.2 总体和样本2.1.3 标志与变量2.1.4 统计指标和指标体系2

9、.11统计统计学及学及统计统计工作工作过过程程1.统计统计学含学含义义 统计学是一门收集、整理、描述、显示和分析统计数据的科学,是一套由数据到结论的科学理论、方法和技术统计有其自己的特点,主要表现在以下几个方面。1)数量性2)总体性3)差异性2统计工作过统计工作过程程 统计工作是对社会调查研究以认识其本质和规律性的一种工作,这种调查研究是我们对客观事物的一种认识1)统计调查 统计调查是根据一定的目的,通过科学调查方法,收集社会经济现象实际资料的活动,主要有统计调查方案的设计及数据收集等2)统计整理获得原始数据资源从原始数据资源创建数据库编辑数据库修正和调整原始数据资源数据库的最终确定从数据库创

10、建数据文件3)统计分析统计分析所运用的方法包括两大类:描述统计和推断统计。4)结果显示统计分析结果的报告形式包括口头和书面两种2.12 总总体和体和样样本本1.总总体与体与总总体体单单位位 什么是总体,简而言之,总体就是统计所研究 对象的全体,即由具有某一共同属性的许多个别事物所组成的集合,也可以说是样本收集人员感兴趣的所有观测信息的集合;构成总体的每一个别事物称为总体单位,也叫个体。总体中总体单位的数量称为总体容量。最常见的总体是由自然物体所组成的总体。2样样本本 样本来自总体,总体是抽取样本的依据。从理论上看,样本可以大到与总体容量相同,也可以小到只包含一个总体单位2.13 标标志与志与变

11、变量量1.标标志志 总体中各单位普遍具有的属性或特征称为标志,每个总体单位从不同方面考察都具有许多属性和特征标志分为品质标志和数量标志;品质标志表明个体属性方面的特征,品质标志的表现只能用文字、语言来描述数量标志表明个体数量方面的特征,可以用数值来表现2变变量量 在统计中,狭义的变量是指说明现象某一数量特征的概念,即可变的数量标志称为变量。但是从广义上看,变量不仅指可变的数 量标志,也包括可变的品质标志。通常将可以取不同数量值的变量称为数量变量或定量变量(Quantitative Variable),将取非数量值的变量称为属性变量或定性变量或分类变量(QualitativeVariable,C

12、ategorical Variable),前者是可变的数量标志的抽象化,后者是可变的品质标志的抽象化。3计量尺计量尺度度不同的标志使用不同的计量尺度,采用不同的计量尺度可以得到不同类型的统计数据。1)定类尺度2)定序尺度3)定距尺度4)定比尺度2.14 统计统计指指标标和指和指标标体系体系1.统计统计指指标标 统计指标简称指标,是反映统计总体数量特征的概念和数值。统计指标按其所反映总体的内容和数量性质不同,分为数量指标和质量指标。统计指标按其计量单位不同,可分为实物指标和价值指标。统计指标按其反映现象的时间状态不同,可分为静态指标和动态指标。统计指标按其计算的范围不同,可分为总体指标和样本指标

13、2指标体指标体系系 统计指标体系是由一系列相互联系的统计指标所组成的有机整体,用以反映所研究现象总体各方面相互依存、相互制约的关系。例如,为了反映工业企业生产经营的全貌,需要设立产量、产值、品种、质量、职工人数、工资、劳动生产率、原材料、设备、能源消耗、财务成本等多项指标,组成工业企业统计指标体系。2.2 数据收集数据收集处处理与数据描述理与数据描述 掌握统计数据是进行分析的前提,没有统计数据,统计方法就失去了用武之地。因此,如何取得准确可靠的统计数据是统计研究的重要内容。2.2.1 数据来源2.2.2 数据质量2.2.3 数据预处理2.2.4 数据分组2.2.5 频数分布2.2.6 数据显示

14、2.21数据来源数据来源 从调查主体角度看,数据主要来源于两种渠道:一种是通过直接的统计调查或传感器获 得的原始数据,一般称之为第一手或直接的统计数据,该数据是尚未经过整理的数据;另一 种是通过他人获得的数据,这些数据一般都是进行加工汇总后公布的数据,通常称之为第二 手或间接的统计数据。2.22数据数据质质量量1.数据的数据的误误差种差种类类1)登记性误差2)代表性误差(1)随机性误差。(2)系统性误差。2数据的质量标数据的质量标准准1)数据的时效性2)数据的准确性3)数据的适用性4)数据的一致性2.23数据数据预处预处理理1.数据数据审审核核 1)准确性审核 1.逻辑性审查2.比较审查3.设

15、置疑问框审查2)适用性审查 数据的适用性审查主要是根据数据的用途,检查数据解释说明问题的程度。具体审查数据与调查主题、目标总体的界定、调查项目的解释等是否匹配。3)及时性审查 数据的及时性审查主要检查数据是否按规定时间报送,如未按规定时间报送,就需要检查未按时报送的原因。4)一致性审查 数据的一致性审查主要检查数据在不同地区或国家、在不同的时间段是否具有可比性及时性审查2数据排数据排序序 数据排序是按一定规则,如大小、高低、优劣等次序将数据排列,以便于研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。2.2.4数据分组数据分组1.数据分数据分组组的意的意义义 所谓分组,就是按照分

16、组标志将研究的问题分成若干个组成部分 在社会经济统计研究中,数据分组具有划分现象的类型、研究总体的结构和现象之间的依存关系的作用。2.数据分数据分组标组标志志1)按品质标志分组 按品质标志分组就是按事物的品质特征进行分组。2)按数量标志分组 按数量标志分组就是按事物的数量特征进行分组3数据分组体系数据分组体系1)平行分组体系:将同一总体的几个简单分组按某一规则排列起来就构成一个平行分组体系2)复合分组体系:将数据同时按两个或两个以上的标志层叠起来分组,称为复合分组。由复合分组形成的分组系列就构成复合分组体系2.2.5 频数分布频数分布1属性分布数属性分布数列列1)定类尺度的分布数列定类尺度的分

17、布数列其分组标志 各分组名称是反映类别的定类数据。2)定序尺度的分布数列定序尺度的分布数列其分组标志是定序数据。该频数分布的构造方法与定类尺度相同。2变量分布数列变量分布数列1)变量分布数列的种类 1.单项式变量数列 2.组距式变量数列两种。2)组距式变量数列的编制 组距式数列编制的具体步骤如下:确定组数;确定组距;确定组限(各组间的界限);计算组中值;频数计量及分布。2.26数据数据显显示示1.统计统计表表 统计表一般由 4 个主要部分构成,即表头、行标题、列标题和数值资料。此外,必要时可以在统计表的下方加入表外附加2.统计统计图图1)非数值型数据的统计图 作为定类尺度与定序尺度这两类非数值

18、型数据通常使用的统计图有条形图和饼图。2)数值型数据的统计图 前面介绍的非数值型数据的图示方法同样适宜数值型数据,除条形图、饼图以外,数值型数据较常采用的还有直方图、折线图、曲线图和茎叶图2.3 数据描述性数据描述性统计统计分析分析2.3.1 数据对比分析2.3.2 集中趋势测量2.3.3 离散趋势测量2.31数据数据对对比分析比分析 数据对比分析是利用相对数反映研究问题数量特征及数量关系的一种统计方法。相对数 是指两个有联系的数据的比值1.计划完成相对数2.结构相对数3.比例相对数4.比较相对数5.动态相对数6.强度相对数2.3.2集中集中趋势测趋势测量量1非数值型数据集中趋势测量非数值型数

19、据集中趋势测量 定类尺度测量 定序尺度测量2数值型数据集中趋势测量数值型数据集中趋势测量 1.平均数法(1)简单平均数(2)加权平均数(3)加权平均数变形 2.几何平均数法(1)简单几何平均数(2)加权几何平均数 3.众数法(1)单项变量数列(2)组距变量数列 4.中位数法(1)由未分组资料确定中位数(2)由分组资料确定中位数 2.33离散离散趋势测趋势测量量 离散趋势有多种测量方法,可根据数据类型及集中趋势测度值的不同来决定使用哪种方法。1.非数非数值值型数据离散型数据离散趋势测趋势测量量1)定类尺度离散趋势测量 计 算异 众比 率2)定序尺度离散趋势测量 计算四分位差和计算异众比率2数值型

20、数据离散趋势测数值型数据离散趋势测量量1)全距2)平均差3)方差与标准差4)离散系数3.1参数估计3.2假设检验3.3方差分析3.4相关与回归分析第第 3 章章数据数据统计统计分析分析3.1 参参 数数 估估 计计3.1.1 抽样推断与抽样分布3.1.2 参数估计基本方法3.1.3 总体均值区间估计3.1.4 正态总体方差的区间估计3.1.5 总体成数区间估计3.1.6 样本容量确定3.113.11抽抽样样推断与抽推断与抽样样分布分布1.1.什么是抽什么是抽样样推推断断 抽样推断是按照随机性原则,从研究对象中抽取一部分个体进行观察,并根据所得到的 观察数据,对研究对象目的的一种统计方法。2.2

21、.抽抽样样推断中的基本概念推断中的基本概念1)总体与样本2)样本容量与样本个数3)总体参数与样本统计量4)重复抽样与不重复抽样(放回抽样和不放回抽样)3抽样分抽样分布布1)样本平均数的抽样分样本平均数的抽样分布布(1)重置抽样平均数具有两个重要结论。重置抽样的样本平均数的平均数(数学期望)等于总体平均数 重置抽样的样本平均数的标准差反映了样本平均数与总体平均数的平均误差程度。(2)对于不重置抽平均数,也具有类似的两个重要结论。不重置抽样的样本平均数的平均数(数学期望)等于总体平均数 样本平均数的标准差反映了样本平均数与总体平均数的平均误差程度2)样本成数的抽样分布样本成数的抽样分布(1)样本成

22、数的平均数就是总体成数(2)对于重置抽样的样本成数的标准差反映了样本成数与总体成数的平均差异,故也称为抽样平均误差3)抽样分布定理抽样分布定理(1)样本平均数的抽样分布定理 正态分布再生定理和中心极限定理(2)样本成数的抽样分布定理4常用统计量分布常用统计量分布1)样本均值的分布2)2 分布3)t 分布4)F 分布663.1.2 参数估参数估计计基本方法基本方法1估估计计量与估量与估计计值值参数估计就是用样本统计量去估计总体参数。2点估点估计计与区与区间间估估计计参数估计的方法主要有两种,一种是点估计,即选择一个适当的统计量作为总体未知参 数的估计量;另一种为区间估计,即选择一个适当的区间范围

23、,使得总体未知参数以一定的概率被这个范围所包含3评价估计量的标评价估计量的标准准1)无偏性2)一致性3)有效性3.133.13总总体均体均值值区区间间估估计计1.1.区区间间估估计计的基本原的基本原理理 总体参数区间估计的基本原理是根据给定的概率保证程度的要求,利用实际抽样资料,指出总体估计值的上限和下限,即指出总体参数可能存在的区间范围2总体平均数的区间估计总体平均数的区间估计1)单个总体平均数的区间估计2)两正态总体平均数差的区间估计3.14 正正态总态总体方差的区体方差的区间间估估计计1.单单个正个正态总态总体方差的区体方差的区间间估估计计2.2.两正态总体方差比的区间估计两正态总体方差

24、比的区间估计3.1.5总总体成数区体成数区间间估估 3.163.16样样本容量确定本容量确定 影响必要样本容量的因素 主要有以下几种:总体各单位标志变异程度,即总体方差的大小,总体标志变异程度越大,要求样本容量要大些,反之则相反;抽样极限误差的大小,抽样极限误差越大,容量越小,反之则相反;抽样方法,在其他条件相同时,重复抽样比不重复抽样要求样本容量大些;抽样推断的概率保证程度的大小,概率越大,要求样本容量越大,反之则相反。1.估计总体平均数时样本容量的确定2.估计总体成数时样本容量的确定3.确定样本容量时应注意的问题p733.2 假假 设设 检检 验验 假设检验是统计推断的重要内容,它是利用样

25、本资料计算统计量的取值,以此来检验事先对总体某些数量特征所作的假设是否成立,并做出判断或决策的一种统计方法。3.2.1 假设检验基本问题3.2.2 总体平均数检验3.2.3 正态总体方差假设检验3.2.4 总体成数检验733.21假假设检验设检验基本基本问题问题1.假假设检验设检验的概念的概念1)什么是统计假设假设检验就是对假设进行检验,假设检验中的假设是指统计假设,是关于总体的某种猜 或判断。2)假设检验的基本原理假设检验的基本原理就是所谓小概率事件原理,即小概率事件在一次试验中几乎是不会发生的。3)假设检验的概念利用样本资料来检验关于总体某个假设的真伪并做出拒绝或接受该假设决策的统计方法,

26、称为假设性检验。732假设检验的步骤假设检验的步骤1)建立假设假设包括两个部分,一个为原假设,一个为备择假设。2)确定适当的检验统计量3)规定显著性水平 4)计算检验统计量的值5)做出统计决策3双侧检验和单侧检双侧检验和单侧检验验假设检验究竟是使用双侧检验还是单侧检验,单侧检验时是使用左单侧还是右单侧检验,这取决于备择假设的性质。4假设检验中的两类错假设检验中的两类错误误一是当原假设为正确时,却拒绝了原假设,这种错误称为“弃真”错误;二是当原假设是错误时,却接受了原假设,称为“取伪”错误。3.22总总体平均数体平均数检验检验1.大大样样本情形下的本情形下的总总体平均数的体平均数的检检验验1)总

27、体方差已知2)总体方差未知2.大样本情形下的总体平均数的检大样本情形下的总体平均数的检验验1)总体方差已知2)总体方差未知3 3两个正态总体均值之差的检验两个正态总体均值之差的检验3.2.4总体成数检验 成数是指具有某种特征的总体单位的个数在总体单位总数中所占的比重,总体成数通常P 表示。在大样本情况下,并且满足 np5 时833.3 方方 差差 分分 析析3.3.1 方差分析概念和意义3.3.2 单因素方差分析3.3.3 无交互作用的双因素方差分析833.313.31方差分析概念和意方差分析概念和意义义1.1.方差分析的概方差分析的概念念 方差分析就是分析推断各种因素的不同状态对所观测对象是

28、否显著的一种统计分析方法。2.2.方差分析的意方差分析的意义义 目前,方差分析不仅在农业科学实验和农业生产中有着广泛应用,而且在工业产品的试制与配方以及物理与化学实验,乃至生物学和医学等自然科学领域中发挥重要作用.833.3.2 3.3.2 单因素方差分析单因素方差分析1.1.单因素方差分析的意义和统计假设单因素方差分析的意义和统计假设 在方差分析中,影响观测变量的因素也称为因子,因素的多种不同状态称为水平。影响观测变量的因素有许多,如果只就某一个因素进行观测,即在其他条件都保持不变的情况下,对某一个特定因子的各种不同水平的影响作用进行统计分析,就称为单因素方差分析2单因素方差分析的过程和方法

29、单因素方差分析的过程和方法1)分解总离差平方和2)计算方差,进行 F 检验3)列出方差分析表833.3.3 无交互作用的双因素方差分析无交互作用的双因素方差分析1无交互作用双因素方差分析的数据结构和模型无交互作用双因素方差分析的数据结构和模型2假设检验假设检验 无交互作用的双因素方差分析是检验和判断因素A和因素B分别对观测变量的影响是否显著的统计方法。其假设检验原理与单因素方差分析相同。833双因素方差分析双因素方差分析表表733.4 相关与回归分析相关与回归分析3.4.1 相关分析3.4.2 一元线性回归3.4.3 多元线性回归3.4.4 非线性回归733.4.1 3.4.1 相关分析相关分

30、析1相关关系的概念和种类相关关系的概念和种类1)相关关系概念变量与变量之间的相互关系,可以分为两种类型,即函数关系和相关关系。相关关系是指变量之间客观存在的不确定的依存关系,即一个变量的取值不能由另一个变量唯一确定,变量之间不存在一一对应的确定性关系2)相关关系的种类相关关系可以按不同的标志加以区分。(1)按相关的程度可分为完全相关、不完全相关和不相关(2)按相关的方向可分为正相关和负相关。(3)按相关的形式可分为线性相关和非线性相关。(4)按相关关系涉及的变量或因素多少可分为单相关、复相关和偏相关2相关关系的判断与测度相关关系的判断与测度1)相关表和相关图2)相关系数的概念和计算 为了精确地

31、描述变量之间相关关系的密切程度,有必要用一个统计指标来刻画和说明,这个指标就是相关系数。样本相关系数的计算公式为833.4.2 3.4.2 一元线性回归一元线性回归1.1.回归分析的概念和特点回归分析的概念和特点 回归分析是指对具有相关关系的现象,根据其关系形态,选择一个合适的数学模型(称为回归方程式),用来近似地表示变量之间平均变化关系的一种统计方法 回归分析则是对具有相关关系的变量建立一个数学方程式(即回归方程)来描述变量之间具体的变动关系,根据这个数学方程式可以从已知量来推测未知量,从而为估算和预测提供一个重要的方法2一元线性回归模型的确定一元线性回归模型的确定 一元线性回归模型又称简单

32、直线回归模型,它是根据成对的两个变量的数据,选取直线方程式,由自变量的变动来推算因变量变动的统计方法3 3回归直线的拟合程度回归直线的拟合程度 回归直线与各散点的接近程度,称为直线对观测数据的拟合程度或拟合度;拟合度的大小反映了样本观测值聚集在样本回归线周围的紧密程度判断回归模型拟合程度优劣最常用的数量尺度是决定系数(又称判定系数),它是建立在对 Y 的总变差平方和进行分解基础上的1)变差的分解2)估计标准误差834 4回归分析中的统计检验回归分析中的统计检验1)为什么要进行统计检验 第一,当我们根据取得的数据(一般视为从某个总体中抽取的样本数据)拟合直线回归方 程时,首先要假设变量线性关系,

33、都可以求出一个线性回归方程。但是这种假设是否成立,必须通过统计检验才能确认。第二,样本回归线Y X i 中的两个系数 和 分别是对总体参数 和 的最小二乘估计,能否作为总体参数的估计也需要进行检验2)统计检验的内容(1)回归方程的显著性检验。(1)回归系数的显著性检验5回回归预归预测测1)回归预测的基本公式一元线性回归预测的基本公式为2)预测误差(1)模型本身中的误差因素所造成的误差。(2)由于回归系数的估计值同其真值不一致所造成的误差。(3)由于自变量 X 的设定值同其实际值的偏离所造成的误差(4)由于未来时期回归系数发生变化所造成的误差3)区间预测 式(3.4.30)给出了 Y 的单值预测

34、或点估计,但是在许多场合,人们更关心的是对 Y 的区间预测或区间估计,也就是给出一个预测值的可能范围3.433.43多元多元线线性回性回归归1.1.多元多元线线性回性回归归模型的确定模型的确定设因变量 Y 与 X 1,X 2,X p 等 p 个自变量具有线性关系,多元线性回归模型的一般形式 Y 0 1 X 1 2 X 2 X(3.4.34)p p称 1,2,为 Y 对 X,X,X 的偏回归系数。2 2多元线性回归模型的判定系数和估计标准误差多元线性回归模型的判定系数和估计标准误差 计算方法原理与一元线性回归分析类似3 3多元线性回归的统计检验多元线性回归的统计检验1)回归方程的显著性检验2)回

35、归系数的显著性检验3.4.4非非线线性回性回归归 在实际问题中,许多回归模型的因变量 Y 与自变量 X 之间的关系不是线性形式,而是某种曲线,这时就需要拟合适当类型的曲线方程,在统计上称之为非线性回归或曲线回归。非线性回归按自变量的个数也分为一元非线性回归和多元非线性回归4.1多元统计分析基本概念4.2多元正态分布及其推广4.3主成分分析4.4层次分析4.5聚类分析.4.6判别分析第第 4 章章多元多元统计统计分析分析4.1 多元多元统计统计分析基本概念分析基本概念多元统计分析就是讨论多维随机向量的理论和统计方法的总称。多元统计分析研究的对象就是多维随机向量。多元分布的基本概念可由二元概率分布

36、的自然推广而得到,如联合分 布、边缘分布、条件分布、独立性、特征函数、数字特征等4.1.1 随机向量和随机矩阵数字特征4.1.2 随机向量相互独立性4.1.3 多元样本相关概念4.114.11随机向量和随机矩随机向量和随机矩阵阵数字特征数字特征1.1.随机向量和随机矩随机向量和随机矩阵阵的表示的表示1.1.随机向量和随机矩随机向量和随机矩阵阵的的数字特征数字特征设 A,B,C 为常数矩阵,X,Y 为随机矩阵,则有下列几种等式。(1)E(AX)=AE(X);(2)E(AXB)=AE(X)B;(3)E(AX+BY)=AE(X)+BE(Y);(4)D(X)0,R0,即 X 的协方差阵及相关矩阵是非负

37、定矩阵;(5)对常数向量 有 D(X+)D(X);(6)D(AX)=AD(X)AT;(7)Cov(AX,BY)=ACov(X,Y)B T 这里假定上述各式的运算总是可以进行(如满足协方差阵的存在及阶数、维数协调一致等条件)4.124.12随机向量相互独立性随机向量相互独立性1.1.随机向量的随机向量的联联合分布与合分布与边缘边缘分布分布2随机向量的特征函数随机向量的特征函数3随机向量的相互独立性随机向量的相互独立性随机向量的特征函数随机向量的特征函数4.1.3 多元样本相关概念多元样本相关概念1 1多元样本的表示多元样本的表示 从多元总体中随机抽取 n 个个体 X(1),X(2),X(n),若

38、它们相互独立且与总体同分布,则称 X(1),X(2),X(n)为该总体的一个多元随机样本,简称简单样本。2 2多元样本的数字特征多元样本的数字特征4.2 多元正多元正态态分布及其推广分布及其推广4.2.1 多元正态分布定义4.2.2 多元正态变量基本性质4.2.3 多元正态分布参数估计.4.2.4 多元正态分布变形形式4.2.5 多元正态分布参数假设检验4.2.1 多元正态分布定义多元正态分布定义4.2.2 多元正态变量基本性质多元正态变量基本性质多元正态变量的基本性质有以下 8 个4.2.3 多元正态分布参数估计多元正态分布参数估计1多元正态分布参数的极大似然估计的表示多元正态分布参数的极大

39、似然估计的表示2极大似然估计量的基本性质极大似然估计量的基本性质(1)无偏性(2)有效性(3)一致性4.244.24多元正多元正态态分布分布变变形形式形形式 1.Wishart分布分布2Hotelling T2分布分布4.2.5 多元正态分布参数假设检验无偏性多元正态分布参数假设检验无偏性1多元正态分布的均值向量的检验多元正态分布的均值向量的检验设 X(i)=(X 1i,X 2i,X pi)T N p(i,)(i=1,2,n)是 p 维正态总体 N p(,)的随机向量1)已知时单个总体均值向量的检验2)未知时单个总体均值向量的检验3)两总体协差阵相等(而未知)时均值向量的检验2多元正态分布的协

40、方差检验多元正态分布的协方差检验1)单个 p 元正态总体协方差阵的检验2)两个 p 元正态总体协方差阵相等的检验4.3 主成分分析4.3.1 基本思想4.3.2 主成分分析与几何解释4.3.3 主成分分析步骤4.31 4.31 基本思想基本思想 主成分分析就是把原有的多个指标转化成少数几个代表性较好的综合指标,这少数几个指标能够反映原来指标大部分的信息(85%以上),并且各个指标之间保持独立,避免出现重叠信息。主成分分析主要起着降维和简化数据结构的作用。主成分分析将具有一定相关性的众多指标重新组合成新的无相互关系的综合指标来代替,通常数学上的处理就是将这 p 个指标进行线性组合作为新的综合指标

41、。4.3.2 4.3.2 主成分分析与几何解释主成分分析与几何解释1 1数学模型数学模型 假设我们所讨论的实际问题中,有 p 个指标,我们把这 p 个指标看作 p 个随机变量,记为 X 1,X 2,X p,主成分分析就是要把这 p 个指标的问题,转变为讨论 m 个新的指标 Z 1,Z 2,Z m(mp),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维 R 型主成分分析法:主成分是从相关矩阵出发,是对相关矩阵进行分解 S 型主成分分析法:用协方差矩阵代替相关矩阵,从协方差矩阵出发求主成分2 2主成分的几何意义主成分的几何

42、意义3 3主成分个数的选取主成分个数的选取1)85%原则2)i 的原则3)斯格理(Screet)原则4)巴特莱特(Bartlet)检验原则4.3.3 主成分分析步骤主成分分析步骤4.4 层层 次次 分分 析析4.4.1 基本思想4.4.2 递阶层次结构建立4.4.3 构造两两比较判断矩阵4.4.4 判断矩阵一致性检验4.4.5 元素对目标层总排序权重4.4.1 基本思想基本思想 简单地说,层次分析法就是运用多因素分级处理来确定因素权重的方法。它是一种定性分析和定量分析相结合的评价决策方法,将评价者对复杂系统的评价思维过程数学化。层次分析法基本思路是评价者将复杂问题分解为若干层次和若干要素,并在

43、同一层次的各要素之间简单地进行比较、判断和计算,得出不同替代方案的重要度,从而为选择最优方案提供决策依据,然后评估每一层针对上一层因素的重要程度,通过传递性,最后确定因素层的指标相对于目标层的重要程度,确定全部指标的权重系数。4.4.2递阶层递阶层次次结结构建立构建立运用层次分析法时,要把系统问题条理化、层次化,构造出一个层次分析的结构模型。层次可分为最高层、中间层和最底层。最高层中只有一个元素,它是问题的预定目标或理想结果,因此也叫目标层。中间层包括要实现目标所涉及的中间环节中需要考虑的准则。该层可由若干层次组成,因而有准则和子准则之分,这一层也叫准则层。最底层包括为实现目标可供选择的各种措

44、施、决策方案等,因此也称为措施层或方案层。若把各种所要考虑的因素放在适当的层次内,用层次结构图可清晰地表达这些因素的关系如图 4.2 所示4.4.3 构造两两比较判断矩阵构造两两比较判断矩阵4.4.4 4.4.4 判断矩阵一致性检验判断矩阵一致性检验1 1完全一致性完全一致性若互反判断矩阵 A 的所有元素满足 a i j a jk=a ik,则称 A 为具有完全一致性矩阵。完全一致性互反判断矩阵 A 具有如下性质。(1)AT 是完全一致性互反判断矩阵。(2)A 的各行成比例,即 rank(A)=1。(3)A 的最大特征根 maxp,且当 A 的最大特征值=p 时,其余 p-1 个特征值均为零。

45、(4)A 的任一列都是对应于特征值 p 的特征向量。(5)当 19 时,若 aij 且 ajk,则必有 aik。(6)当 1 1 时,若 a j 且 a,则必有 a。不是所9有的判断矩阵都满i足完全一jk致性条件,也没ik 有必要这样要求,只是在特殊情况下才有可能满足完全一致性条件。2满满意一致意一致性性1)计算一致性指标 C.I.(Consistency Index)2)查找相应的平均随机一致性指标 R.I.(Random Index)3)计算性一致性比例 C.R.(Consistency Ratio)4.454.45元素元素对对目目标层总标层总排序排序权权重重1.1.权权重重计计算方法算方

46、法1)和法2)根法(几何平均法)3)特征根法4)对数最小二乘法5)最小二乘法2 2元素对目标层的总排序权重元素对目标层的总排序权重 上面得到的是一组元素对其上一层中某元素的权重向量,而最终要得到的是各元素,特别是最低层中各元素对于目标的排序权重,即所谓总排序权重,从而进行方案的选择。总排序权重要自上而下地将单准则下的权重进行合成,并逐层进行总的判断一致性检验4.5 聚聚 类类 分分 析析4.5.1 基本思想4.5.2 衡量相似性统计量4.5.3 系统聚类方法4.5.1 基本思想基本思想 聚类分析是从一批样品的多个指标变量中,定义能度量样品间或变量间相似程度(或亲疏关系)的统计量,在此基础上求出

47、各样品(或变量)之间的相似程度度量值,按相似程度的大小,把样品(或变量)逐一分类,关系密切的类聚集到一个小的分类单位,关系疏远的类聚集到一个大的分类单位,直到所有的样品或变量都聚集完毕,把不同的类型一一划分出来,形成一个亲疏关系谱系图,用以更直观地显示分类对象(样品或变量)的差异和联系聚类分析的内容十分丰富,按其聚类的方法可分为以下几种第一种,系统聚类法第二种,调优法(动态聚类法)第三种,最优分割法(有序样品聚类法)第四种,模糊聚类法第五种,图论聚类法第六种,聚类预报法4.5.2 衡量相似性统计量衡量相似性统计量有很多种定义样品间距离或变量间相似性的方法,常用的有以下几种1距离系数距离系数1)

48、明氏(Minkowski)距离2)马氏(Mahalanobis)距离3)兰氏(Canberra)距离2相似系数相似系数1)夹角余弦2)相关系数4.5.3 系统聚类方法系统聚类方法1.1.最短距离法最短距离法2.2.最长距离法最长距离法3.3.中间距离法中间距离法4.4.重心法重心法5.5.类平均法类平均法6.6.可变类平均法可变类平均法7.7.可变法可变法8.8.离差平方和法离差平方和法 系统聚类分析尽管方法很多,但归类的步骤基本上是一样的,所不同的仅是类与类之间的距离有不同的定义,从而得到不同的计算距离的公式,产生了不同的系统聚类方法4.6 判判 别别 分分 析析4.6.1 Fisher 两

49、类判别4.6.2 Bayes 多类判别4.6.3 逐步判别分析4.6.1 Fisher 4.6.1 Fisher 两类判别两类判别1训练样本的观测值2建立判别函数 判别函数一般是线性判别函数3u值的判别界值4对判别函数检验4.6.2 Bayes 4.6.2 Bayes 多类判别多类判别 上节所介绍的 Fisher 判别方法主要适用于两类判别。本节介绍 Bayes 判别方法,适用于当已知个体可分为 G 类(G2)的情况1 1训练样本的观测值训练样本的观测值2 2建立判别函数建立判别函数(1)计算各类均值及协方差阵(2)判别系数(3)建立判别函数3 3各类之间的差异显著检验各类之间的差异显著检验(

50、1)两类之间差异显著性检验(2)多类之间差异显著性检验4.6.3 4.6.3 逐步判别分析逐步判别分析挑选那些判别能力真正强的变量建立判别函数,即逐步判别分析法1逐步判别分析的基本思想2逐步判别的基础理论对判别变量附加信息的检验3引入和剔除变量的依据和检验统计量1)Wilks 统计量2)引入和剔除变量4逐步判别的变换公式5逐步判断分析的计算步骤6判别效果检验7判别函数建立5.1数据挖掘5.2数据挖掘任务与应用5.3数据流第第 5 章章数据挖掘数据挖掘导论导论5.1 数数 据据 挖挖 掘掘5.1.1 数据挖掘意义5.1.2 数据挖掘与数据分析区别5.1.1 数据挖掘意义数据挖掘意义 数据挖掘就是

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 工作计划

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁