《2022年商务智能复习题.docx》由会员分享,可在线阅读,更多相关《2022年商务智能复习题.docx(39页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选学习资料 - - - - - - - - - BI-Gracie題型: 1、判斷10 分 2、簡答30 分 3、案例分析30 分 2 題 4、計算、操作30 分第一章(懂得)数据、信息与学问的关系书本图 1.1 p4数据 数据是可以记录、通信和能识别的符号,它通过有意义的组合来表达现实世界中的某种实 体(详细对象、大事、状态或活动)的特点;商务智能技术可以分析结构化数据、半结构化数据以及非结构化数据、静态的历史数据和 动态数据流等各种类型的数据;事物运动记录数据说明信息信息:有用的数据一个人的垃圾(数据)是另一个人的财宝(信息)Data endowed with relevance and
2、 purpose 信息是经过某种加工处理后的数据,是反映客观事物规律的一些数据;数据是信息的载体 , 信息是对数据的说明;决策离不开信息 同一事物的信息对于不同的个人或群体具有不同的意义;信息的效用在于对决策的影响;高层决策、中层治理、基层运营都要决策;CIO 越来越多的人从事与信息有关的工作,信息产业将成为全球最大产业;首席信息官 Chief Information Officer 成为企业继 CEO、CFO 之后又一重要职位;70% of employee time spent searching for relevant information 学问Information from th
3、e human mind includes reflection, synthesis 比较、挖掘、分析、概括、判定和推论;事实性学问和体会学问(隐性和显性);洞悉力( insight)Requires reflection and synthesis Difficult to structure, capture Often tacit- 1 -,学问是对信息内容进行提炼、名师归纳总结 - - - - - - -第 1 页,共 23 页精选学习资料 - - - - - - - - - BI-Gracie信息和学问隐匿在数据中 商务智能要求有一个牢固、牢靠的大型数据库作后盾,建立这样一个数据库
4、的任务是极其 艰难的;数据的质量问题也是令人头疼而又不行以掉以轻心的;虽然数据是珍贵的财宝,然而很多公司并不能充分利用这种财宝,由于信息隐匿在数据中,并不易识别;为了在竞争中占得优势位置,必需识别和应用隐匿在所收集的数据中的信息;挖 掘(背诵) 王茁专著 三位一体的商务智能-商务智能是企业利用现代信息技术收集、治理和分析结构化和非结构化的商务数据和信息,制造和累计商务学问和见解,改善商务决策 水平,实行有效的商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力 的聪明和才能(懂得)案例分析商务智能的价值P11制定合适的市场营销策略 改善顾客智能 经营成本与收入分析 提高风险治理才能
5、改善业务洞悉力 提高市场响应才能其次章1、数据仓库系统的结构(商务智能系统的架构) (图会画)- 2 -名师归纳总结 - - - - - - -第 2 页,共 23 页精选学习资料 - - - - - - - - - BI-Gracie2、数据仓库系统的组成:源数据: 数据仓库中的数据来源于多个数据源,它不仅可以是企业内部的关系型数 据库,仍包括非传统数据,如文件、HTML 文档等;数据仓库治理系统:元数据库及元数据治理部件:元数据库用来储备由定义部件生成的关于源 数据、目标数据、提取规章、转换规章以及源数据与数据仓库之间的映射 信息等;数据转换部件:该部件把数据从源数据中提取出来,依定义部件
6、的规章将 不同数据格式的源数据转换成数据仓库的数据格式并装载进数据仓库;数据集成部件:该部件依据定义部件的规章、统一各源数据的编码规章,并净化数据,依据元数据中定义的数据组织形式对数据进行汇总、聚合计 算;数据仓库治理部件:它主要用于保护数据仓库中的数据,备份、复原数据 以及治理数据的安全权限问题数据仓库前端工具集 查询 /报表工具:以图形化方式和报表方式显示数据,帮忙明白数据的结构、关系以及动态性;OLAP 工具:通过对信息的多种可能的观看形式进行快速、一样和交互性 的存取,便于用户对数据进行深化的分析和观看;数据挖掘工具:从大量数据中挖掘出具有规律性的学问,以及数据之间的 内在联系;前端开
7、发工具:供应用户编程接口,便于在现有系统的基础上进行二次开 发,增强系统的伸缩性;数据仓库 :在数据仓库系统中,数据仓库是一个数据储备集合,它的储备形式通常 有多维数据库,关系型数据库及其他储备方式;- 3 -名师归纳总结 - - - - - - -第 3 页,共 23 页精选学习资料 - - - - - - - - - BI-Gracie第三章1、事务型处理:即操作型处理,是指对数据库的联机操作处理OLTP;事务型处理是用来帮助企业对响应大事或事务的日常商务活动进行处理;它是大事驱动、面对应用的,通常 是对一个或一组记录的增、删、改以及简洁查询等(大量、简洁、重复和例行性);在事务型处理环境
8、中,数据库要求能支持日常事务中的大量事务,用户对数据的存取操作 频率高而每次操作处理的时间短;2、分析型处理:用于治理人员的决策分析,例如DSS、 EIS 和多维分析等;它帮忙决策者分析数据以观看趋向、判定问题;分析型处理常常要拜访大量的历史数据,支持复杂的查询;分析型处理过程中常常用到外部数据,这部分数据不是由事务型处理系统产生的,而是来 自于其他外部数据源;3、事务型处理数据和分析型处理数据的区分:4、数据仓库的定义:数据仓库是 面对主题的、集成的、稳固的、随时间变化的数据集合,用以支持治理决策的过程;(重点,要会表述)数据仓库用来储存从多个数据库或其它信息源选取的数据 , 并为上层应用
9、供应统一 用户接口,完成数据查询和分析;支持整个企业范畴的主要业务 来建立的,主要特点是,包含大量面对整个企业的综合信息及导出信息;数据仓库是作为DSS 服务基础的分析型DB ,用来存放大容量的只读数据,为制定决策供应所需要的信息;数据仓库是与操作型系统相分别的、基于标准企业模型集成的、带有时间 属性的、面对主题及不行更新的数据集合;以 1992 年 W H Inmon 出版 Building the Data Warehouse 为标志,数据仓库进展速度很快;W H Inmon被誉为数据仓库之父;W H Inmon 对数据仓库所下的定义:数据仓库是面对主题的、集成的、稳- 4 -名师归纳总结
10、 - - - - - - -第 4 页,共 23 页精选学习资料 - - - - - - - - - BI-Gracie定的、随时间变化的数据集合,用以支持治理决策的过程;面对主题:数据仓库中的数据是依据各种主题来组织的;主题在数据仓库中的物理实现是一系 列的相关表,这不同于面对应用环境;如保险公司依据料用组织可能是汽车保险、生命保险、伤亡保险,而数据仓库是依据客户、政策、保险金和索赔来组织数据;面对主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一样的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系,从而适应企业各个部门的业务活动特点和企业数据的动态特点
11、,从根本上实现数据 与应用的分别;集成性:数据仓库中的数据是从原有分散的源数据库中提取出来的,其每一个主题所对应 的源数据在原有的数据库中有很多冗余和不一样,且与不同的应用规律相关;为 了创建一个有效的主题域,必需将这些来自不同数据源的数据集成起来,使之遵 循统一的编码规章;稳固性:数据仓库内的数据有很长的时间跨度,通常是 5-10 年;数据仓库中的数据反映的是一段时间内历史数据的内容,是不同时点的数据库快照 的集合,以及基于撰写快照进行统计、综合和重组的导出数据;主要供企业高层决 策分析之用,所涉及的数据操作主要是查询,一般情形下并不进行修改操作 .数据仓库中的数据是不行实时更新的,仅当超过
12、规定的储备期限,才将其从数据仓 库中删除,提取新的数据经集成后输入数据仓库 时变性:时变性:很多商业分析要求对进展趋势做出猜测,对进展趋势的分析需要拜访历史数据;因此数据仓库必需不断捕获OLTP 数据库中变化的数据,生成数据库的快照,经集成后增加到数据仓库中去;另外数据仓库仍需要随时间的变化删去过期的、对 分析没有帮忙的数据,并且仍需要按规定的时间段增加综合数据;例子:6、数据集市 (懂得)数据仓库是企业级的,能为整个企业各部门的运行供应决策支持手段;而 数据集市 (Data Mart )是部门级别的,一般只能为某个局部范畴内的治理人员服务,也称为部门级- 5 -名师归纳总结 - - - -
13、- - -第 5 页,共 23 页精选学习资料 - - - - - - - - - BI-Gracie的数据仓库;数据集市可以分为两种类型 :直接从操作型环境猎取数据;为满意特定用户(一般是独立型数据集市:部门级别的)的需求而建立的一种分析型环境,它能够快速地解决某些具体的问题,而且投资规模也比数据仓库小很多;多个独立的数据集市的累积,是不能形成一个企业级的数据仓库的;从属型数据集市:从企业级数据仓库猎取数据;假如企业最终想建设一个全企业统一的数据仓库,想要以整个企业的视图分析数据,独立型数据集市唯恐不是合适的挑选;也就是说“先独立地构建数据集市,当数据集市达到一定的规模再直接转换为数据仓库”
14、 是不合适的;从长远的角度看,从属型数据集市在体系结 构上比独立型数据集市更稳固,可以说是数据集市将来建设的主要方向;7、元数据:数据仓库的全部数据都要通过元数据来治理和掌握;元数据描述关于源数据的说明,包括源数据的来源、源数据的名称、源数据的定义、源数据的创建时间等对源数据进行管 理所需要的信息;源数据的来源说明源数据是从哪个系统、哪个历史数据、哪个办公数据、哪个 Web 页、哪个外部系统抽取而来;源数据说明源数据在数据仓库的作用、用途、数据类型和长度等;元数据:是用来描述数据的数据;它描述和定位数据组件、它们的起源及它们在数据仓库进程中的活动;关于数据和操作的相关描述输入、运算和输出;元数
15、据可用文件存在元数据库中;元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过哪些 转换、集成过程 元数据治理器的设计与实现元数据的作用(课本P41):定义数据仓库的作用,指明数据仓库中信息的内容和位置,刻画数据的抽取和转换规章,储备与数据仓库主题有关的各种商业信息;在客户端供应图形化界面工具;例如,用户想在多维模型中加入一维或者在某一维中 加入维元素,不仅可以通过图形化界面工具完成,而且可以在用户自已编写的应用程序中 调用应用程序接口函数,修改后的结果将记入元数据库中;然后系统将依据元数据库中的 新内容进行数据的追加;8、数据粒度: (懂得)粒度是指 DW 的数据单位中储存数据的细化
16、或综合程度的级别;细化程度越高,粒度级越小;细化程度越低,粒度级就越大;粒度是 DW 设计的主要问题,深深影响存放在 DW 所能回答的查询类型;高/低粒度级的区分和平稳DW 中的数据量的大小,同时影响如 DW 空间有限,用高粒度级表示数据效率会比较高,高 粒度级不仅只需要少得多的字节存放数据,而且只需要较少的索引项;在低粒度级上回答查询的才能比高粒度强,由于在高粒度 级上细节已消逝,只有综合数据;在 DSS 处理时,很少对单个大事进行检查;通常是针对某 种数据集合进行处理的,意味着要查阅大量记录;- 6 -名师归纳总结 - - - - - - -第 6 页,共 23 页精选学习资料 - - -
17、 - - - - - - BI-Gracie高细节级/ 低粒度低细节级/ 高粒度一个顾客一个月的每个电话的细节 一个顾客一个月的电话综合每月 40 , 000 个字节 每月 200 个字节每月 200 条记录 每月 1 条记录设回答:“4 月份人们从厦门打出的长话平均多少个?”这个问题既可以在高粒度级上也可以在低粒度级上得到回答,但明显在不同的粒度级上所使用的资源具有相当大的差别;粒度的双重级别:粒度的权衡是首要的,大量数据使大部分组织在 对的);一家电话公司的“ 双重 ” 粒度级的设计 粒度的双重级别例如:DW 中需要两个粒度级(不是绝上图显示了一家电话公司的“双重 ”粒度级的设计,能满意大
18、多数机构的需要;在操作层是大量的细节,其中大部分细节是为了满意结帐系统的需求;多达 30 多天的细节放在这种操作层中;在本例中 DW 包括两类数据:轻度综合数据和 能回朔 10 年;从 DW 中提取的数据是流向电话公司不同地区的立地分析各自的数据;在个体级上进行各自的启示式分析处理;“ 真实档案 ” 细节数据; DW 中的数据“地区 ” 数据,然后各个地区可以独在轻度综合数据库中的数据量要比细节数据库中的数据量少得多;在数据的真实档 案层上,储备的全部的细节来自于操作型环境;由于数据量太大,因此有必要将数- 7 -名师归纳总结 - - - - - - -第 7 页,共 23 页精选学习资料 -
19、 - - - - - - - - BI-Gracie据存放在如磁带这样的介质上;粒度的双重级别通过在 DW 的细节级上创建两种粒度级,DSS 设计者可以一举两得;大部分DSS 处理是针对被压缩的、存取效率高的轻度综合级数据进行的;假如什么时候需要分析更低的 细节级,可以到数据的真实档案层;鉴于费用、效率、拜访便利和能够回答认可可以回答的查询才能,数据双重粒度级是大多数机构建造DW 细节级的最好挑选;只有当一个机构的DW 环境中只有相对较少的数据时,才应尝试数据粒度的单一级别;9、操作数据储备: ODS 懂得 ODS 具备数据仓库的部分特点和OLTPODS 是数据仓库体系结构中的一个可选部分,系
20、统的部分特点,它是“面对主题的、集成的、当前或接近当前的、不断变化的”数据;应用:企业级的 OLTP 应用“ 企业级 OLTP” :指在实际事务的处理中,常常涉及多个部门的数据,需要通过多个部 门的数据协同才能更好的完成任务;建立 ODS 实际上是建立了一个全局数据库,它通过在ODS 中的记录系统定义和参考表建立一系列 DB 和 ODS 记录间的双向联系,以实现数据在企业级上的同步;ODS 的记录系统说明如何从 DB 中向 ODS 进行数据抽取;DB 中对应的数据项发生的变化,都将反应到相应的 ODS 记录中;参考表建立的是从 ODS 数据项到 DB 数据项的反向映射;当 ODS 中的记录发生
21、变化时,将通过参考表去修改与之相关的 DB 中全部的数据项;ODS 全局数据库2ODS记录系统的ODS参考表定义各业务数据库名师归纳总结 数据库定义在各记录系统DB上的- 8 -数据库3B数据更新需要反上数据库C第 8 页,共 23 页映到全部相关的1DBA- - - - - - -精选学习资料 - - - - - - - - - BI-Gracie近期的 OLAP 很多中层次的治理人员通常不需要大量历史数据,主要参考近期内的数据,即短时间的OLAP 分析;基于ODS 的特点,在ODS 中进行近期的OLAP 分析是特别合适的挑选;在系统中设置一个状态切换开关,使ODS 系统在操作型环境和分析型
22、环境间进行动态切换;轻度综合95% 甚至更多的DSS 处理在此进行DSS 处理在5% 或更少的此进行真实档案第四章1、什么是 OLAP ?定义 1 :OLAP 联机分析处理 是针对特定问题的联机数据拜访和分析;通过对信 息维数据 的多种可能的观看形式进行快速、稳固一样和交互性的存取,答应治理 决策人员对数据进行深化观看;定义 2 :OLAP 联机分析处理 是使分析人员、治理人员或执行人员能够从多种角 度对从原始数据中转化出来的、能够真正为用户所懂得的、并真实反映企业维特性 的信息进行快速、一样、交互地存取,从而获得对数据的更深化明白的一类软件技 术; OLAP 委员会的定义 OLAP 的目标是
23、满意决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此 2、OLAP 特性:OLAP 也可以说是多维数据分析工具的集合;快速性 :用户对 OLAP 的快速反应才能有很高的要求;系统应能在 5 秒内对用户的大部分分析要求做出反应;客户 /服务器体系结构两层或三层 C/S 结构;可分析性 :OLAP 系统应能处理与应用有关的任何规律分析和统计分析;多维性 :多维性是 OLAP 的关键属性;系统必需供应对数据的多维视图和分析 ,包括对层次维和多重层次维的完全支持;信息性 :不论数据量有多大,也不管数据储备在何处,息,并且治理大容量信息;3、OLAP 基本概念 (懂得)OLAP
24、 系统应能准时获得信维: 是人们观看数据的特定角度,是考虑问题时的一类属性时间维、地理维等;维的层次: 人们观看数据的某个特定角度即某个维 仍可以存在细节程度不同的各个描述方面 时间维:日期、月份、季度、年 ;维的成员: 维的一个取值;是数据项在某维中位置的描述;时间维上位置的描述 “某年某月某日 ”是在多维数组: 维和变量的组合表示;一个多维数组可以表示为:维 1,维 2, ,维- 9 -名师归纳总结 - - - - - - -第 9 页,共 23 页精选学习资料 - - - - - - - - - BI-Gracien,变量 ;时间,地区,产品,销售额$100000数据单元 单元格 :多维
25、数组的取值;2000 年 1 月,上海,笔记本电脑,基于关系数据库的OLAP ROLAP用关系表达式描述多维概念大量的关系表;用星型模型、雪花模型构造维模型;D基础 数据 元数据 运算 结果SQ多维综合引多多维存擎维视图DRDBMS 服关系型 OLAP 服务器客户4、ROLAP服务器:OLAP 实现( Relational OLAP );以关系数据库为核定义: 表示基于关系数据库的心,以关系型结构进行多维数据的表示和储备;ROLAP 将多维数据库的多维结构划分为 两类表 : 事实表: 储备数据和维关键字 维表: 每个维至少使用一个表存放维的层次、成员类别等维的描述信息;维表和事实表通过主关键字
26、和外关键字联系在一起;维表: 是将多维模型映射到关系型模型中,用于记录多维数据库中维度信息,将多维 数据立方体的坐标轴上的各个取值记录在一张维表中事实表: 是将多维模型映射到关系模型中,用于记录维度交点处的度量信息的关系表;事实表中除了度量变量外,其余的列都是各个维表的主键,它们都不能为空;这种结构大 大的节约储备空间,特别是涉及多个维且维中具有多个层次时尤为有效;- 10 -名师归纳总结 - - - - - - -第 10 页,共 23 页精选学习资料 - - - - - - - - - BI-Gracie6、结构:星型结构雪花模式:是星型模式的变种,有些表是规范化形式,削减冗余,便于保护,
27、节约储备空间,但降低浏览的性能;- 11 -名师归纳总结 - - - - - - -第 11 页,共 23 页精选学习资料 - - - - - - - - - BI-Gracie事实星座:多个事实表共享维表数据仓库通常采纳事实星座模式ROLAP 服务器的结构- 12 -名师归纳总结 - - - - - - -第 12 页,共 23 页精选学习资料 - - - - - - - - - BI-Gracie注:在 ROLAP中,多维数据立方体并没有真正存在,通常需要在接受客户OLAP 恳求后,ROLAP 服务器需要将 SQL 语句转化为多维存取语句,并利用连接运算拼合出多维数据立方体,因此 ROLA
28、P 的响应时间较长;ROLAP 的特点数据结构和组织模式需要预先设计和建立;数据查询需要进行表连接,在查询性能测试中往往是影响速度的关键;数据汇总查询(例如查询某个品牌的全部产品销售额),需要进行Group by 操作,虽然实际得出的数据量很少,但查询时间变得更长;为了改善数据汇总查询的性能,可以建立汇总表,但汇总表的数量与用户分析的角度数目和每个角度的层次数目亲密相关;例如,用户从 8 个角度进行分析,每个角度有 3 个汇总层次,就汇总表的数目高达 3 的 8 次方;第五章1、数据挖掘什么是数据挖掘-原由- 13 -名师归纳总结 - - - - - - -第 13 页,共 23 页精选学习资
29、料 - - - - - - - - - BI-Gracie一个比较正式的数据挖掘的 定义高层次上的主动式自动发觉方法,被称为发觉驱动型学问发觉;从数据中提取正确的、有用的、未知的和综合的信息并用它进行决策的过程;数据挖掘的相关学科是统计理论、数据库技术和人工智能;前 Business Objects 的 Todd Rowe 曾表示: “从技术上讲,甚至只要有完备的 Excel 数据就能用上 BI ;” 2、数据挖掘过程(懂得)3、数据挖掘过程是循环的过程 上图会简洁造成一个线性过程的印象;事实上,每一步的结果会导致这样一个结论:需要从前几步中得到更多的信息,并 不断重复这一过程;这些循环保证了
30、最终的结果是完全为业务量身定制的;数据挖掘过程- 业务分析抱负化地,公司中的全部活动都在不同程度上通过策略和商业目标与公司的任务描 述相关;数据挖掘使你能够比以前在更高的层次上掌握你的目标;业务分析涉及到领域专家和挖掘专家;前者用心于规定商业需求,而后者从数据挖掘的观点上保证这些要求的可行性,并 且详细说明满意这些要求所需的挖掘操作;数据挖掘过程- 数据分析 为了讨论使用统计方法的数据,可能有必要清理数据,添入缺损的值,或者从几个 系统中将数据整合起来;数据分析将会对以后步骤中必需的数据转换供应一个初步的明白,比如数据清理和 整合;可能也会指出猎取外部的信息是必要的,比如说日常商业运作中并不需
31、要的 顾客人口统计数据;在这一步中涉及到的角色是挖掘专家,他们执行大部分的任务,仍有数据库治理员,他们将通过供应数据的拜访权限来支持这些活动;数据预处理- 14 -名师归纳总结 - - - - - - -第 14 页,共 23 页精选学习资料 - - - - - - - - - BI-Graciea.数据预处理 -数据中的不一样性 数据挖掘能够有效地处理数据中的不一样性;即使源数据是洁净的、整合的和经过 验证的,它们仍有可能包含现实世界的不真实的数据;有效熟悉和解决数据质量相关问题的唯独方法,就是企业对内部处理流程进行监视、分析和报告;美国硬盘生产商Maxtor 公司的首期信息长官斯考特.海卡
32、尔说“商务智能最大的困难在于需要确保用于总结性分析和外表板中的最底层的数据永久洁净、一样并相关;我们需要数据仓库具备自我治疗才能,能够自动地感应、侦查、通告和修理任何不 正确、缺失或未经核对的数据因素;但这至少需要一到两年才会发生 b.数据预处理 -数据清理 缘由:现实世界的数据一般是脏的、不完整和不一样的;功能:填充空缺值、识别孤立点、排除噪声、订正数据不一样;空缺值 忽视元组:当类标号缺少时通常这样做 人工填写空缺值:费时,数据集大时可能行不通 使用固定值:如 Unknow 或- 使用属性平均值 使用最有可能值:最常用的方法 噪声数据 噪声是一个测量变量中的随机错误或偏差 如何平滑数据,去
33、掉噪声 数据平滑技术 分箱 聚类 运算机和人工检查相结合 回来 分箱 箱的深度:表示不同的箱里有相同个数的数据;箱的宽度:每个箱值的取值区间是个常数;- 15 -名师归纳总结 - - - - - - -第 15 页,共 23 页精选学习资料 - - - - - - - - - BI-Gracie平滑方法 : 按箱平均值平滑 按箱中值平滑 按箱边界值平滑 聚类每个簇中的数据用其中心值代替 忽视孤立点 运算机和人工检查相结合 先通过聚类等方法找出孤立点;这些孤立点可能包含有用的信息;人工再审查这些孤立点 回来 通过构造函数来符合数据变化的趋势,这样可以用一个变量猜测另一个变量;线性回来 多线性回来
34、 c.数据预处理 -数据集成 将多个数据源中的数据结合起来存放在一个一样的数据存贮中;元数据、相关分析、数据冲突检测和语义异种性的解析都有助于数据集成;d.数据预处理 -数据变换 数据变换:将数据转换成适合挖掘的形式;平滑:去掉数据中的噪声;技术包括分箱、聚类和回来;集合:对数据进行汇总和集合;例如可以集合日销售数据,运算年销售额;通常这一步用来为多粒度数据分析构造数据立方体;数据概化:使用概念分层,用高层次的概念替换低层次的“原始 ”数据;如 分类的属性 street 可以概化为较高层的概念,如 city 或 country;e.数据预处理 -数据变换 数据变换:将数据转换成适合挖掘的形式;
35、-1.0 到 1.0 规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如 或 0.0 到 1.0 f.数据预处理 -数据变换 属性构造 由给定的属性构造和添加新的属性,以帮忙提高精度和对高维数据结构的 懂得;例如,我们可能依据属性height 和 width 添加属性 area;通过组合属性,属性构造可以发觉关于数据属性间联系的丢失信息,这对学问发觉是有用的 g.数据预处理 -数据归约 数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近于保持原数据的完整 性 3、Effort Distribution- 16 -名师归纳总结 - - - - - - -第 16 页,共 23
36、页精选学习资料 - - - - - - - - - BI-Gracie4、关联分析 关联分析目的是查找给定数据记录集中数据项之间隐匿的关联关系,描述数据之间 的亲密度;关联分析的结果常有两种:关联规章和序列模式;关联规章用于查找在同一个大事中显现的不同项的相关性 关联规章发觉的主要对象是交易型数据库,一个交易一般由交易处理时间,一组顾 客购买的物品,有时也有顾客标识号 如信用卡号 组成;关联规章 :是描述在一个交易中物品之间同时显现的规律的学问模式,更准确的说,关联规章是通过量化的数字描述物品X 的显现对物品Y 的显现有多大的影响;5、Apriori算法(把握)k-1 项集(他的子集)不是频繁
37、的,那他本身连接 : 用 Lk-1 自连接得到Ck修剪 : 一个 k-项集,假如他的一个也不行能是频繁的;伪代码 : Ck: Candidate itemset of size k Lk : frequent itemset of size kL1 = frequent items;for k = 1; Lk .=; k+ do beginCk+1that Ck+1 = candidates generated from Lk ;for each transaction t in database doincrement the count of all candidates in are c
38、ontained in t Lk+1 = candidates in Ck+1 with min_support end return k Lk ; 例子- 17 -名师归纳总结 - - - - - - -第 17 页,共 23 页精选学习资料 - - - - - - - - - BI-Gracie如何生成候选集假定 Lk-1 中的项按次序排列第一步 : 自连接 Lk-1insert into Ckselect p.item1, p.item2, , p.itemk-1, q.itemk-1from Lk-1 p, Lk-1 qwhere p.item1=q.item1, , p.itemk-
39、2=q.itemk-2, p.itemk-1 B 的置信度有肯定的欺诈性,它只是给定A,B 的条件概率的估量,并不度量 A 和 B 之间蕴涵的实际强度;- 18 -名师归纳总结 - - - - - - -第 18 页,共 23 页精选学习资料 - - - - - - - - - BI-Gracie7、由关联分析到相关分析依据相关性分析挖掘数据项之间好玩的联系;Corr A,B=PAB/PAPB1:项集 A 和 B 是独立的;Corr A,B=PAB/PAPB1:项集 A 和 B 是正相关的;Corr A,B=PAB/PAPBhamburgers” ,给定最小支持度阈值25%,最小置信度阈值 5
40、0%,该关联规章是强的吗?(b)依据给定的数据,买 相关联系?hotdog 独立于买 hamburgers 吗?假如不是,二者之间存在何种8、数据挖掘技术-概念描述:特点化与比较概念描述 : 特点化 : 对所挑选的数据聚集给出一个简洁明白的描述;比较 : 供应对于两个或以上数据聚集进行比较的结果;课后练习依据交叉表算出t 权(不跨类,横向加起来100%)、 d 权(跨类)1.a Class/birth_place Canada others Count t_权 d_权 Count t_权 d_权Programmer 180 60% 90% 120 40% 60%DBA 20 20% 10% 80 80% 40%B X,classx=“Programmer”birth_placeX=“Canada”