《数据挖掘教案.docx》由会员分享,可在线阅读,更多相关《数据挖掘教案.docx(83页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、上课时间第一周上课节次3节课 型理论课 题绪论教学目的使学生初步相识数据挖掘与数据仓库教学方法讲授重点、难点数据挖掘与数据仓库的定义与其应用价值时间安排教学内容板书或课件版面设计1.1初识数据挖掘1.1.1数据挖掘的产生数据挖掘产生的前提是须要从多年积累的大量数据中找出隐藏在其中的、有用的信息和规律。计算机技术和信息技术的开展使其有实力处理这样大量的数据。1.1.2数据挖掘的应用价值应用数据挖掘从大量数据中发觉规律是面对某一应用的规律,具有具体的指导意义。早期数据挖掘主要应用于商业领域,随着人们对数据挖掘理解的逐步深化,其应用领域逐步扩大到科学探讨、市场营销、金融分析和体育竞赛等领域。1.1.
2、3数据挖掘的开展过程数据挖掘是20世纪80年头人工智能探讨工程失败后,人工智能转入实际应用时提出的,是一个新兴的、面对商业应用的人工智能探讨。1.1.4数据挖掘的定义数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和学问的过程。1.2初识数据仓库1.2.1数据仓库的产生20世纪80年头出现了数据仓库的思想,数据仓库是面对主题的、集成的、包含历史的、不行更新的、面对决策支持的、面对全企业的、最明细的数据存储、数据快照式的数据获得。1.2.2数据仓库的应用价值传统数据库的处理方式和决策分析中的数据需求在决策处理的系统吸纳供给问
3、题、决策数据需求的问题以与决策数据操作的问题方面不相称,导致企业无法运用现有的业务处理来满意决策分析的须要,因此决策分析须要一个可以不受传统事务处理的约束、高效率处理决策分析数据的支持环境,这就是数据仓库存在的价值。1.2.3数据仓库的开展过程数据仓库是一种新的数据处理体系构造,是企业内部各部门业务数据和各种外部数据进展统一和综合的中央数据仓库,为企业决策支持系统供给所需的信息,是一种信息管理技术。目前世界上最大数据仓库是NRC公司建立的基于其Tera data数据库拥有24TB数据量的Wal-Mart数据仓库系统。1.2.4数据仓库的定义数据仓库是面对主题的、集成的、不行更新的、随时间不断改
4、变的数据集合,用以支持经营管理中的决策制定过程。1.2.5数据仓库与数据挖掘的关系(1)数据仓库系统的数据可以作为数据挖掘的数据源(2)数据挖掘的数据源不肯定必需是数据仓库系统1.3进一步理解的数据挖掘1.3.1数据挖掘的功能数据挖掘的目的是从数据中发觉隐含的、有意义的学问,包括概念描绘、关联分析、分类与预料、聚类分析、趋势分析、孤立点分析以与偏向分析7个方面的功能。(1)概念描绘对某类对象的内涵进展描绘,并概括这类对象的有关特征。其中,特征性描绘用于描绘某类对象的共同特征,区分性描绘用于描绘不同类对象之间的区分。(2)关联分析关联分析的目的在于找出数据中隐藏的关联网。(3)分类与预料所谓分类
5、就是按照分析对象的属性分门别类、加以定义、建立类组,其关键是确定对数据依据什么标准或什么规则进展分类。所谓预料就是利用历史数据就爱实力模型,再运用最新数据作为输入值,获得将来改变的趋势或者评估给定样本可能具有的属性值或值的范围。(4)聚类分析又称为无指导的学习,其目的在于客观地依据被处理对象的特征分类,将有一样特征的对象归为一类。(5)趋势分析又称为时间序列分析,是从相当长的时间的开展中发觉规律和趋势,是时序数据挖掘最根本的内容。(6)孤立点分析又称为孤立点挖掘,是指数据库中包含的一些与数据的一般行为或模型不一样的数据。(7)偏向分析又称为比拟分析,是对差异和极端特例的描绘,用于提醒事物偏离常
6、规的异样现象。1.3.2数据挖掘常用技术数据挖掘算法是数据挖掘技术的一部分,数据挖掘技术用于执行数据挖掘功能,一个特定的数据挖掘功能只适用于给定的领域。(1) 聚类检测方法是最早的数据挖掘技术之一,在聚类检测技术中,不是搜寻预先分类的数据,也没有自变量和因变量之分,因此也称为无指导的学问发觉或无监视学习。聚类生成的组叫簇,是数据对象的集合。聚类检测的过程就是使同一个簇内的随意两个对象之间具有较高的相像性,不同簇的两个对象之间具有较高的向异性。用于数据挖掘的聚类检测方法有:划分的方法、层次的方法、基于密度的方法、基于网络的方法和基于模型的方法等。(2) 决策树方法主要应用于分类和预料,供给了一种
7、展示类似在什么条件下会得到什么值这类规则的方法。一个决策树表示一系列的问题,每个问题确定了接着下去的问题会是什么。决策树方法合适于处理费数值型数据。(3)人工神经网络方法人工神经网络方法主要用于分类、聚类、特征挖掘、预料等方面。它通过向一个训练数据集学习和应用所学学问,生成分类和预料的形式。对于数据是不定性的和没有任何明显形式的状况,应用人工神经网络比拟有效。人工神经网络方法主要有:前馈式网络、反应式网络和自组织网络。(4)遗传算法该算法仿照人工选择培育良种的思路,从一个初始规则集合开场,迭代地通过交换对象成员产生群体,评估并择优复制,优胜劣汰逐代积累计算,最终得到最有价值的学问集。繁殖:从一
8、个旧种群选择诞生命力强的个体产生新种群的过程。穿插:选择两个不同个体的部分进展交换,形成新个体的过程。变异:对某些个体的某些基因进展变异。(5)关联分析方法包含关联发觉(可以系统地、有效地得到关联规则,找出关联组合,在关联组合中,假如出现某一项,另一项也会出现)、序列形式发觉(找到时间上连续的事务)和类似的时序发觉形式(先找到一个事务依次,再推想出其它类似的事务依次)。(6)基于记忆的推理算法即运用一个模型的已知实例来预料未知的实例。1.3.3数据挖掘的过程1.4数据挖掘应用实例某些具有特定的应用问题和应用背景的领域是最能表达数据挖掘作用的应用领域。1.5数据挖掘的开展趋势1.5.1数据挖掘探
9、讨方向(1)特地用于学问发觉的形式化和标准化的数据挖掘语言。(2)数据挖掘过程中的便于用户理解的与人机交互的可视化方法。(3)网络环境下的数据挖掘技术。(4)加强对各种非构造化数据的挖掘。1.5.2数据挖掘应用的热点(1)网站的数据挖掘(2)生物信息或基因的数据挖掘(3)文本的数据挖掘教学后记本章节的重点是数据挖掘与数据仓库的定义,难点是它们的应用价值,学生对它们的应用领域与案例相对较为感爱好。上课时间第二周上课节次3节课 型理论课 题数据仓库的定义、构造、说明与其清理教学目的使学生初步理解数据仓库教学方法讲授重点、难点数据仓库的定义与其构造时间安排教学内容板书或课件版面设计2.1数据仓库的定
10、义数据仓库是一个环境,而不是一件产品,供给用户用于决策支持的当前和历史的数据,这些数据时在传统的操作型数据库中很难或不能得到的。数据仓库的4个根本特征:(1)数据仓库的数据是面对主题的。(2)数据仓库的数据是集成的。(3)数据仓库的数据是不行更新的。(4)数据仓库的数据时随时间不断改变的。2.1.1数据仓库的数据是面对主题的面对主题性表示数据仓库中数据组织的根本原则,数据仓库中的全部数据都是围围着某一主题组织和绽开的。(1)主题的概念主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进展分析利用的抽象,在逻辑意义上,它是对应企业中某一宏观分析领域所涉与的分析对象。面对主题的
11、数据组织方式,就是在较高 上分析对象的数据的一个完好、一样的描绘,能完好、统一地刻画各个分析对象所涉与的企业的各项数据,以与数据之间的联络。(2)主题的划分原则在划分主题是,必需保证每个主题的独立性和完备性。主题确定后须要确定主题应当包含的数据。在主题的数据组织中应当留意,不同的主题之间可能出现互相重叠的信息,这种主题间的重叠是逻辑的,而不是同一数据内容的物理存储重复。2.1.2数据仓库的数据是集成的在数据进入数据仓库之前,必定要经过转换、统一与综合,这是数据仓库建立中最关键也是最困难的一步。2.1.3数据仓库的数据是不行更新的数据仓库的数据主要供企业决策分析之用,不是用来进展日常操作的,一般
12、只保存过去的数据,而不随源数据的改变而实时更新,数据仓库中的数据一般不再修改。由于数据仓库的数据是不行更新的,因此也称其具有非易失性。这种不行更新性可以支持不同的用户在不同的时间查询一样的问题时获得一样的结果。2.1.4数据仓库的数据是随时间不断改变的数据仓库的数据随时间的不断改变主要表达在数据仓库随时间改变不断增加新的数据内容。数据仓库的数据初装完成后,再向数据仓库输入数据的过程称为数据追加。数据追加的内容仅限于上次向数据仓库输入后元数据库中改变了的数据。2.2数据仓库的构造数据仓库中的数据可分为多个级别,不同综合级别称之为“粒度”。2.2.1元数据元数据是“关于数据的数据”,可对数据仓库中
13、的各种数据进展具体的描绘与说明,说明每个数据的上下文关系,使每个数据具有符合现实的真实含义,使最终用户理解这些数据之间的关系。(1)元数据在数据仓库中的作用为决策支持系统分析员和高层决策人员效劳供给便利。解决面对应用的操作型环境和数据仓库的困难关系。(2)元数据的运用元数据在数据仓库开发期间的运用。元数据在数据源抽取中的作用。元数据在数据清理与综合中的运用。(3)元数据的分类按元数据的类型可分为关于根本数据的元数据、用于数据处理的元数据和关于企业组织构造的元数据。按抽象级别可分为概念级、逻辑级和物理级的元数据。按元数据担当的任务可分为静态元数据和动态元数据。从用户的角度对元数据分类没有一个统一
14、的标准,往往与元数据的运用目的有关,一般可分为技术元数据和业务元数据两类。(4)元数据的内容数据源的元数据数据模型的元数据数据打算区元数据数据库管理系统元数据前台元数据2.2.2粒度的概念粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别,它影响存放在数据仓库中的数据量得大小,同时影响数据仓库所能答复查询问题的细微环节程度。粒度可分为按时间段综合数据的粒度和按采样率凹凸划分的样本数据库两种形式。(1)按时间段综合数据的粒度按时间段综合数据的粒度是对数据仓库中的数据的综合程度凹凸的一个度量,一般是依据不同的时间段来综合数据。它与影响数据仓库中的数据量的多少,也影响数据仓库所能答复询问的种类
15、。为了适应不同查询的须要,数据仓库中常常建立多重粒度。(2)样本数据库样本数据库的粒度级别不是依据综合程度的不同来划分的,而是依据采样率的凹凸来划分的。采样粒度不同的样本数据库可以具有一样的综合级别。样本数据库的抽取可以依据数据的重要程度不同来进展,样本数据库是建立在不同时点上的粒度。2.2.3分割问题分割也是数据仓库中的一个重要概念,它是指将数据分散到各自的物理单元中去,以便能分别独立处理,以进步数据处理效率。数据分割后俄数据单元称为分片。(1)分割的优越性简洁重构简洁重组自由索引依次扫描简洁复原简洁监控(2)数据分割的标准数据分割的标准石油开发人员选择的(有时间、商业领域、地理位置、组织单
16、位等),在数据仓库中,按时间总是必需的。(3)分割的层次一般分为系统层(由数据库管理系统和操作系统完成分割)和应用层(由应用程序完成分割)两层。2.2.4数据仓库中的数据组织形式(1)简洁积累构造这是数据仓库中最常用、最简洁的数据组织形式,它从面对应用的数据库中每天的数据中提取出来,然后依据相应的主题集成为数据仓库中的记录。(2)轮转综合构造该构造将数据存储单位分为日、周、月、年几个级别,构造简捷,数据量比简洁积累构造大大削减,但损失了数据细微环节。(3)简洁干脆构造类似于简洁积累文件,但不是每天集成后放入数据仓库,而是间隔肯定时间间隔。简洁干脆构造也可以认为是按肯定的时间间隔对数据库的采样。
17、(4)连续构造通过两个或更多的连续的简洁干脆构造数据组织形式的文件,可以生成连续构造数据组织形式的文件。对于各种文件构造的最终实现,关系数据库中仍旧要依靠“表”的构造。2.3数据仓库的说明数据仓库通过标准手册进展说明,标准手册中包含: 描绘什么是数据仓库 描绘对数据仓库输送数据的源系统 如何运用数据仓库 有了问题如何获得扶植 谁负责什么 数据仓库的迁入支配 数据仓库数据如何与面对应用的数据相关联 如何为决策分析系统运用数据仓库 什么时候不向数据仓库中加数据 数据仓库中没有什么类型的数据 可利用的元数据的说明 数据仓库的记录系统是什么2.4数据仓库的清理数据从数据仓库中“去除”有以下几种形式:(
18、1)数据参加到失去原有细微环节的一个轮转综合构造数据组织形式的文件中。(2)数据从高性能的介质转移到大容量介质上。(3)数据从数据仓库系统中真正去除。(4)数据从偶给你体系构造的一个层次转移到另一个层次。教学后记本章节的重点是数据仓库的定义,难点是数据仓库的构造,学生驾驭状况一般,还需课后多查看相关资料。上课时间第三周上课节次3节课 型理论课 题数据仓库系统的设计、数据的访问与应用教学目的使学生学会设计数据仓库系统,并访问其数据教学方法讲授重点、难点数据仓库系统的设计与素具仓库数据的访问时间安排教学内容板书或课件版面设计2.5数据仓库系统的设计2.5.1数据仓库系统设计方案数据仓库是一个面对数
19、据分析处理的数据环境,数据仓库的数据是面对主体的、集成的、不行更新的、随时间不断改变的。(1)数据仓库系统设计与数据库系统设计的不同主要表如今面对的处理类型步步、面对的需求不同、系统设计的目的不同、两者的数据来源或系统的输入不同以与设计的方法和步骤不同等几个方面。(2)声明周期发SDLCSDLC有独立的手机需求和分析需求的阶段,一旦进入到构建数据库阶段,系统的需求就根本不变了。(3)螺旋式卡法方法CLDSCLDS方法没有独立的搜集需求和分析需求的阶段,而是将对需求的过程贯穿整个设计的过程。(4)数据驱动创立数据仓库的工作实在原有的数据库的数据根底上进展的,这种从已有数据动身的数据仓库设计方法被
20、称为“数据驱动”的系统设计方案。其根本思路是:利用以前所获得的工作成果不再是面对应用利用数据模型数据仓库的系统设计是一个动态的返回和循环的过程。2.5.2数据仓库设计的三级数据模型数据模型是对现实世界进展抽象的工具,抽象的程度不同,性阿城的抽象级别层次就不同。数据仓库的数据模型中不包含纯操作型的数据。数据仓库的数据模型扩大了码构造,增加了时间属性作为码的一部分。数据仓库的数据模型中增加了一些导出数据。在数据仓库设计中存在着概念级数据模型、逻辑数据模型和物理数据模型三级。(1)概念数据模型是主观与客观之间的桥梁,最常用的表示方法是实体联络(E-R)法。(2)逻辑数据模型数据仓库中采纳的路基数据模
21、型就是关系模型,无论主题还是主题之间的联络都用关系来表示。数据仓库的逻辑数据模型描绘了数据仓库的主题的逻辑实现,即每个主题所对应的关系表的关系形式的定义。(3)物理数据模型数据仓库的物理数据模型就是逻辑数据模型在数据仓库中的实现。(4)高层数据模型、中间层数据模型和低层数据模型高层数据模型对数据抽象程度最大,运用的主要表达工具是E-R图。高层数据模型建好后,对高层数据模型中标识的每个主要的主题域或实体,都要建一个中间层数据模型,中间层数据模型有联接数据组(主要用于标识本主题域与其它主题域之间的联络)、根本数据组(根本不会发生改变的数据项)、二次数据组(根本不改变,但又有改变的可能的数据项)和类
22、型数据组(常常改变的数据项)四种根本构造。底层数据模型就是物理数据模型。2.5.3进步数据仓库的性能建立数据仓库过程中一个重要的问题就是如何进步系统的性能,进步系统性能主要就是进步系统的物理I/O性能。(1)粒度划分一般要将数据划分为:具体数据、轻度综合、高度综合三级或更多级粒度,不同粒度级别的数据用于不同类型的分析处理。划分粒度步骤:估算数据仓库中数据的行数和所需占用的空间大小。依据估算出的数据行数和所需占用的空间大小,确定是否要划分粒度与如何划分粒度。(2)分割数据仓库中的库中的数据分割与数据库中的数据分片概念相近。按时间进展数据分割是最普遍的。分割的标准一般要考虑数据量、数据分析处理的实
23、际状况、简洁易行以与粒度划分侧率等几方面因素。(3)其它设计问题合并表建立时间序列将数据严格按处理依次存放到一个或几个连续的物理块中,即所谓的建立数据序列。建立时间序列可以在同一次调页中处理更多的记录,将物理I/O的次数降到最低。引入冗余引入冗余的目的是削减连接操作,从而削减访问的代价,但引入冗余后须要留意维护数据各个副本间的一样性。表的物理分割生成导出数据建立广义索引2.5.4数据仓库设计步骤数据仓库系统开发时一个经过不断循环、反应而使系统不断增长与完善的过程,其设计大体上可分为以下几个步骤:(1)概念模型设计(2)技术打算工作(3)逻辑模型设计(4)物理模型设计(5)数据仓库生成(6)数据
24、仓库运行与维护2.6数据仓库数据的访问在一些特别状况下,有可能会出现数据从仓库流向操作性环境的这种数据“回流”现象,当出现“回流”状况时,对数据仓库数据的访问有数据仓库数据的干脆访问和间接访问两种方式。2.6.1数据仓库数据的干脆访问所谓干脆访问即操作环境下的一个传统应用向属于数据仓库的数据提出访问恳求,在数据仓库环境中查询到所需的数据,再传输到操作型环境中。2.6.2数据仓库数据的接按揭访问所谓间接访问即利用程序对数据仓库的数据进展定期的分析,将分析的结果产生新的文件,用来满意操作型应用的须要。数据仓库数据的访问大多采纳间接访问方式。2.7数据仓库的应用主要应用领域:(1)全局应用主要用于企
25、业在开展过程中形成的多种独立应用的系统,或者用于一些大公司地理位置上分布的多个子公司或部门。(2)困难应用须要将数据分为操作环境数据和分析环境数据量大部分。教学后记本章节重点是数据仓库系统的设计和数据仓库数据的访问,难点是数据仓库的应用。学生并未真正建立和运用过数据仓库,对其设计和运用都还只是停留在理论阶段。上课时间第四周上课节次3节课 型理论课 题数据预处理的目的以与数据的清理、集成和变换教学目的使学生驾驭数据的根本处理方法教学方法讲授重点、难点数据的清理、集成和变换时间安排教学内容板书或课件版面设计3.1数据预处理的目的3.1.1原始数据中存在的问题原始数据主要存在以下几个方面问题:不一样
26、重复不完好含噪声噪声是指一个测量变量中的随机错误或偏离期望的孤立点值。维度高一个完好的数据挖掘系统应当供给数据预处理模块,此模块的功能是形成供数据挖掘算法运用的目的数据学问基。3.1.2 数据预处理的方法和功能数据预处理包含数据清洗、数据集成、数据变换和数据归约击中方法。(1)数据清洗过程即填充空缺值,识别孤立点,去掉原始数据中的噪声和无关数据。(2)数据集成是将多个数据源中的数据结合起来存放在一个一样的数据存储中。数据集成涉与多个数据源的数据匹配、数值冲突和数据冗余的问题。(3)数据变换是把原始数据转换成为合适数据挖掘的形式,包括对数据的汇总和聚集、概化、标准化,还可能须要进展属性的构造。(
27、4)数据归约技术用于产生数据的规约表示,是的数据的范围减小,但更合适于数据挖掘算法的须要,并可以得到和原始数据一样的分析结果。3.2数据清理从数据中选取适宜的属性作为数据挖掘属性的过程有以下几个参考原则尽可能给予属性名和属性值明确的含义。统一多数据源的属性值编码。去除唯一属性。去除重复属性。去除可忽视字段。合理选择关联字段3.2.1处理空缺值处理空缺值有以下几种方法:忽视该记录去掉属性手工填写空缺值运用默认值运用属性平均值运用同类样本平均值预料最可能的值3.2.2噪声数据的处理在测量一个变量时可能产生一些误差或者错误,是的测量值相对于真实值有肯定的偏向,这种偏向成为噪声。去除噪声的方法有:(1
28、)分箱分箱方法是一种简洁常用的预处理方法,通过考察相邻数据来确定最终值。所谓“箱子”,事实上就是依据属性值划分的子区间。在采纳分箱技术时,须要确定的两个主要问题就是:如何分箱以与如何对每个箱子中的数据进展平滑处理。留意:分箱之前血药对记录依据目的属性值的大小进展排序。分箱方法有统一权重(等深分箱法)、统一区间(等宽分箱法)、最小熵和用户自定义区间等。分箱的目的是对各个箱子中的数据进展处理,所以完成分箱之后,要考虑的就是选择一种方法对数据进展平滑,使得数据尽可能接近。常运用的数据平滑方法有按平均值怕你规划、按边界值平滑和按中值平滑三种。(2)聚类聚类是将物理的或抽象对象的集合分组为由类似的对象组
29、成的多个类的过程。聚类的结果是生成一组由数据对象组成的集合,称为簇。同一簇中的全部对象具有相像性,并且一个对象与同簇中任何一个对象之间的相像性肯定强于它于其它簇中任何一个对象之间的相像性。同一簇中的对象用一样的特征来标识,落在簇之外的值称为孤立点,这些孤立点被视为噪声。聚类的质心即聚类中的平均点。(3)回来回来试图发觉两个相关的变量之间的改变形式,通过使数据合适一个函数来平滑数据,即通过建立数学模型来预料下一个数值,包括线性回来和非线性回来。线性回来也称为简洁回来,是最简洁的回来形式,用直线建模,将一个变量看作另一个变量的线性函数。多元回来是线性回来的扩展,也成为复回来,有两个火两个以上自变量
30、。3.3数据集成和变换数据挖掘所运用的数据通常来自于多个数据存储,所以常常须要把多个数据存储合并起来,这个过程称为数据集成。而为了是数据符合算法和数据挖掘目的的须要,还学须要对数据进展变换。3.3.1数据集成数据集成是将多文件或者多数据库中的异构数据进展合并,然后存放在一个一样的数据存储中,解决语义模型问题,主要工作涉与到数据的冲突问题和不一样数据的处理问题。在数据集成过程中,通常须要考虑形式匹配、数据冗余和数据值冲突问题。3.3.2数据变换(1)平滑平滑即去除噪声,还可以将连续的数据离散化,增加粒度。数据平滑的方法包括分箱、聚类、回来等。(2)聚集聚集即对数据进展汇总。聚集常用来构造数据立方
31、体。(3)数据概化从原始数据集得到的数据包含一些低层概念的描绘,而在数据挖掘中有时并不须要细化到这些概念,可以用它的高层概念交换,所以须要对数据进展概化。(4)标准化将数据按比例缩放,使之落入一个特定的区域,称为标准化。常用的标准化方法有最小最大标准化、零均值标准化和小叔定标标准化等。(5)属性构造为了进步数据挖掘的精度或者使数据构造更简洁理解,有时会依据已有的属性构造新的属性添加到数据挖掘集中,这种方法对分类算法有扶植。教学后记本章节重点是数据的根本处理方法,难点是处理方法的应用。学生对处理方法的理论尚能驾驭,但实际应用方面没有阅历。上课时间第五周上课节次3节课 型理论课 题数据归约教学目的
32、是学生驾驭各种数据归约的方法教学方法讲授重点、难点各种数据归约的算法与其实现时间安排教学内容板书或课件版面设计3.4数据归约数据归约用于从源数据集中得到数据集的归约表示。数据归约的目的是为了获得比原始数据小得多的,但不破坏数据完好性的挖掘数据集,该数据集可以得到与原始数据一样的挖掘结果。3.4.1数据归约的方法(1)数据立方体聚集即把聚集的方法用于数据立方体。(2)维归约即检测并删除不相关、弱相关或冗余属性。(3)数据压缩即选择正确的编码压缩数据集。(4)数值压缩即用较少的数据表示数据或采纳较短的数据单位、数据模型代表数据。(5)离散化和概念分层使连续的数据离散化,就是用确定的有限个区段值代替
33、原始值;概念分层是指用较高层次的概念交换低层次的概念,以此来削减取值个数。3.4.2数据立方体聚集数据立方体是数据的多维建模和表示,由维和事实组成。维就是涉与到的属性,而事实是一个具体的数据。3.4.3维归约在数据立方体的概念根底上,把属性称为维,维归约即去掉不相关的属性,削减数据挖掘处理的数据量。属性子集选择的根本方法:逐步向前选择逐步向后删除向前选择和向后删除结合断定树归纳基于统计分析的归约3.4.4数据压缩数据压缩就是用数据编码或者变换,得到原始数据压缩表示。数据压缩可以削减数据存储而不影响数据挖掘的结果。数据压缩的方法分为无损压缩和有损压缩两种。3.4.5数值归约数值归约就是通过某种方
34、法,选择较少的数据来替代原数据,削减数据量。(1)直方图直方图技术是一种常用的归约技术,它运用分箱方法对数据进展近似。每个箱代表一个区域范围内的值,箱的宽度代表值域范围,箱的高度代表这个范围内的值的个数,即频率。每个箱可以代表一个属性的值和频率,称为一维直方图,也可以代表两个以上属性的值和频率,称为多维直方图。若每个箱只表示一个属性值,则成为单桶。(2)聚类用数据的聚类来代表实际数据,当数据中存在聚类特征时,即数据可以形成有限个聚类时,此方法可以很好的归约数据。(3)抽样抽样是对记录进展选取,用较小的数据样本集表示大的数据集。几种常用的抽样方法:不放回简洁随机抽样放回简洁随机抽样聚类抽样分层抽
35、样(4)线性回来和非线性回来线性回来和非线性回来方法用数据模型近似数据,它们并不保存实际数据,而是产生一个数据模型,只保存数据模型的参数,所以也称为参数方法。此类方法只对数值型数据有效。3.4.6离散化与概念分层离散化就是为了适应算法或者存储的须要,用有限数量的离散数据替代连续数据。在数据集上递归的运用某种离散化技术就形成了数据集俄概念分层。(1)数值数据的离散化与概念分层数值数据的概念分层可以通过数据分析自动产生,它们可以无干预的完成对属性的概念分层,但是这些方法划分出来的层并不考虑边界值是否直观或自然。(2)分类数据的概念分层分类数据是指分类属性值所包含的数据。所谓分类属性,就是那先具有有
36、限个取值的属性。典型的用于分类数据概念分层的方法有:由用户或者专家在形式级显式地说明数据的包含关系。通过显式数据分组说明分层构造的一部分。依据属性值的个数自动产生分层。依据数据语义产生分层。教学后记本章节重点是各种数据归约算法的驾驭,难点是各种算法的实现。学生对算法的驾驭尚可,但对算法的实现还学要多加练习。上课时间第六周上课节次3节课 型理论课 题数据挖掘发觉学问的类型(一)教学目的使学生驾驭各种学问的概念与发觉方法教学方法讲授重点、难点广义学问、关联学问和分类学问时间安排教学内容板书或课件版面设计4.1广义学问4.1.1广义学问的概念广义学问是指类别特征的概括性描绘学问,即对大量数据的归纳、
37、概括,提炼出带有普遍性的、概括性的描绘统计学问。4.1.2广义学问的发觉方法(1)数据立方体也称为“多维数据库”、“实现视图”等,本质上就是一个多维数组,是维和变量的组合表示。数据立方体的根本思想是实现某些常用的代价较高的聚集函数的计算,并将这些实现视图储存在多维数据库中。(2)面对属性的归约也称为维规约。规约即经过互相协议规定下来的共同遵守的条款。面对属性的规约即关于属性的经过互相协议规定下来的共同遵守的条款。规定这些条款的目的是削减属性个数,从而削减数据量。削减数据量的方法可以从以下几方面考虑:将无用的、冗余的、错误的或影响小的属性干脆删除,削减属性个数。增大数据统计的粒度,提升概念树。对
38、属性设置限制阈值,过滤一部分数据量。运用聚集函数。4.2关联学问4.2.1关联学问的概念关联学问是反映一个事务和其它事务之间以来或互相关联的学问。4.2.2关联学问的发觉方法(1)Apriori算法关联规则的发觉可分为两步:迭代识别全部的频繁工程集,要求频繁工程集的支持度不低于用户设定的最低值。从频繁工程集中构造惋惜度不低于用户设定的最低值的规则。识别或发觉全部频繁工程集是关联规则发觉算法的核心,也是计算量最大的部分。(2)关联与关联规则数据关联是数据库中存在的一类重要的可被发觉的学问。关联分析的目的是找出数据库中隐藏的关联网。关联可分为简洁关联、时序关联、因果关联。关联规则从本质上讲是条件概
39、率。在关联规则的挖掘中要留意:充分理解数据目的明确数据打算工作要做好选取恰当的最小支持度和最小可信度很好地理解关联规则如何合理地运用得出的关联关系,完全靠决策者的正确理解和决策。4.3分类学问4.3.1分类学问的概念分类学问是反映同类事物共同性质的特征型学问和不同事物之间的差异型特征学问。4.3.2分类学问的发觉方法所谓分类,就是把给定的数据划分到肯定的类别中。分类的关键是对数据依据什么标准或什么规定进展分类。分类的过程:在已知训练集上,依据属性特征,为每一种类别找到一个合理的描绘或模型,与分类规则。依据规则对新数据进展分类。对于分类规则的挖掘通常有决策树方法、贝叶斯方法、人工神经网络方法、粗
40、糙集方法和遗传算法等。教学后记本章节重点是各种学问的概念,难点是各种学问的发觉方法。学生可以驾驭概念和各学问理论上的发觉方法,但实际应用方面的阅历比拟匮乏。上课时间第七周上课节次3节课 型理论课 题数据挖掘发觉学问的类型(二)教学目的使学生驾驭各种学问的概念与发觉方法教学方法讲授重点、难点预料型学问和偏向型学问时间安排教学内容板书或课件版面设计4.4预料型学问4.4.1预料型学问的概念预料型学问是依据时间序列型数据,由历史的和当前的数据去推想将来的数据,也可以认为是以时间为关键属性的关联学问。4.4.2预料型学问的发觉方法目前,时间序列预料方法有经典的统计方法、神经网络和机器学习等对于连续型数
41、值的预料可以用称为回来的统计技术进展建模,回来分析的目的是找到一个联络输入变量和输出变量的最优模型。回来方法包括:线性回来、多元回来、非线性回来等。4.5偏向型学问4.5.1偏向型学问的概念偏向型学问是对差异和极端特例的描绘,说明事物偏离常规的异样现象。偏向即异样,在数据挖掘中也称其为“孤立点”。孤立点探测和分析是数据挖掘中的一个很特别的任务,被称为孤立点挖掘。4.5.2偏向型学问的发觉方法偏向检测的根本方法是,找寻观测结果与参照值之间有意义的差异。最常用的偏向型学问的发觉方法是异样探测法,异样探测法对异样的定义是:异样是既不属于聚类也不属于背景噪声的点。具体的异样探测算法有:基于统计的方法基
42、于间隔 的方法基于偏离的方法教学后记本章节重点是各种学问的概念,难点是各种学问的发觉方法。学生可以驾驭概念和各学问理论上的发觉方法,但实际应用方面的阅历比拟匮乏。上课时间第八周上课节次3节课 型理论课 题神经网络算法教学目的使学生理解并驾驭神经网络算法教学方法讲授重点、难点神经网络的概念与基于神经网络的算法时间安排教学内容板书或课件版面设计5.1神经网络算法神经网络的探讨的历史阶段:19431969年的初创期19701986年的过渡期1987今的开展期5.1.1神经网络的概念(1)人工神经元原理神经元由细胞体、树突和轴突三部分组成,是一种根须状的扩散物,是组成人脑的最根本单元。传递神经元冲动的
43、地方称为突触。从信息处理功能看,神经元具有如下性质:多输入,单输出突触兼有兴奋和抑制两种性能可时间加权和空间加权可产生脉冲脉冲进展传递非线性(2)人工神经网络人工神经网络是一个并行和分布式的信息处理网络构造,严格来说,神经网络就是一个具有如下性质的有向图:对于每个节点有一个状态变量Vj节点j到节点i有一个连接权系数Tij对于每个节点有一个阈值对于每个节点定义一个变换函数f(x)人工神经网络是生物神经网络的一种模拟和近似,它主要从两个方面进展模拟:一种是从构造和实现机理方面进展模拟;另一种是从功能上加以模拟,即尽量使得人工神经网络具有生物神经网络的某些功能特性。(3)MP模型与Hebb规则MP模
44、型每个神经元的状态Si(i=1,2,n)只取0或1,分别代表抑制与兴奋,每个神经元的状态由MP方程确定:Hebb规则若i与j两种神经元之间同时处于兴奋状态,则它们之间的连接应加强:5.1.2神经网络的计算机模型(1)反向传播模型(BP模型)BP模型是1985年由Rumelhart等人于提出的,该模型具有分层构造,最下层是输入层,中间是隐含层,最上面一层是输出层。信息从输入层一次向上传递,直至输出层。BP网络的主要优点有:只要有足够多的隐含层和隐节点,BP网络可以靠近随意的非线性映射关系。BP网络的学习算法术语全局靠近的方法,因此具有良好的泛化实力。BP网络的主要缺点有:收敛速度慢部分极值难以确定隐含层和隐节点的个数BP网络可以实现输入输出的非线性映射关系,但并不依靠于模型。由于连接权的个数很多,个别神经元的损坏只对输入输出关系有较小的影响,因此BP网络具有较好的容错性。BP网络由于具有很好地靠近非线性映射的实力,因