数据库考试复习题.docx

上传人:飞****2 文档编号:50963175 上传时间:2022-10-17 格式:DOCX 页数:12 大小:37.46KB
返回 下载 相关 举报
数据库考试复习题.docx_第1页
第1页 / 共12页
数据库考试复习题.docx_第2页
第2页 / 共12页
点击查看更多>>
资源描述

《数据库考试复习题.docx》由会员分享,可在线阅读,更多相关《数据库考试复习题.docx(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、8、ODBC,OLE DB,JDBC 1 ODBC(Open Database Connectivity,开放数据库互连)提供了一种标准的API(应用程序编程接口)方法来访问DBMS(Database Management System)。这些API利用SQL来完成其大部分任务。ODBC本身也提供了对SQL语言的支持,用户可以直接将SQL语句送给ODBC。ODBC的设计者们努力使它具有最大的独立性和开放性:与具体的编程语言无关,与具体的数据库系统无关,与具体的操作系统无关。OLE DB(Object Linking and Embedding, Database,对象链接嵌入数据库,有时亦写作

2、OLEDB或OLE-DB)是微软为以统一方式访问不同类型的数据存储设计的一种应用程序接口,是一组用组件对象模型(COM)实现的接口,而与对象连接与嵌入(OLE)无关。它被设计成为ODBC的一种高级替代者和继承者,把它的功能扩展到支持更多种类的非关系型数据库,例如可能不支持SQL的对象数据库和电子表格(如Excel)。OLE DB用一组抽象概念(包括数据源、会话、命令和行集)将数据的存储从需要访问数据的应用中分离出来。 这是因为不同的应用需要访问不同数据类型和数据源,但是并不需要了解具体如何使用特定技术的方法访问这些数据。 OLE DB在概念上分为了消费者和提供者。消费者是那些需要访问数据的应用

3、程序,提供者是实现了那些接口并将数据提供给消费者的软件组件。OLE DB是微软数据访问组件(MDAC)的一部分。MDAC是一组微软技术,以框架的方式相互作用,为程序员开发访问几乎任何数据存储提供了一个统一并全面的方法。OLE DB的提供者可以用于提供像文本文件和电子表格一样简单的数据存储的访问,也可以提供像Oracle、SQL Server和Sybase ASE一样复杂的数据库的访问。OLE DB同样可以提供对层次类型的数据存储(如电子邮件系统)的访问。另一方面,由于不同的数据存储技术可能具有不同的能力,OLE DB提供者不需要实现OLE DB中每一个接口。通过使用COM对象实现可用的能力 -

4、 OLE DB提供者 将把数据存储技术的功能映射到特定的COM接口上。 当某种接口提供的能力在所使用的数据库技术中不适用时,微软称该接口的可用性为provider-specific。同时,提供者也可以扩大数据存储的能力 - 这些能力在微软的用语中被称为services。JDBC(Java Data Base Connectivity,java数据库连接)是一种用于执行SQL语句的Java API,可以为多种关系数据库提供统一访问,它由一组用Java语言编写的类和接口组成。JDBC提供了一种基准,据此可以构建更高级的工具和接口,使数据库开发人员能够编写数据库应用程序,二. 叙述题 1、文件系统与

5、数据库系统有什么区别?使用数据库系统有什么优点? 文件系统和数据库系统之间的区别。(1) 文件系统用文件将数据长期保存在外存上,数据库系统用数据库统一存储数据;(2) 文件系统中的程序和数据有一定的联系,数据库系统中的程序和数据分离;(3) 文件系统用操作系统中的存取方法对数据进行管理,数据库系统用DBMS统一管理和控制数据;(4) 文件系统实现以文件为单位的数据共享,数据库系统实现以记录和字段为单位的数据共享。 文件系统和数据库系统之间的联系:(1) 均为数据组织的管理技术;(2) 均由数据管理软件管理数据,程序与数据之间用存取方法进行转换;(3) 数据库系统是在文件系统的基础上发展而来的。

6、 现代的数据库管理系统应该具备的7个功能:使用数据库系统的好处是: 查询迅速、准确,而且可以节约大量纸面文件; 数据结构化,并由DBMS统一管理;数据冗余度小; 具有较高的数据独立性; 数据的共享性好;DBMS还提供了数据的控制功能。 2、何谓视图?举例说明在数据库设计时引入视图有何益处。从用户角度来看,一个视图是从一个特定的角度来查看数据库中的数据。从数据库系统内部来看,一个视图是由SELECT语句组成的查询定义的虚拟表。从数据库系统内部来看,视图是由一张或多张表中的数据组成的,从数据库系统外部来看,视图就如同一张表一样,对表能够进行的一般操作都可以应用于视图,例如查询,插入,修改,删除操作

7、等。 视图是一个虚拟表,其内容由查询定义。同真实的表一样,视图包含一系列带有名称的列和行数据。但是,视图并不在数据库中以存储的数据值集形式存在。行和列数据来自由定义视图的查询所引用的表,并且在引用视图时动态生成。对其中所引用的基础表来说,视图的作用类似于筛选。定义视图的筛选可以来自当前或其它数据库的一个或多个表,或者其它视图。分布式查询也可用于定义使用多个异类源数据的视图。 视图是存储在数据库中的查询的SQL 语句,它主要出于两种原因:安全原因, 视图可以隐藏一些数据,如:社会保险基金表,可以用视图只显示姓名,地址,而不显示社会保险号和工资数等,另一原因是可使复杂的查询易于理解和使用。 视图:

8、查看图形或文档的方式。 视图一经定义便存储在数据库中,与其相对应的数据并没有像表那样又在数据库中再存储一份,通过视图看到的数据只是存放在基本表中的数据。对视图的操作与对表的操作一样,可以对其进行查询、修改(有一定的限制)、删除。 当对通过视图看到的数据进行修改时,相应的基本表的数据也要发生变化,同时,若基本表的数据发生变化,则这种变化也可以自动地反映到视图中。视图的优点视图有很多优点,主要表现在: 1. 视点集中 视图集中即是使用户只关心它感兴趣的某些特定数据和他们所负责的特定任务。这样通过只允许用户看到视图中所定义的数据而不是视图引用表中的数据而提高了数据的安全性。 2. 简化操作 视图大大

9、简化了用户对数据的操作。因为在定义视图时,若视图本身就是一个复杂查询的结果集,这样在每一次执行相同的查询时,不必重新写这些复杂的查询语句,只要一条简单的查询视图语句即可。可见视图向用户隐藏了表与表之间的复杂的连接操作。 3. 定制数据 视图能够实现让不同的用户以不同的方式看到不同或相同的数据集。因此,当有许多不同水平的用户共用同一数据库时,这显得极为重要。 4. 合并分割数据 在有些情况下,由于表中数据量太大,故在表的设计时常将表进行水平分割或垂直分割,但表的结构的变化却对应用程序产生不良的影响。如果使用视图就可以重新保持原有的结构关系,从而使外模式保持不变,原有的应用程序仍可以通过视图来重载

10、数据。 5. 安全性 视图可以作为一种安全机制。通过视图用户只能查看和修改他们所能看到的数据。其它数据库或表既不可见也不可以访问。如果某一用户想要访问视图的结果集,必须授予其访问权限。视图所引用表的访问权限与视图权限的设置互不影响。 视图的安全性视图的安全性可以防止未授权用户查看特定的行或列,是用户只能看到表中特定行的方法如下: 1 在表中增加一个标志用户名的列; 2 建立视图,是用户只能看到标有自己用户名的行; 3 把视图授权给其他用户。 逻辑数据独立性视图可以使应用程序和数据库表在一定程度上独立。如果没有视图,应用一定是建立在表上的。有了视图之后,程序可以建立在视图之上,从而程序与数据库表

11、被视图分割开来。视图可以在以下几个方面使程序与数据独立: 1 如果应用建立在数据库表上,当数据库表发生变化时,可以在表上建立视图,通过视图屏蔽表的变化,从而应用程序可以不动。 2 如果应用建立在数据库表上,当应用发生变化时,可以在表上建立视图,通过视图屏蔽应用的变化,从而使数据库表不动。 3 如果应用建立在视图上,当数据库表发生变化时,可以在表上修改视图,通过视图屏蔽表的变化,从而应用程序可以不动。 4 如果应用建立在视图上,当应用发生变化时,可以在表上修改视图,通过视图屏蔽应用的变化,从而数据库可以不动。3、使用触发器有何优点?举例说明如何使用触发器保证数据的一致性。触发器可通过数据库中的相

12、关表实现级联更改;不过,通过级联引用完整性约束可以更有效地执行这些更改。触发器可以强制比用 CHECK 约束定义的约束更为复杂的约束。与 CHECK 约束不同,触发器可以引用其它表中的列。例如,触发器可以使用另一个表中的 SELECT 比较插入或更新的数据,以及执行其它操作,如修改数据或显示用户定义错误信息。触发器也可以评估数据修改前后的表状态,并根据其差异采取对策。一个表中的多个同类触发器(INSERT、UPDATE 或 DELETE)允许采取多个不同的对策以响应同一个修改语句。 我们以BBS论坛数据库中多个关联表的操作为例,阐述触发器在保持数据完整性、一致性中的应用。在BBS的程序设计中,

13、我们经常会碰到对一个数据表操作的同时,还要自动对另外几个相关联的数据表进行操作,以保证各数据表之间数据的完整性与一致性。BBS论坛中常用的数据表有:BBS_User表(存储用户信息):用于存储用户信息。字段有用户名、密码、积分、发帖数、等级ID、最后一次发帖、qq、Email、头像、注册时间等;BBS_Type表:用于存储大版块信息。字段有版块ID、版块名称等;BBS_LanMu表:存储分论坛信息。字段有分论坛ID、名称、所属大版块ID、主题总数、回复总数、版主等;BBS_Topic表:存储帖子信息。字段有帖子ID、标题、内容、发帖人、所属分论坛ID、回复总数、点击总数、最后一次回贴时间、回帖

14、人等;BBS_Reply表:存储回复信息。字段有回复内容、回复人、回复的帖子ID、回复时间等。在BBS论坛中,触发器主要应用于以下几种情况:当用户在分论坛里发表帖子时,对BBS_Topic表进行操作,但同时要自动对分论坛表BBS_LanMu里面的论坛主题总数增1,还要更新BBS_User表给该用户增加相应的积分,当用户积分达到一定分数时,自动更新该用户的等级ID,表示该用户已经升了一个等级。当用户回复帖子时,对BBS_Reply表操作的同时,也需要对分论坛表BBS_LanMu里的回复总数增1、对BBS_Topic表的回复总数增1并更新该表里的最后回帖标题和时间,还要将BBS_User表里的该用

15、户的发帖数增1、自动增加相应积分、更新最后发帖标题和时间等;在论坛的后台管理中,管理员有时需要添加或者删除一个大版块。当我们要删除BBS_Type表一个大版块时,为了保证数据库各表中数据的完整性与一致性,要同时对BBS_LanMu表、BBS_Topic表、BBS_Reply表中相关联的数据记录一并删除。下面将以后台管理中对论坛大版块进行删除操作时应用触发器为例来进行具体介绍。(1) 需求分析在一个BBS中常见的论坛结构如图Pic-1:在一个论坛中有许多个大版块,每个版块又对应多个分论坛。每个论坛又对应多个帖子,每个帖子又对应多个回复信息。因此需要4个相关联的表来存储相应的信息:BBS_Type

16、表(存储大版块信息)、BBS_LanMu表(存储分论坛信息)、BBS_Topic表(存储帖子信息)、BBS_Reply表(存储回复信息)。BBS_Type与BBS_LanMu、BBS_LanMu与BBS_Topic、BBS_Topic与BBS_Reply之间都是一对多的关系。当我们要删除BBS_Type表一个大版块时,为了保证数据库各表中数据的完整性与一致性,需要同时对BBS_LanMu表、BBS_Topic表、BBS_Reply表中相关联的数据记录一并删除。因为这里面存在3对一对多的关系,如果在程序中或者存储过程实现,显然是很困难也是不合理的。根据触发器的作用以及这4个表之间的关系,采用嵌套

17、触发器来实现这个删除功能。为BBS_Type表、BBS_LanMu表、BBS_Topic表分别建立一个AFTER触发器,该触发器由DELETE事件触发。采用嵌套触发器可以在数据库里自动完成这多个表中相关记录的删除,大大简化了业务逻辑。这样即保证了数据的完整性与一致性,又保证程序设计的合理性与方便性。(2)创建触发器根据需求分析,为BBS_Type表、BBS_LanMu表、BBS_Topic表分别建立AFTER触发器,该触发器由DELETE事件触发。建立在这3个表之上的触发器之间是嵌套触发的关系,即BBS_Type表上的触发器触发BBS_LanMu表上的触发器,BBS_LanMu表上的触发器再触

18、发BBS_Topic表上的触发器。本文中使用的数据库为Microsoft SQL Server 2005。要让触发器能嵌套触发必须在数据库“属性”中,将“递归触发器已启用”设置为TRUE。1.为BBS_Type表(存储大版块信息)建立触发器DelType。该触发器功能是删除BBS_LanMu表中属于刚删除的大版块的所有分论坛信息。CREATE trigger DelType on dbo.BBS_Typeafter deleteasbegindeclare typeid intselect typeid=TypeID from deleted -获得要被删除的版块IDdelete from d

19、bo.BBS_LanMu where Typeid=typeidend2.为BBS_LanMu表(存储分论坛信息)建立触发器DelLanmu。该触发器功能是删除BBS_Topic表中属于刚删除分论坛的所有帖子信息。CREATE trigger DelLanmu on dbo.BBS_LanMuAFTER DELETEasBEGINdeclare lmid intselect lmid=LMID from deleted -获得要被删除的分论坛IDdelete from dbo.BBS_Topic where LMID=lmidEND3.为BBS_Topic表(存储帖子信息)建立触发器DelTo

20、pic。该触发器功能是删除BBS_Reply表中属于刚删除帖子的所有回复信息。CREATE trigger DelTopic on dbo.BBS_Topicafter deleteasBEGINdeclare tid intselect tid=TID from deleted -获得要被删除的帖子IDdelete from dbo.BBS_Reply where TID=tidEND执行过程触发器执行过程如图Pic-2。当数据操作层对数据表BBS_Type发出DELETE一条记录的时候,触发器DelType被触发,此触发器将删除BBS_LanMu表中属于刚删除的大版块的所有分论坛信息。当D

21、elType触发器对数据表BBS_LanMu删除一条记录时,又触发BBS_LanMu表上的触发器DelLanmu,此触发器将删除BBS_Topic表中属于刚删除分论坛的所有帖子信息。当DelLanmu触发器对数据表BBS_Topic删除一条记录时,又触发触发器DelTopic,此触发器将删除BBS_Reply表中属于刚删除帖子的所有回复信息。至此数据库中与BBS_Type中删除记录相关联的所有记录全部删除,保证了数据库各表数据的完整性与一致性。这个过程是在数据库中自动进行的,因此速度非常快,用户只需要对BBS_Type表发出删除一条记录的命令,其他表中相关的记录会自动删除。4、在设计数据库系统

22、时,应该采取那些措施来防止介质故障?如果出现介质故障,如何恢复数据库? 对于Oracle DBA们来说,Oracle数据库恢复提供的选项种类数目实在是太多了,数据库恢复方法可以说都取决于故障类型,但对于某一个特定的故障也可能有许多不同的恢复方法。总的来说,数据库恢复可以分为实例恢复与介质恢复两大类。数据库出现实例故障,例如,意外掉电、后台进程故障,或预料发出使用ABORT命令终止数据库实例时,在启动数据库时就会发现实例故障,此时就需要实例恢复,实例恢复是数据库自动进行的,可以将数据库恢复到故障之前的事务一致性状态。如果在联机备份时发现实例故障,则需介质恢复。如恢复数据文件时没执行检验点就脱机,

23、这时所丢失的改动就需要进行介质恢复。介质恢复可以使用归档日志文件,也可以使用联机日志文件。介质恢复主要用于由于介质故障引起数据库文件的破坏时使用。介质故障是当一个文件、一个文件的一部分或磁盘不能读写时出现的故障。Oracle启动时会检测数据文件头中的检验点计数器和控制文件中对应的检验点计数器,当两者的值不相等时就说明需要做介质恢复。如果数据库可以运行,在线日志仅可重用但不能归档,此时介质恢复可以使用最新的完全备份的简单恢复。如果数据库可以运行,其日志已经被归档,则只能恢复数据库到介质故障前的一个指定事务一致性状态。所以,介质故障的恢复是将整个数据库恢复到故障之前的一个事务一致状态。如果数据库是

24、在归档方式下运行,则可以实施完全介质恢复和不完全介质恢复。1 Oracle数据库恢复之完全介质恢复完全介质恢复可恢复全部丢失的数据,使数据库恢复到最新状态。在所有需要的重做日志文件、备份数据文件(对于所有丢失或损坏的数据文件的备份)和一个当前有效控制文件都可以正常使用的情况下应当使用完全介质恢复以使数据的损失减到最小。在实施完全数据库恢复时,可以根据数据库文件的破坏情况,使用不同的恢复方法。例如,当数据文件被物理破坏,这时数据库不能正常启动,但是可以安装,此时可进行全部的或单个被破坏的数据文件的完全介质恢复。如果数据文件被物理破坏但这时数据库还处于打开状态,可以进行离线的表空间的恢复。因为数据

25、库是打开的,这时未破坏的数据文件的表空间是在线的,可以正常使用,而被破坏的数据文件的表空间是离线的,不可正常使用,可以只对被破坏的数据文件实施完全介质恢复。但是注意,系统表空间是不能让其离线的,所以当系统表空间损坏的时候,只能使用不完全介质恢复。2 Oracle数据库恢复之不完全介质恢复不完全介质恢复是在完全介质恢复不可能进行或有特殊要求时进行的介质恢复。例如,系统表空间数据文件损坏、在线日志损坏或认为误删除不应该删除的基表和表空间等,这时可以实施不完全介质恢复,使数据库恢复到故障前或用户出错之前的一个事务一致性状态。不完全介质恢复包括基于撤消的不完全恢复、基于时间点的不完全恢复以及基于数据库

26、改变号的不完全恢复。基于撤消的不完全恢复(recover database until cancel)是在进行不完全恢复时由数据库管理员进行控制,在某一个恢复点可撤消指定的操作。例如,在一个或多个在线日志文件由于介质故障被破坏,不能实施完全数据库恢复,这时可以进行基于撤消的恢复,在恢复到最近的、未被破坏的日志文件后终止恢复过程,数据库从这一点重新开始运行。在这种方式下,Oracle允许每次前滚一个日志文件。基于时间点以及基于数据库改变号的不完全恢复主要用于将数据库恢复到过去的某个指定点。基于时间点的恢复(recover database until time)可以把恢复进行到重做日志文件内的某

27、个特定时间点,例如,当用户上午9点钟意外的删除一个表,现在想恢复它,那么可以从备份中恢复相应的数据文件,并进行基于时间点的不完全恢复,恢复到上午9点以前的某个时刻。再如,由于系统故障,在线日志文件部分被破坏,所有活动的日志文件突然不可使用,实例被终止,此时需要进行介质恢复。在恢复中可使用当前在线日志文件的未损坏部分,利用基于时间点的恢复,一旦将有效的在线日志应用于数据文件后就可以立即停止恢复过程。 基于数据库改变号(recover database until change)的不完全恢复可以使数据库恢复到事务一致的状态。用这个选项指定的SCN被Oracle标注为参考值,凡是SCN号小于这个参考

28、值的重做记录都将被运用,而SCN大于参考值的重做记录将被禁止使用。这样,正好在此SCN处提交的事务将被回滚。当不完全介质恢复完成时,数据库必须用alter database open resetlogs打开,这个命令将会使数据库做一个标记,使得已经被跳过的那些重做记录不会被意外的又重新运用。3 Oracle数据库恢复之设计Oracle数据库备份恢复策略时应遵循的原则数据库备份恢复是为了保证数据库中数据的正确性和完整性,不同的应用环境要应用不同的解决方案,有不同的侧重点,要考虑的问题也相当的多,对于一个有经验的DBA来说,可能解决方法有很多种。但一般来说,一个完整的备份恢复系统需要遵循以下原则:

29、(1). 正确性备份就是为了恢复。如果备份的东西是错误的那还有什么意义?正确性永远是第一位的。(2). 稳定性备份恢复策略的实施必须要有充分的前期测试工作,测试结果取得比较稳定的成功之后才能实施到生产数据库上。(3). 全面性在复杂的计算机网络环境中,必须考虑到备份与恢复操作的简捷性,同时又要保证在需要恢复时能及时获取备份数据,保证备份内容、存储地点不会因为网络故障和环境故障而失效。因此,对网络环境的复杂性、硬件环境的差异性要有充分的考虑。(4). 自动化备份方案应能提供定时的自动备份,在自动备份过程中,还要具有日志记录和错误处理功能。(5). 高性能在设计时,应尽量考虑到提高数据备份恢复的速

30、度,同时考虑如何压缩备份文件以节省存储空间。(6). 操作简单因为备份恢复是一个相当繁琐的工作,几乎每天都要做,只有事先做好充分的准备工作,才能减少日常实施过程中的工作量。(7). 实时性一些关键数据库业务需要24小时不停机,因此,备份时很多文件仍将处于运行状态中,所以很多情况下要采用联机备份,联机备份时服务器应尽量少进行批量事务处理,以免产生许多重做操作。以上就是对Oracle数据库恢复几种方法的详细介绍,希望能给大家带来帮助。5、为什么要建立数据仓库?数据仓库有那些不同于事务数据库的特征? 1. 数据仓库的概念数据仓库领域的权威WHInmon给出了数据仓库的一个简短而全面的定义:数据仓库是

31、一个面向主题、集成、时变、非易失的数据集合,是支持管理部门的决策过程。根据该定义,数据仓库具备以下四个关键特征:1.1 面向主题(Subject Oriented)的数据集合数据仓库通常围绕一些主题,如“产品”、“销售商”、“消费者”等来进行 组织。数据仓库关注的是决策者的数据建模与分析,而不针对日常操作和事务的处理。因此,数据仓库提供了特定主题的简明视图,排除了对于决策无用的数据。1.2 集成(Integrated)的数据集合 数据仓库通常是结合多个异种数据源构成的,异种数据源可能包括关系数据库、面向对象数据库、文本数据库、Web数据库、一般文件等。1.3 时变(Time Variant)的

32、数据集合数据存储从历史的角度提供信息,数据仓库中包含时间元素,它所提供的信息总是与时间相关联的。数掘仓库中存储的是一个时间段的数据,而不仅仅是某一个时刻的数据。1.4 非易失(Nonvolatile)的数据集合数据仓库总是与操作环境下的实时应用数据物理地分离存放,因此不需要事务处理、恢复和并发控制机制。数据仓库里的数据通常只需要两种操作:初始化载入和数据访问,因此其数据相对稳定,极少或根本不更新。综上所述,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业战略决策所需信息。数据仓库也常常被视为一种体系结构,通过将异种数据源中的数据集成在一起而构成,支持结构化和专门

33、的查询、分析报告和决策制定。2 数据仓库的类型数据仓库的类型根据数据仓库所管理的数据类型和它们所解决的企业问题范围,一般可将数据仓库分为下列种类型:企业数据仓库(EDW)、操作型数据库(ODS)和数据市集(DataMart)。企业数据仓库为通用数据仓库,它既含有大量详细的数据,也含有大量累赘的或聚集的数据,这些数据具有不易改变性和面向历史性。此种数据仓库被用来进行涵盖多种企业领域上的战略或战术上的决策。操作型数据库既可以被用来针对工作数据做决策支持,又可用做将数据加载到数据仓库时的过渡区域。与EDW相比较,ODS有下列特点:ODS是面向主题和面向综合的;ODS是易变的;ODS仅仅含有目前的、详

34、细的数据,不含有累计的、历史性的数据。数据市集是数据仓库的一种具体化,它可以包含轻度累计、历史的部门数据,适合特定企业中某个部门的需要。几组数据市集可以组成一个EDW(在以后部分将会重点提到)。随着数据仓库发展的需求,软件工具升级相当快,新产品也层出不穷。为了便于追踪其技术发展和更好地选择相关的工具,数据仓库的构造者应该广泛地收集这方面的文件和数据,以便做出最佳的选择。3 数据仓库与传统数据库的比较传统的关系型数据库RDB遵循一致的关系型模型,其中的数据(记录)以表格的方式存储,并且能用统一的结构化查询语言(Structual Query Language,SQL)进行数据查询,因此它的应用常

35、被称为联机交易处理(OLTP),其重点在于完成业务处理,及时给予客户响应。关系型数据库能够处理大型数据库,但不能将其简单地堆砌就直接作为数据仓库来使用。数据仓库主要工作的对象为多维数据,因此又称为多维数据库。多维数据库的数据以数组方式存储,既没有统一的规律可循,也没有统一的多维模型可循,它只能按其所属类别进行归类。以应用而言,多维数据库应该具备极强的查询能力,多维数据库中存储的信息既多又广,但由于其完成的是一种联机事物分析(OLAP),因此并不追求瞬时的响应时间,在有限的时间中给予响应即被认可。实际上,OLAP包含交互式的数据查询,伴随着多种分析方法,例如下钻或成功地钻入到最底层的细节信息上。

36、因此数据仓库中的信息,尽管是多维的,仍然可以用具体的表格表示。尽管数据仓库与传统数据库之间存在着如此大的差异,但设计数据仓库并不是完全另起炉灶,而可利用现有的传统处理数据,从中进行信息的综合,从而构造出满足不同需求的数据仓库。即数据从动态的、目前事件驱动的传统工作数据流向静态的、历史性质的数据仓库。从理论上说,从工作数据中战略性地引入到期的数据可以完成这种转变,但是由于受到实际存储容量和技术的限制,这实际上是不可能的。因此必须从工作数据中分离和筛选数据进入到数据仓库中。鉴于以上各种因素,为保证OLAP的性能,必须将数据仓库和传统工作的数据相分离。6、数据挖掘的分类方法主要有那些?利用数据挖掘进

37、行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等, 它们分别从不同的角度对数据进行挖掘。 分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。 回归分析。回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一

38、个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。 聚类。聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。 关联规则。关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏

39、在数据间的关联或相互关系。在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据。 特征。特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。如营销人员通过对客户流失因素的特征提取,可以得到导致客户流失的一系列原因和主要特征,利用这些特征可以有效地预防客户的流失。 变化和偏差分析。偏差包括很大一类潜在有趣的知识,如分类中的反常实例,模式的例外,观察结果对期望的偏差

40、等,其目的是寻找观察结果与参照量之间有意义的差别。在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。 Web页挖掘。随着Internet的迅速发展及Web 的全球普及, 使得Web上的信息量无比丰富,通过对Web的挖掘,可以利用Web 的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息,并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆,对这些信息进行分析和处理,以便识别

41、、分析、评价和管理危机。 7、Web挖掘的主要研究内容有哪些? Web挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。Web挖掘流程 与传统数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web挖掘的处理流程如下3:1查找资源:任务是从目标Web文档中得到数据,值得注意的是有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组,或者网站的日志数

42、据甚至是通过Web形成的交易数据库中的数据。2信息选择和预处理:任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。3模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。4模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。 搜索引擎技术Web挖掘作为一个完整的技术体系,在进行挖掘之前的信息获得IR(Information Retrieval)和信息抽取IE(Information Extraction)相当重

43、要。信息获得(IR)的目的在于找到相关Web文档,它只是把文档中的数据看成未经排序的词组的集合,而信息抽取(IE)的 目的在于从文档中找到需要的数据项目,它对文档的结构合表达的含义感兴趣,它得一个重要任务就是对数据进行组织整理并适当建立索引。信 息获得(IR)和信息抽取(IE)技术的研究已近有很长时间,随着Web技术的发展,基于Web技术的IR、IE得到了更多的重视。由于Web 数据量非常大,而且可能动态变化,用原来手工方式进行信息收集早已经力不从心,目前的研究方向是用自动化、半自动化的方法在Web上进行IR和IE。在 Web环境下既要处理非结构化文档,又要处理半结构化的数据,最近几年在这两方

44、面都有相应的研究成果和具体应用,特别是在大型搜索引擎中得到了很好的应 用。Web挖掘分类及各自的研究现状及发展 根据对Web数据的感兴趣程度不同,Web挖掘一般可以分为三类:Web内容挖掘(Web Content mining)、 Web结构挖掘( Web structure mining)、 Web 用法挖掘(Web usage Mining)1、Web内容挖掘:指 从Web内容/数据/文档中发现有用信息,Web上的信息五花八门,传统的Internet由各种类型的服务和数据源组成,包括WWW、FTP、 Telnet等,现在有更多的数据和端口可以使用,比如政府信息服务、数字图书馆、电子商务数据

45、,以及其他各种通过Web可以访问的数据库。Web内容挖 掘的对象包括文本、图象、音频、视频、多媒体和其他各种类型的数据。其中针对无结构化文本进行的Web挖掘被归类到基于文本的知识发现(KDT)领域,也 称文本数据挖掘或文本挖掘,是Web挖掘中比较重要的技术领域,也引起了许多研究者的关注。最近在Web多媒体数据挖掘方面的研究成为另一个热点。Web 内容挖掘一般从两个不同的观点来进行研究。从资源查找(IR)的观点来看,Web内容挖掘的任务是从用户的角度出发,怎样提高信息质量和帮助用户过滤信 息。而从DB的角度讲Web内容挖掘的任务主要是试图对Web上的数据进行集成、建模,以支持对Web数据的复杂查

46、询。11从资源查找(Information Retrival)的观点挖掘非结构化文档:非 结构化文档主要指Web上的自由文本,包括小说、新闻等。在这方面的研究相对比较多一些,大部分研究都是建立在词汇袋(bag of words)或称向量表示法(vector representation)的基础上,这种方法将单个的词汇看成文档集合中的属性,只从统计的角度将词汇孤立地看待而忽略该词汇出现的位置和上下文环 境。属性可以是布尔型,根据词汇是否在文档中出现而定,也可以有频度,即该词汇在文档中的出现频率。这种方法可以扩展为选择终结符、标点符号、不常用词汇 的属性作为考察集合。词汇袋方法的一个弊端是自由文本

47、中的数据丰富,词汇量非常大,处理起来很困难,为解决这个问题人们做了相应的研究,采取了不同技术, 如信息增益,交叉熵、差异比等,其目的都是为了减少属性。另外,一个比较有意义的方法是潜在语义索引(Latent Semantic Indexing),它通过分析不同文档中相同主题的共享词汇,找到他们共同的根,用这个公共的根代替所有词汇,以此来减少维空间。例如: “informing”、“information”、“informer”、“informed”可以用他们的根“inform”来表示,这样可以减少 属性集合的规模。其他的属性表示法还有词汇在文档中的出现位置、层次关系、使用短语、使用术语、命名实体等,目前还没有研究表明一种表示法明显优于另一种。用资源查找(Information Retrival)的观点挖掘半结构化文档:与非结构化数据相比,Web上的半结构化文档挖掘指在加入了HTML、超连接等附加结构的信息上进行挖掘,其应用包括超连接文本的分类、聚类、发现文档之间的关系、提出半结构化文档中的模式和规则等。12从数据库(Database)的观点挖掘非结构化文档:数据库技术应用于Web挖掘主要是为了解决Web信息的管

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁