《审计数据采集与分析技术概要-wxf(168页PPT).pptx》由会员分享,可在线阅读,更多相关《审计数据采集与分析技术概要-wxf(168页PPT).pptx(168页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、审计数据采集与分析技术审计数据采集与分析技术计算机审计的含义计算机审计的含义一般认为,计算机审计有一般认为,计算机审计有3层含义:层含义:面向数据的审计面向数据的审计面向现行信息系统的审计面向现行信息系统的审计对信息系统生命周期的审计对信息系统生命周期的审计面向数据的计算机审计流程面向数据的计算机审计流程审前调查:审前调查:电子数据的组织、处理和存储电子数据的组织、处理和存储数据采集:数据采集:审计接口、数据库访问技术、数据采集技术审计接口、数据库访问技术、数据采集技术数据清理、转换、验证、建立中间表数据清理、转换、验证、建立中间表数据分析:数据分析:数据分析技术、数据分析技术、SQL、审计软
2、件、审计软件审计取证审计取证一、审前调查及电子数据的一、审前调查及电子数据的组织、处理和存储组织、处理和存储审前调查的内容和方法审前调查的内容和方法对组织结构调查对组织结构调查管理体制管理体制在管理集中度高的单位,系统相应是集中式的;数据由下级部门录入并上传,下级部门可能了解数据结构,也可能根本不知道数据结构;在上传前可能进行具体的数据处理,也可能不进行任何处理,只上传原始数据;通过对管理体制的调查,可以为以后确定索取哪些技术资料、数据,以及索取的方式方法等提供依据;部门设置情况部门设置情况部门的具体职能部门的具体职能部门内计算机信息系统的情况部门内计算机信息系统的情况并非所有的业务都一定运用
3、计算机信息系统并非所有的业务都一定运用计算机信息系统 选择重点部门进行部门内计算机信息系统情况的调查选择重点部门进行部门内计算机信息系统情况的调查审前调查的内容和方法审前调查的内容和方法对计算机信息系统的调查对计算机信息系统的调查 对计算机信息系统概况的调查对计算机信息系统概况的调查 硬件设备硬件设备系统软件系统软件系统技术文档资料系统技术文档资料系统的主要功能系统的主要功能系统的业务处理流程系统的业务处理流程对数据库及数据的调查对数据库及数据的调查 数据库相关技术情况数据库相关技术情况系统设计说明书数据库详细设计说明书,基本包含以下内容:总数据流图和具体业务数据流图、软件结构图设计数据库表间
4、关系图表结构描述数据库SQL文件(含表、视图、触发器、存储过程等)用户使用手册系统对业务处理的流程系统对业务处理的流程审前调查的内容和方法审前调查的内容和方法提出数据需求提出数据需求确定所需数据内容确定所需数据内容 确定数据获取的具体方式确定数据获取的具体方式 提出书面数据需求提出书面数据需求 电子数据的组织、处理和存储电子数据的组织、处理和存储电子数据处理的特点电子数据处理的特点存储介质改变存储介质改变(纸张(纸张磁性、光电介质)磁性、光电介质)基于一定的数据处理平台,有一定的数据模型基于一定的数据处理平台,有一定的数据模型(层次、网状和关系模型,利用(层次、网状和关系模型,利用DBMS存储
5、和管理数据,会计存储和管理数据,会计信息组织与手工系统不同)信息组织与手工系统不同)数据表示编码化数据表示编码化(各种编码)(各种编码)带来系统控制和数据安全性的新问题带来系统控制和数据安全性的新问题(传统的控制点正在发生变化,信息系统的控制与安全性(传统的控制点正在发生变化,信息系统的控制与安全性问题日渐突出)问题日渐突出)审计线索改变审计线索改变(修改数据文件可以不留下痕迹,可以利用诸如系统日志和数(修改数据文件可以不留下痕迹,可以利用诸如系统日志和数据库日志等系统控制手段发现一些线索)据库日志等系统控制手段发现一些线索)如何表示数据如何表示数据数据模型数据模型数据模型是对现实世界数据特征
6、的抽象数据模型是对现实世界数据特征的抽象它提供模型化数据和信息的工具它提供模型化数据和信息的工具数据模型的数据模型的2个层次个层次在信息世界中,使用概念模型在信息世界中,使用概念模型(用于信息世界建模,语义表达能力(用于信息世界建模,语义表达能力强)强)E-R模型是一种常用的概念模型,它用来描述实体以及实体之模型是一种常用的概念模型,它用来描述实体以及实体之间的联系间的联系E-R模型的要素模型的要素实体:客观存在并可以相互区分的事物,用方框表示实体:客观存在并可以相互区分的事物,用方框表示属性:实体的特征或性质,用椭圆表示属性:实体的特征或性质,用椭圆表示联系:实体之间的联系,用菱形表示联系:
7、实体之间的联系,用菱形表示在计算机世界中,使用具体在计算机世界中,使用具体DBMS支持的数据模型支持的数据模型(用于机器世界,(用于机器世界,有严格的形式化定义)有严格的形式化定义)关系模型关系模型层次模型层次模型网状模型网状模型数据模型的数据模型的3个要素个要素数据结构数据结构描述模型的静态特征描述模型的静态特征是刻画数据模型最重要的方面是刻画数据模型最重要的方面数据操作数据操作描述模型的动态特性描述模型的动态特性数据检索数据检索数据更新(增加、删除、修改)数据更新(增加、删除、修改)约束条件约束条件一组完整性规则的集合一组完整性规则的集合实体完整性实体完整性引用(参照)完整性引用(参照)完
8、整性用户定义的完整性用户定义的完整性关系模型关系模型关系模型是目前最常用的一种数据模型关系模型是目前最常用的一种数据模型关系数据库采用关系模型作为数据的组织方式关系数据库采用关系模型作为数据的组织方式关系模型建立在严格的关系代数基础之上关系模型建立在严格的关系代数基础之上关系模型概念单一关系模型概念单一实体以及实体之间的联系都用实体以及实体之间的联系都用关系关系来表示。来表示。关系之间的联系则是通过关系之间的联系则是通过相容(来自同一个域)的属性相容(来自同一个域)的属性来表示。来表示。关系必须是规范化的关系关系必须是规范化的关系最基本的要求是每一个分量是一个不可分的数据项,亦即不允许表中还最
9、基本的要求是每一个分量是一个不可分的数据项,亦即不允许表中还有表有表(满足第一范式,(满足第一范式,1NF)关系数据库的标准语言关系数据库的标准语言SQL是一种非过程化语言,使用方便是一种非过程化语言,使用方便关系模型的术语关系模型的术语关系关系一张二维表,每一列都不可再分一张二维表,每一列都不可再分表中的行、列次序并不重要表中的行、列次序并不重要元组元组二维表中的每一行,相当于一条记录二维表中的每一行,相当于一条记录属性属性二维表中的每一列,属性有名称与类型。二维表中的每一列,属性有名称与类型。属性不可再分,不允许重复属性不可再分,不允许重复主键主键由表中的属性或属性组组成,用于唯一确定一条
10、记录由表中的属性或属性组组成,用于唯一确定一条记录域域属性的取值范围属性的取值范围关系模式关系模式记录结构的描述,对应关系表的表头记录结构的描述,对应关系表的表头关系模型的数据运算关系模型的数据运算传统的集合运算传统的集合运算并(并(UNION)交(交(INTERSECTION)差(差(MINUS)笛卡儿积笛卡儿积专门的关系运算专门的关系运算选择(选择(SELECTION)投影(投影(PROJECT)连接(连接(JOIN)连接的含义:相容属性之间的关系连接的含义:相容属性之间的关系连接的类型(内连接、外连接、自然连接)连接的类型(内连接、外连接、自然连接)关系模型的完整性约束条件关系模型的完整
11、性约束条件实体完整性(实体完整性(Entity Integrity)关键字属性的组成部分不能为空值关键字属性的组成部分不能为空值参照完整性(参照完整性(Referential Integrity)参照表中的外关键字要么取空值,要么取被参照表中的参照表中的外关键字要么取空值,要么取被参照表中的某一主关键字的值某一主关键字的值用户定义完整性(用户定义完整性(User-Defined Integrity)具体应用环境的完整性约束,反映了某一具体应用所涉及具体应用环境的完整性约束,反映了某一具体应用所涉及的数据应满足的语义要求的数据应满足的语义要求“数据文件数据文件”的含义的含义“数数据据文文件件”这
12、这个个概概念念具具有有非非常常丰丰富富的的内内涵涵,它它泛泛指指各种用来存储数据的文件。各种用来存储数据的文件。在数据库技术诞生之前,它指的是存放数据的文件本身。在数据库技术诞生之前,它指的是存放数据的文件本身。数据库技术诞生后,数据由数据库技术诞生后,数据由DBMS管理,数据文件是存放物理数据库的载体。管理,数据文件是存放物理数据库的载体。不同的不同的DBMS存储数据的方式是不同的。存储数据的方式是不同的。FoxPro一个逻辑上的表对应一个一个逻辑上的表对应一个“库文件库文件”(.dbf)Access所有的数据库对象放在一个数据库文件中(所有的数据库对象放在一个数据库文件中(.mdb)IBM
13、 DB2一张表的数据可能分别放在不同的数据文件中一张表的数据可能分别放在不同的数据文件中除了除了DBMS产生和维护的数据文件之外,还有很多应用程产生和维护的数据文件之外,还有很多应用程序管理的数据文件,如各种临时文件、数据交换文件等。序管理的数据文件,如各种临时文件、数据交换文件等。数据库的规范化设计方法数据库的规范化设计方法运用运用软件工程的思想与方法软件工程的思想与方法,根据数据库设计的特点提出,根据数据库设计的特点提出了各种设计准则和设计规程;了各种设计准则和设计规程;逻辑数据库设计与物理数据库设计逻辑数据库设计与物理数据库设计是关键与核心;是关键与核心;对设计质量的控制是以对设计质量的
14、控制是以大量的书面文档大量的书面文档和和数据字典数据字典为基为基础的;础的;目前出现了许多目前出现了许多可视化的规范化辅助设计软件可视化的规范化辅助设计软件;还没有支持数据库设计全过程的辅助工具还没有支持数据库设计全过程的辅助工具 。生命周期法的生命周期法的6个阶段个阶段需求分析需求分析概念结构设计概念结构设计逻辑结构设计逻辑结构设计物理数据库设计物理数据库设计数据库实施数据库实施运行维护运行维护 需求分析需求分析需求分析的重点是获得两方面的需求:需求分析的重点是获得两方面的需求:(1 1)信息需求)信息需求定定义义未未来来信信息息系系统统使使用用的的全全部部信信息息,了了解解各各项项数数据据
15、间间的的本本质质联联系系,描描述述数数据据的的内内容容和和结结构构以以及及它它们们之之间的联系等。间的联系等。(2 2)处理需求)处理需求定定义义未未来来信信息息系系统统数数据据处处理理的的功功能能及及功功能能与与数数据据之之间间的联系。同时考虑性能、安全性和完整性约束。的联系。同时考虑性能、安全性和完整性约束。自顶向下的结构化分析方法自顶向下的结构化分析方法自顶向下的结构化分析方法(自顶向下的结构化分析方法(Structured Analysis,SA)是需求分析阶段的一种常用方法。)是需求分析阶段的一种常用方法。它的核心思想是:自顶向下逐层分解,直到每一项它的核心思想是:自顶向下逐层分解,
16、直到每一项功能都可以被容易地实现为止。功能都可以被容易地实现为止。SA方法中要用到方法中要用到数据流程图数据流程图(Data Flow Diagram,DFD)来描述数据的处理过程。数据流图是从)来描述数据的处理过程。数据流图是从“数据数据”和和“处理处理”两方面来表达数据处理过程的一种图形化的两方面来表达数据处理过程的一种图形化的表示方法。表示方法。数据流程图数据流程图(DFD)以储户取款业务为例以储户取款业务为例数据字典数据字典数据字典(数据字典(Data Dictionary,DD)是在系统设计过程中对各类)是在系统设计过程中对各类基本要素进行描述的集合。它是描述系统逻辑模型的重要工具。
17、基本要素进行描述的集合。它是描述系统逻辑模型的重要工具。数据字典的组成部分数据字典的组成部分:数据项数据项数据结构数据结构数据流数据流数据存储数据存储处理过程处理过程其中数据项是数据的最小组成单位,若干个数据项可以组成其中数据项是数据的最小组成单位,若干个数据项可以组成一个数据结构,数据字典通过对数据项和数据结构的定义来一个数据结构,数据字典通过对数据项和数据结构的定义来描述数据流和数据存储的内容。描述数据流和数据存储的内容。“数据项数据项”举例举例销销售售业业务务中中有有很很多多数数据据项项,其其中中“科科目目代代码码”数数据据项项可可以以描述如下:描述如下:数据项编号:数据项编号:Item
18、001数据项名称:数据项名称:KMDM 数据项含义说明:数据项含义说明:唯一标识每个科目唯一标识每个科目别名:别名:科目代码科目代码数据类型:数据类型:字符型字符型数据长度:数据长度:9取值范围:取值范围:100000000至至999999999取值含义:取值含义:前前3位是一级科目,后面每位是一级科目,后面每2位是一个科目级别位是一个科目级别与其他数据项的逻辑关系:与其他数据项的逻辑关系:“数据流数据流”举例举例数据流数据流“工资结算单工资结算单”可以描述如下:可以描述如下:数据流编号:数据流编号:Flow001数据流名称:数据流名称:GZJSD说明:说明:财务部门计算的工资结算单财务部门计
19、算的工资结算单数据流来源:数据流来源:财务部门财务部门数据流去向:数据流去向:职工职工组组成成(数数据据结结构构):职职工工号号姓姓名名性性别别基基本本工工资资出出勤勤工工日日缺缺勤勤工工日日病病假假事事假假工工伤伤假假应应扣扣工工资资副副食食补补贴贴物物价价补补贴贴房租水电储蓄其他实发工资房租水电储蓄其他实发工资平均流量:平均流量:1500/月(单位职工人数)月(单位职工人数)高峰期流量:高峰期流量:低谷期流量:低谷期流量:“处理过程处理过程”举例举例处理过程处理过程“登记日记账登记日记账”可描述如下:可描述如下:处理过程编号:处理过程编号:Proc001处理过程名称:处理过程名称:DJRJ
20、Z输入数据流:输入数据流:记账凭证记账凭证输出数据流:输出数据流:现金及银行存款日记账现金及银行存款日记账处处理理说说明明:根根据据收收款款凭凭证证、付付款款凭凭证证逐逐笔笔顺顺序序登登记记现现金金日日记记账账和和银银行行存款日记账存款日记账处理要求:处理要求:每月处理多次,每次处理时间小于每月处理多次,每次处理时间小于15分钟分钟数据库表结构定义数据库表结构定义字段名称字段名称字段含义字段含义字段类型字段类型字段属性字段属性Prj_Code项目编号项目编号字符型字符型关键字关键字Prj_Name项目名称项目名称字符型字符型非空非空Prj_Attr项目性质项目性质字符型字符型非空非空Audit
21、_Chief审计组长审计组长字符型字符型非空非空Main_Staff主审主审字符型字符型非空非空Strategy审计方案审计方案字符型字符型非空非空Start_Date进点日期进点日期日期时间型日期时间型非空非空Time_Period工作周期工作周期数值型数值型非空非空概念结构设计的策略概念结构设计的策略自自顶顶向向下下:首首先先定定义义全全局局概概念念结结构构的的框框架架,再再做做逐逐次次细化。细化。自自底底向向上上:首首先先定定义义每每一一局局部部应应用用的的概概念念结结构构,然然后后按按一一定的规则把它们集成起来,得到全局概念结构。定的规则把它们集成起来,得到全局概念结构。由由里里向向外
22、外:首首先先定定义义最最重重要要的的那那些些核核心心结结构构,再再逐逐渐渐向外扩充。向外扩充。混混合合策策略略:把把自自顶顶向向下下和和自自底底向向上上结结合合起起来来的的方方法法。它它先先自自顶顶向向下下设设计计一一个个概概念念结结构构的的框框架架。然然后后以以它它为为骨骨架架再再自自底底向向上上设设计计局局部部概概念念结结构构,并并把把它它们们集集成成起起来。来。概念结构设计的概念结构设计的E-R方法方法 E-R方方法法用用E-R图图来来描描述述现现实实世世界界的的概概念念模模型型。将将现现实实世世界抽象为实体以及实体之间联系。界抽象为实体以及实体之间联系。E-R图的元素包括:图的元素包括
23、:方方框框:表表示示实实体体型型(Entity),并并在在框框内内写写上上实实体体的的名名称;称;椭椭圆圆:表表示示实实体体的的属属性性(Attribute),并并用用无无向向边边将将实实体与其属性连接起来;体与其属性连接起来;菱菱形形:表表示示实实体体间间的的联联系系(Relationship),菱菱形形内内写写上上联联系系的的名名称称,用用无无向向边边将将菱菱形形分分别别与与相相关关的的实实体体相相连连,在在无无向向边边的的旁旁边边标标明明联联系系的的类类型型。若若联联系系也也有有属属性性,则把属性椭圆和联系菱形也用无向边连接起来。则把属性椭圆和联系菱形也用无向边连接起来。E-R模型中的三
24、种联系模型中的三种联系一对一的联系(一对一的联系(1:1)一个班级对应一个班主任一个班级对应一个班主任一对多的联系(一对多的联系(1:n)一个班级可以有多名学生,一个学生只能属于一个班级一个班级可以有多名学生,一个学生只能属于一个班级多对多的联系(多对多的联系(m:n)一个学生可以学多门课程,一门课程可以有多名学生一个学生可以学多门课程,一门课程可以有多名学生E-R模型中的三种联系模型中的三种联系E-R图图用用E-R方法进行概念结构设计的简要步骤方法进行概念结构设计的简要步骤设计局部设计局部E-R模型模型将局部将局部E-R模型集成为全局模型集成为全局E-R模型模型属性冲突属性冲突命名冲突命名冲
25、突结构冲突结构冲突对全局对全局E-R模型进行优化模型进行优化逻辑结构设计的步骤逻辑结构设计的步骤形成初始关系数据库模式形成初始关系数据库模式关系模式规范化和优化关系模式规范化和优化外模式设计外模式设计提供了数据的逻辑独立性提供了数据的逻辑独立性 能适应用户对系统的不同需求能适应用户对系统的不同需求 具有一定的安全保密作用具有一定的安全保密作用 索引设计索引设计符合建立索引的条件:符合建立索引的条件:主主关关键键字字及及外外关关键键字字上上一一般般都都应应建建立立索索引引,以以加加快快实实体体间间连连接接速速度度,有助于引用完整性检查以及唯一性检查。有助于引用完整性检查以及唯一性检查。用户用户经
26、常访问的字段经常访问的字段上应建立索引。上应建立索引。以读操作为主的关系表以读操作为主的关系表尽可能多地建立索引。尽可能多地建立索引。对对等等值值连连接接查查询询而而言言,如如果果满满足足条条件件的的元元组组数数量量小小则则可可以以考考虑虑在在有有关关属属性性上建立索引。上建立索引。有有些些查查询询可可从从索索引引中中直直接接得得到到结结果果,不不必必访访问问数数据据块块,此此种种查查询询可可建建索索引引,如如查查询询某某属属性性的的MIN,MAX,AVG,SUM,COUNT等等函函数数值值可可沿沿该该属性索引的顺序集扫描直接求得结果。属性索引的顺序集扫描直接求得结果。聚簇设计聚簇设计聚簇是将
27、有关的数据记录存放在一个物理聚簇是将有关的数据记录存放在一个物理块或同一柱面内以提高查询效率。块或同一柱面内以提高查询效率。聚簇一般至少定义在一个属性之上,不仅聚簇一般至少定义在一个属性之上,不仅适用于单个关系,也适用于多个关系。适用于单个关系,也适用于多个关系。聚簇功能可以大大提高按聚簇属性进行查聚簇功能可以大大提高按聚簇属性进行查询的效率,但对于与聚簇属性无关的访问询的效率,但对于与聚簇属性无关的访问则效果不佳。则效果不佳。在特定的情况下可以考虑建立聚簇。在特定的情况下可以考虑建立聚簇。二、审计接口二、审计接口什么是审计接口什么是审计接口定义:定义:审计接口是从被审计信息系统向审计应用系统
28、传送审计信息的审计接口是从被审计信息系统向审计应用系统传送审计信息的规范规范和和程序程序。接口包含两方面内容:接口包含两方面内容:传送数据的格式和规范传送数据的格式和规范完成传送作业的程序完成传送作业的程序数据传递的方式:数据传递的方式:系统内部多采用参数或共享数据来完成系统内部多采用参数或共享数据来完成系统与系统之间传递信息需要开发专用的数据接口系统与系统之间传递信息需要开发专用的数据接口审计接口的分类审计接口的分类按按照照不不同同的的标标准准,可可以以将将审审计计接接口口划划分分为为不不同同的的类类型。型。按接口的用途划分,可以分为通用接口和专用接口;按接口的用途划分,可以分为通用接口和专
29、用接口;按按接接口口与与源源系系统统和和目目标标系系统统的的耦耦合合程程度度划划分分,可可以以分分为为强强耦耦合合接接口、弱耦合接口和一般耦合接口;口、弱耦合接口和一般耦合接口;按接口中数据传输的频率来划分,可以分为实时接口与周按接口中数据传输的频率来划分,可以分为实时接口与周期性接口。期性接口。其他的分类方法其他的分类方法审计接口的分层模型审计接口的分层模型接口可以分为接口可以分为3层层逻辑层:表示信息含义的语言,对信息的含义逻辑层:表示信息含义的语言,对信息的含义进行定义和描述进行定义和描述;传输层:载运信息语言的方式,选择最合适的传输层:载运信息语言的方式,选择最合适的方式完成源系统到目
30、标系统之间的信息传输方式完成源系统到目标系统之间的信息传输;控制层:控制信息交换过程的规程,保证信息控制层:控制信息交换过程的规程,保证信息传输的适时性、正确性和有效性传输的适时性、正确性和有效性。审计接口的分层模型审计接口的分层模型审计接口的逻辑层审计接口的逻辑层又称为接口标准又称为接口标准GB/T19581-2004信息技术信息技术 会计核算软件数会计核算软件数据接口据接口中国软件行业协会中国软件行业协会98-001标准标准上海市地方标准上海市地方标准国家电子政务标准国家电子政务标准描述接口标准的语法必须没有二义性描述接口标准的语法必须没有二义性传输层的实现形式传输层的实现形式被审计单位信
31、息系统和审计系统之间采用被审计单位信息系统和审计系统之间采用数据库连接件(如数据库连接件(如ODBC)通过计算机网络)通过计算机网络直接相连。直接相连。被审计单位信息系统和审计应用系统采用被审计单位信息系统和审计应用系统采用交换文件传输数据。交换文件传输数据。传输层实例一传输层实例一传输层实例一传输层实例一传输层实例二传输层实例二传输层实例二传输层实例二接口的控制层接口的控制层数据验证数据验证核对总记录数、总金额核对总记录数、总金额检查借贷是否平衡检查借贷是否平衡顺序码断号、重号验证顺序码断号、重号验证检查勾稽关系检查勾稽关系审计接口的开发、管理和使用策略审计接口的开发、管理和使用策略审审计计
32、接接口口开开发发的的根根本本性性要要求求:数数据据经经过过一一系系列列的的传传输输后后,审审计计系系统统得得到到的的数数据据与与信信息息系系统统中中的的原原始始数数据据是是一一致致的的,没有发生变异没有发生变异。审计接口的开发需要被审计单位和审计部门审计接口的开发需要被审计单位和审计部门双方共同参加双方共同参加。编编程程实实现现后后,要要由由双双方方共共同同进进行行确确认认测测试试,确确认认接接口口功功能能的的正正确性,并确性,并对接口开发工作进行评审认定对接口开发工作进行评审认定。审审计计接接口口开开发发工工作作滞滞后后时时,可可以以在在审审计计人人员员监监督督下下,由由被被审审计计单单位位
33、技技术术人人员员当当场场编编程程,从从系系统统中中获获取取所所需需审审计计数数据据,转换成数据文件,交由审计系统读入进行处理。转换成数据文件,交由审计系统读入进行处理。审计接口的开发、管理和使用策略审计接口的开发、管理和使用策略审计接口开发完成后,不能随意更改审计接口开发完成后,不能随意更改审审计计接接口口在在使使用用时时,首首先先由由双双方方人人员员对对要要使用的审计接口进行核查使用的审计接口进行核查要要对对通通过过接接口口采采集集的的数数据据的的完完整整性性进进行行确确认认三、审计数据采集三、审计数据采集异构数据库互访问技术异构数据库互访问技术(1)Microsoft ODBC Open
34、Database Connectivity(2)Borland IDAPIIntegrated Database Application Interface(3)Microsoft UDAUniversal Data AccessODBCODBC是是由由Microsoft公公司司制制订订的的数数据据库库系系统统互互连连标标准准。它它为为客客户户端端应应用用系系统统与与数数据据库库服服务务器器之之间间的的连连接接提提供供了了一一种种开开放放的的、标标准准的的接接口口,使使得得支支持持ODBC的的系系统统间间能能够够实现互连,具有一定的可移植性。实现互连,具有一定的可移植性。ODBC的总体结构的总
35、体结构ODBC驱动程序驱动程序基于文件的驱动程序基于文件的驱动程序既处理既处理ODBC调用也处理调用也处理SQL语句语句依据其访问数据的存取方式还可以分为两种依据其访问数据的存取方式还可以分为两种直接存取数据直接存取数据采用客户机采用客户机/服务器模式服务器模式基于基于DBMS的驱动程序的驱动程序只处理只处理ODBC调用调用把把SQL语句的处理交给数据库引擎语句的处理交给数据库引擎通过单独的引擎访问物理数据通过单独的引擎访问物理数据既可以和数据源存储在同一个机器上,也可以分别存储在网络中既可以和数据源存储在同一个机器上,也可以分别存储在网络中的不同机器上,甚至可以通过网关访问。的不同机器上,甚
36、至可以通过网关访问。ODBC数据源数据源机器数据源机器数据源存储在由用户定义名字的系统上存储在由用户定义名字的系统上可以分为用户数据源和系统数据源可以分为用户数据源和系统数据源文件数据源文件数据源存储于一个文件中存储于一个文件中允许连接信息由一个用户重复使用或者由几个用户共享允许连接信息由一个用户重复使用或者由几个用户共享驱动程序管理器用驱动程序管理器用.dsn文件中的信息连接数据源文件中的信息连接数据源这个文件可以像其他任何文件一样操作这个文件可以像其他任何文件一样操作一个文件数据源没有数据源名,并且它不注册到任何用户或一个文件数据源没有数据源名,并且它不注册到任何用户或机器上机器上ODBC
37、的使用的使用1创建创建ODBC数据源数据源不不同同的的驱驱动动程程序序提提供供的的ODBC数数据据源源配配置置界界面面不同不同2使用使用ODBC获取数据获取数据在审计软件中使用在审计软件中使用在在DBMS中使用中使用在在Excel等软件中使用等软件中使用IDAPIIDAPI是是由由Borland公公司司为为首首发发布布的的一一个个异异构构数数据据库库访访问问接接口口。它它是是一一个个强强大大的的数数据据库库引引擎擎,基基于于驱驱动动程程序序的的体体系系结结构构和和面面向向对对象象的的设设计计方方法法为为各各种种数数据据库库的的访访问问提提供供了一致的接口,扩展和定制起来很容易。了一致的接口,扩
38、展和定制起来很容易。BDE基于驱动程序的体系结构基于驱动程序的体系结构UDAMicrosoft 的的UDA为关系型或非关系型数据为关系型或非关系型数据访问提供了一致的访问接口。这个一致的访问提供了一致的访问接口。这个一致的接口使得应用程序能够通过它来访问各种接口使得应用程序能够通过它来访问各种各样的数据。同时,各样的数据。同时,UDA的多层结构和扩的多层结构和扩展能力使得它具有极强的生命力展能力使得它具有极强的生命力。UDA的层次模型的层次模型 UDA的两层软件接口的两层软件接口OLE DB系系统统级级的的编编程程接接口口,定定义义了了一一组组接接口口,封封装装了了各各种种数数据据系系统统的访
39、问操作;的访问操作;提提供供了了一一组组标标准准的的服服务务组组件件,用用于于提提供供查查询询、缓缓存存、数数据据更更新新、事务处理等操作;事务处理等操作;是是新新的的底底层层接接口口,采采用用一一种种“通通用用的的”数数据据访访问问范范例例,能能够够处理任何类型的数据,不需考虑格式和存储方法。处理任何类型的数据,不需考虑格式和存储方法。ADO应用层的编程接口,以应用层的编程接口,以OLE DB为基础并对其进行了封装;为基础并对其进行了封装;通通过过OLE DB提提供供的的接接口口访访问问数数据据,适适合合于于各各种种客客户户机机/服服务务器器应应用用系统和基于系统和基于Web的应用;的应用;
40、具有更好的灵活性,使用方便,效率更高。具有更好的灵活性,使用方便,效率更高。文本文件与电子表格文件访问文本文件文本文件优点:优点:灵活方便灵活方便数据量大小基本不受限制数据量大小基本不受限制缺点:缺点:占用较大的存储空间占用较大的存储空间较多的传输时间较多的传输时间需要进行类型或字段名称的重定义需要进行类型或字段名称的重定义分类:分类:分隔符形式分隔符形式固定宽度固定宽度文本文件文本文件分隔符形式的文本文件分隔符形式的文本文件以回车换行符号作为记录间的分隔以回车换行符号作为记录间的分隔以分隔符作为字段之间的分隔以分隔符作为字段之间的分隔第一行可以表示字段名第一行可以表示字段名可以有文本识别符号
41、可以有文本识别符号固定宽度的文本文件固定宽度的文本文件以回车换行符号作为记录间的分隔以回车换行符号作为记录间的分隔以起始位置和宽度来标识字段以起始位置和宽度来标识字段第一行一般不表示字段名第一行一般不表示字段名一般没有文本识别符号一般没有文本识别符号分隔符形式的文本文件分隔符形式的文本文件行号行号,代码代码,名称名称,利率利率,开始日期开始日期500,100,90年五年期财政债券利率年五年期财政债券利率,8.31,01/10/1997500,200,开发银行债券利率开发银行债券利率(12.5%),10.41,01/10/1997500,201,开发银行债券利率开发银行债券利率(14%),11.
42、64,01/10/1997500,300,总行金融债券利率总行金融债券利率(11.5%),9.57,01/10/1997500,301,总行金融债券利率总行金融债券利率(11.25%),9.375,01/10/1997500,302,97年政策性金融债券利率年政策性金融债券利率(8.8%),7.32,03/19/1997500,1100,单位活期存款单位活期存款,1.2,07/01/1998500,1101,单位活期存款单位活期存款(协定协定),1.38,12/07/1998500,1200,单位活期存款单位活期存款,6.3,10/23/1997500,1201,同业存款同业存款,5.85,1
43、0/23/1997固定宽度的文本文件固定宽度的文本文件500 10090500 10090年五年期财政债券利率年五年期财政债券利率 8.3101/10/19978.3101/10/1997500 200500 200开发银行债券利率开发银行债券利率(12.5%)10.4101/10/1997(12.5%)10.4101/10/1997500 201500 201开发银行债券利率开发银行债券利率(14%)11.6401/10/1997(14%)11.6401/10/1997500 300500 300总行金融债券利率总行金融债券利率(11.5%)9.5701/10/1997(11.5%)9.57
44、01/10/1997500 301500 301总行金融债券利率总行金融债券利率(11.25%)9.37501/10/1997(11.25%)9.37501/10/199750011005001100单位活期存款单位活期存款 1.207/01/19981.207/01/199850011015001101单位活期存款单位活期存款(协定协定)1.3812/07/1998)1.3812/07/199850012005001200单位活期存款单位活期存款 6.310/23/19976.310/23/199750012015001201同业存款同业存款 5.8510/23/19975.8510/23/
45、1997Excel电子表格电子表格Excel Excel 电子表格与关系数据库的对应关系电子表格与关系数据库的对应关系采集电子表格中的数据采集电子表格中的数据在在访访问问Excel电电子子表表格格中中的的数数据据时时,要要特特别别注注意意这这样样两两个问题:个问题:关关系系数数据据库库的的规规范范化化问问题题。应应该该保保证证每每一一列列只只有有一一个个标标题题,且这个标题是最高层次的标题。且这个标题是最高层次的标题。数据类型的一致性问题。数据类型的一致性问题。Excel工作表中每一个单元格都可工作表中每一个单元格都可以有不同的数据类型,因此每一列中的数据类型可能会不一以有不同的数据类型,因此
46、每一列中的数据类型可能会不一致。而关系数据库要求表中每个字段的类型是固定的。如果致。而关系数据库要求表中每个字段的类型是固定的。如果出现这种情况,需要首先统一出现这种情况,需要首先统一Excel工作表中每一列的数据工作表中每一列的数据类型。否则将不能访问数据。类型。否则将不能访问数据。四、数据清理与转换技术四、数据清理与转换技术数据质量的评价指标数据质量的评价指标准确性:数据值与实际值的一致程度。准确性:数据值与实际值的一致程度。完整性:需要值的属性中无值缺失的程度。完整性:需要值的属性中无值缺失的程度。一致性:数据对一组约束的满足程度。一致性:数据对一组约束的满足程度。唯一性:数据记录(及码
47、值)的唯一性。唯一性:数据记录(及码值)的唯一性。适适时时性性:在在所所要要求求的的或或指指定定的的时时间间提提供供一一个或多个数据项的程度。个或多个数据项的程度。有有效效性性:维维护护的的数数据据足足够够严严格格以以满满足足分分类类准则的接受要求。准则的接受要求。为什么要进行数据清理为什么要进行数据清理值缺失限制了审计人员的数据分析工作值缺失限制了审计人员的数据分析工作;数据表中的空值直接影响了数据分析结果数据表中的空值直接影响了数据分析结果的准确性的准确性;大量的冗余数据降低了数据分析的效率大量的冗余数据降低了数据分析的效率;数据值域定义的不完整性给数据审计工作数据值域定义的不完整性给数据
48、审计工作带来障碍带来障碍。数据清理的主要工作数据清理的主要工作确认输入数据确认输入数据消除错误的空值(消除错误的空值(NULL)保证数据值落入定义域保证数据值落入定义域消除冗余数据消除冗余数据解决数据中的冲突(不一致)解决数据中的冲突(不一致)数据清理的基本技术数据清理的基本技术解解决决不不完完整整数数据据(即即值值缺缺失失)的的方方法法:大大多多数数情情况况下下,缺缺失失的的值值必必须须手手工工填填入入;某某些些缺缺失失值值可可以以从从自自身身数数据据源源或或其其它它数数据源推导出来。据源推导出来。错错误误值值的的检检测测及及解解决决方方法法:用用统统计计分分析析的的方方法法识识别别可可能能
49、的的错错误误值值或或异异常常值值,如如偏偏差差分分析析、识识别别不不遵遵守守分分布布或或回回归归方方程程的的值值;使使用用简简单单规规则则库库(常常识识性性规规则则、业业务务特特定定规规则则等等)检检查查数据值;使用不同属性间的约束;使用外部数据。数据值;使用不同属性间的约束;使用外部数据。不一致性的检测及解决方法:定义完整性约束用于检测不一致性;通不一致性的检测及解决方法:定义完整性约束用于检测不一致性;通过分析数据发现联系。过分析数据发现联系。值缺失的解决方法值缺失的解决方法空值的处理空值的处理 在在SQL Server的查询分析器(的查询分析器(SQL Query Analyzer)中执
50、行)中执行下列下列SQL语句用语句用“0”替换某些字段的空值替换某些字段的空值:UPDATE 清理数据表清理数据表 SET zj=0 WHERE zj IS NULL UPDATE 清理数据表清理数据表 SET kl=0 WHERE kl IS NULLUPDATE 清理数据表清理数据表 SET mj=0 WHERE mj IS NULL 消除冗余数据消除冗余数据 清理凭证数据表中科目代码以清理凭证数据表中科目代码以“s”开头的现金流量辅助信息冗余记录:开头的现金流量辅助信息冗余记录:DELETE FROM 清理数据表清理数据表 WHERE kmdh LIKE s%错误数据的处理办法错误数据的