《大学数字化校园数据交换集成平台设计方案.doc》由会员分享,可在线阅读,更多相关《大学数字化校园数据交换集成平台设计方案.doc(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大学数字化校园数据交换集成平台设计方案数据交换平台依据学校实际需要,建立分层次的功能处理结构。数据交换引擎建设成为一个面向服务的、流程驱动的综合服务平台,通过标准、开放的数据连接、服务接口,实现跨越异构应用系统的数据交换与服务合成,实现对综合服务平台的Web服务的集中管理、健康监控、安全管理、统计分析等服务管理功能。图 信息交换平台示意图数据中心通过ETL方式从业务数据库中抽取数据,将数据抽取到逻辑层的ODS中,并进行更高层次的抽取和清洗工作,为数据仓库提供数据支撑。对于需要提供数据交换服务的系统,数据中心提供了完善的Web Services接口,相关系统可通过标准的接口调用获得所需要的数据。
2、1.1.1.1. 数据交换平台规划交换平台由应用服务层、信息接口及工具层、信息存储层、信息集成层、信息接入层、业务数据源层组成。l 应用服务层提供高级报表、教育评估、综合查询、应用业务历史查询、一体化应用操作与监管服务。该层面向最终使用者,为校内用户提供个性化服务,包括应用系统(学生服务、教务服务、人事服务、科研服务、学籍服务、设备服务、办公服务、外事服务等)、对外数据服务、共享数据的统计查询及报表服务、和没有业务系统对应的共享数据管理等服务。l 信息接口及工具层提供Web services XML交换、SQL操作、Search API、报表/查询配置工具等。其中面向个人查询、管理定制服务是由
3、本层提供的。信息服务层的各种服务不能直接操作数据库,必须通过调用统一的数据访问模块实现对数据库中数据的操作。l 信息存储层提供给予校园信息标准的共享数据存储,包括操作数据库(直接与业务系统数据、文件进行交换的信息,保留业务系统当前数据状态);具有周期性全库扫描存储操作数据库镜像的历史数据库;学校未来跨业务部门一体化流程业务数据库;部门临时报表及统计使用的临时数据库等五个部分。该层的数据是学校一切活动所涉及的、用于共享的公共数据集,来源于学校的各个业务部门,并基于“谁产生,谁维护”的原则,由对应的业务部门管理。从数据来源上分。基于校园信息标准的临时、当前及历史数据存储;提供异构校园应用系统数据源
4、的数据复制、转换、查询、缓存、标准化ETL等数据服务。统一交换平台支持基于语义的SQL、XML、Web Services 、Search API的共享访问接口;自身提供自定义报表工具、灵活查询工具以及在此之上建立的综合业务报表、自定义查询等共享应用服务。保障了学校跨业务部门的数据标准一致性与共享互换的技术需求。1.1.1.2. ETLETL是数据抽取、清洗、转换、装载的过程,同时提供数据质量的管理、数据转换与清洗、调度监控,并且贯穿整个数据中心解决方案的全过程。ETL是构建数据中心的关键环节,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据中心转化的过程,是实施数据中心的重
5、要步骤。ETL规则设计和实施是项目中工作量很大的部分,其工作量通常要占整个项目工作量的50%以上。1. 数据抽取数据抽取是从源系统中获取数据,以便加载到数据仓库中。数据的抽取必须能够充分满足数据中心系统分析及决策支持的需要,同时必须保证不能影响业务系统的性能,所以进行数据抽取时必须充分考虑这些因素,制定相应的策略,包括抽取方式、抽取时机、抽取周期等内容。l 抽取方式:增量抽取、完全抽取等。l 抽取时机:尽可能避开业务系统的高峰时段,比如在夜间业务系统比较闲时。l 抽取周期:综合考虑业务需求和系统代价,制定合理的抽取周期,如按照小时、天、周、季度等。2. 数据清洗数据清洗的目的是选出有缺陷的数据
6、,通过把他们正确化和规范化来满足信息使用者需求的数据质量。由于数据清洗是一件增加成本的过程,提高数据质量的最终目的是希望得到干净和标准的数据来降低数据清洗和转换上的工作。数据清洗可以在以下场合发生:1) 源数据的清洗:目的是提高系统中已有数据结构的数据质量。2) 对数据转换的数据清洗:目的是清洗、转换和提高从现有系统到目标架构中的数据质量。3) 数据中心的数据清洗:目的是确保用于数据分析的数据的质量。以下是数据清洗的流程:1) 定义数据源:记录下所有会包含需要实体的数据源,并且标识出权威的数据源。决定在哪里进行数据清洗和转换。2) 抽取和分析数据源:从数据源中提取数据样本,分析这些数据是否符合
7、定义,发现数据非正常的结构和格式,定义业务规则。3) 标准化数据:转换数据到一个通用的数据模型中,基于定义标准化格式和数据值。4) 正确和完整的数据:基于正确的规则纠正不正确和非标准的数据。定义如何处理遗失的数据,例如是找寻丢失的数据还是使用默认的数据。确定如何处理不确切的错误数据。5) 匹配和合并数据:确定对于同一个实体的多个数据,并把他们合并到同一个同期的记录中。合并同时需要把所有和这个合并有关的记录进行去重。6) 分析数据错误类型:发现数据错误的种类来提高流程和降低重大问题出现的可能性。7) 转换和增强数据:转换数据来把它加载到主题数据库中,这包含转换、格式化清洗数据和外部数据合并等。3
8、. 数据转换数据转换是指对从业务应用系统中抽取的源数据,根据主题数据库系统模型的要求,进行数据的转换、清洗、拆分、汇总等处理,保证来自不同系统、不同格式的数据的一致性和完整性,并按要求装入主题数据库。ETL转换过程的集中体现为:1) 空值处理,可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库。2) 规范化数据格式,可实现字段格式约束定义,对于数据源中,时间、数值、字符等数据,可自定义加载格式。3) 拆分数据,依据业务需求对字段可进行分解。4) 验证数据正确性,可利用查询表及拆分功能进行数据验证。5) 数据替换,对于因业务因素,可实现无效数据、缺失数据的替换
9、。6) 从查询表获取丢失数据,查询表实现子查询,并返回用其他手段获取的缺失字段,保证字段完整性。7) 建立ETL过程的主外键约束,对无依赖性的非法数据,可替换或导出到错误数据文件中,保证了主键唯一记录的加载。8) 可实现数据规则过滤。4. 数据加载数据加载就是将从源应用系统中抽取、转换后的数据加载到主题数据库系统中。要求数据加载工具必须具有高效的加载性能。数据加载策略要考虑加载周期及数据追加策略两方面的内容,主要加载技术:1) 使用主题数据库引擎厂商提供的数据加载工具进行数据加载;2) 通过主题数据库引擎厂商提供的API编程进行数据加载;5. 数据审计每个数据加载周期中,如何保证数据仓库系统中
10、数据同业务系统中数据业务意义上的一致性及数据的准确性极其重要。必须引进数据审计功能。数据正确性的保证在数据的ETL过程中实现,但数据正确性的审计工作则是在数据加载工作完成以后。一方面要从设计到实施的整个过程中确保算法的正确性,另一方面要通过事后的检验来检查ETL的正确性。理想的情况是,审计工作必须在数据抽取、转换、加载等所有的阶段都要进行,比如:如果采用异步数据抽取和加载,则在数据抽取传输完毕后,要从记录数、文件大小等角度检验抽取和传输的正确性。数据加载完毕后,一方面通过加载日志检验加载过程的正确性,另一方面要通过业务规则来校验数据的正确性。6. 统一调度统一调度是ETL中较为重要的功能。它不
11、但可以将源数据加载到主题数据库中,而且还可以更新数据仓库,并且还可以更新OLAP Server和挖掘模型数据。它在整个商务智能方案中扮演着总指挥、总调度的角色。ETL的调度控制方式有两种: 自动方式由每天定时或准实时启动后台程序,自动完成数据仓库ETL处理流程。 手动方式用户可以通过前台监控平台,对单个目标或批量目标进行手工调度。7. 监控主要是监控ETL的整个过程,通过扫描ETL各模块的日志中的关键值,如记录时间等信息与当前的状态作比较,如果超过某一个值,则认为该模块运行可能出现问题,应当报警通知系统管理员等。1.1.1.3. 数据服务接口为了实现数据中心和外界信息环境的沟通,提供可灵活的组
12、织、扩充、维护共享和互操作数据的功能,采用SOA模式建立标准的元数据管理系统,对数据中心的各类数据进行封装,并采用Web Services模式提供数据访问和维护接口。元数据接口提供将外部元数据系统映射到数据中心的内部体系中的方法,并建立同构关系,元数据管理系统的结构包括6个组成部分。(1)基准元数据系统。是指某个数字校园标准的元数据系统。它的作用是:作为基准元数据,组织标识数字校园中的数字化信息资源;以标准形式描述用户的查询提问;为各种网络信息发掘工具提供数字化信息。(2)元数据字典。是一种用于各种元数据体系到系统基准元数据系统相互转换的对照表,它描述了各种元数据的基本特征,构建了各种元数据与
13、基准元数据系统的对应关系。其基本作用是为系统的转换模块提供转换依据。(3)数据属性集。是指数字校园存储数据的属性总和。元数据管理系统可通过数据属性集将数字校园的数据结构和基准元数据相对照,保障它们之间的可互换性。(4)数字化信息资源集。它描述的对象是信息源。数字校园可以通过信息源特征集来确定个信息源所采用的元数据体系,将用基准元数据表达的查询式转换成各个信息源所采用的元数据表达式,从而决定各个信息源的检索方法并解释检索结构。(5)转换模块。提供了实现各种元数据之间相互转换、翻译的方法。(6)维护模块。可以对各种对照表进行添加、删除、修改等动态管理,保证元数据系统的可扩展性和可维护性。(7)一卡
14、通系统对应的共享数据服务平台:数据由一卡通应用产生,同时为全校用户提供一卡通系统的查询及相关服务,平台提供与一卡通系统的接口。1.1.1.4. 数据导入导出数据中心的导入导出工具解决非结构化与数据中心的交互,用户可以根据授权把异构的数据(Excel、DBF格式)导入到数据中心,用户也可以根据授权把数据中心中的数据导出成非结构化或桌面数据库格式,再对导出的数据分析整理成业务需要的数据、报表等。图 导入导出逻辑图图 导入导出工具使用界面1.1.1.5. 数据源适配器提供异构数据源的适配器:支持结构化、半结构化、非结构化数据源;支持Informix、Sybase、Oracle、MS SQL Serv
15、er、ODBC、OLEDB、JDBC、Native数据源;Web Services、XML、消息队列数据源。(我校目前现有的业务子系统基于的数据库管理系统有Oracle、DB2、SQL Server、Mysql、Sybase等,且应用运行的操作系统也各不相同,有AIX、Solaris、Windows、linux等。)数据交换应具有灵活的方式与多种交换触发机制,能同步或异步方式实现数据的交换及推送,并保证各应用系统交换和共享的各种数据的一致性、准确性;实现原理如下图所示:1.1.1.6. 数据同步工具数据交换平台数据同步工具采用DXP 系统,DXP 是一款专业化数据库转换工具,可以在多种数据库之
16、间进行相互数据转换,在数据转换过程的各个环节可用通过数据计算功能,实现高效、复杂的数据计算、转换功能。能充分读取关系数据库中的数据和您机器中的各种格式的数据,DXP 提供图形化的转换过程设计功能,您无需掌握任何数据库方面的技能,只需可以通过简单的配置,就可以实现您所需要的转换功能。如果您是数据库管理员,您可以:将分散在各个地方的文件数据或其它关系数据库的数据,集中转换到您所需要的数据库中。如果您是野外数据采集员,您可以:将您野外计算机中的数据,实时的转换、传输到总部数据库中。如果您是网站管理员,您可以将主机上的数据库数据下载到本地,也可以将本地的数据上传到远程数据库中。如果您是临时数据使用用户
17、,您可以:将数据库中的数据转换成Word、Excel、PDF、Lotus、等各种格式的文件,总之,您如果遇到了在不同系统之间的数据交换或转换的工作时,DXP 可以帮助您轻松的实现您的工作要求。支持实时数据交换和批量定时数据交换;支持全表和增量两种交换方式;数据交换不影响应用系统的正常运行;支持大对象数据的交换和文件交换;支持的数据库介绍支持的数据库类型DXP 支持多种大中型的关系数据库系统、单机文件型数据库、多种格式的电子文件。按照读取和写入类型,DXP 支持以下的数据类型: 读取数据:Oracle、SYBASE、DB2、SQLServer、Informix 、Interbase、Access
18、e、MySQL、dbf、Foxpro、Paradox、Text file (*.txt)。写入数据:Oracle、SYBASE、DB2、SQLServer、Informix 、Interbase、Accesse 、MySQL 、dbf 、Foxpro 、Paradox 、Text file (*.txt) 、HTML file(*.htm)、Excel spreadsheet (*.xls)、SYLK (Symbolic Link) (*.slk)、DIF (Data Interchange Format) (*.dif) 、Lotus 1-2-3 file (*.wk1) 、QuattroP
19、ro file (*.wq1)、XML file (*.xml)、Rich Text format (*.rtf)、SPSS format (*.sav)、 Adobe Acrobat Document (*.pdf)、LDAP/Lightweight Data Interchange Format (*.ldif)。访问各种类型数据库和电子文件的方式在DXP 中,可以通过内置的多种数据对象,来访问各种数据库和电子文档。下表,时对各种类型数据的连接方式、所需要的支持环境信息:访问类型(数据对象),请参考【主要对象介绍】-【数据对象数据对象】一节数据库或电子文件 访问类型(数据对象) 所需支持环
20、境主要对象介绍 Introduction of main objectsDXP 有一些比较重要的对象,在您使用本软件之前,请首先了解这些重要对象的描述。这些对象包括: Job JobGroup 数据链 数据对象Job全称叫:数据转换任务。一个数据转换任务,由若干个数据链组成,每个数据链定义了数据转换的规则,数据转换的功能主要由数据链实现,有关数据链的内容,请参考数据链。每个任务包括两个文件:*.job 和*.lg,job 文件是任务的定义文件,lg 文件是任务的日志文件。1.1.1.7. 基于语义的全局数据视图提供对结构化数据源支持SQL操作、XML转换;对Web Service提供双向支持能力,对非结构化数据源提供Search API。全面支持语义分析功能。