《DATASTAGE的介绍及基本操作.pptx》由会员分享,可在线阅读,更多相关《DATASTAGE的介绍及基本操作.pptx(133页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、内容提要:一、datastage datastage 介绍二、如何安装datastagedatastage三、配置datastage datastage 工程四、设计并运行datastagedatastage的jobjob五、操作元数据六、操作关联数据七、操作约束条件及数据来源八、定义查找使用的哈希文件九、聚合数据十、jobjob的运行及调试十一、创建BasicBasic表达式第1页/共133页一,一,datastagedatastage的介绍的介绍 本章主要讲解ETL的概念,datastage的介绍、组成及主要功能。第2页/共133页ETL概要 ETL包括数据抽取(Extract)、数据转换
2、(Transform)以及数据加载(Load)3个阶段。一般而言,这三个过程中有二次落地(生成中间文件)。第3页/共133页Ascential DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据仓库目标数据库的集成工具。DataStage 能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统。包括Oracle,Sybase,DB2,SQL Server,Teradata,FTP文件系统,文本文件等等。数据清洗、转换、加载都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具
3、来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。DS介绍:第4页/共133页Datastage的组成:Datastage的服务器端和客户端第5页/共133页 Datastage是C/S软件,服务器端存储所有的ds项目和元数据,由关系型数据库(RDBMS)组成。客户端具有同服务端一样的软件接口。客户端运行于windows95或更高版本,服务端可运行于windowsNT4.0或windows2000 版本,datastage的很多版本都支持unix。第6页/共133页DS Administrator 在服务端管理ds的项目和服务端操作。主要用于工程的参数调整,变量设置,
4、及command操作。DS Designer 建立ds的job并且编译执行的程序。主要用于job的开发及编译。DS Director运行和监控ds的job。主要用于job调试。DS Manager允许编辑和查看在ds中存储的内容。主要用于项目管理或job的导入、导出、备份。第7页/共133页DataStage中的Administrator第8页/共133页 默认使用Administator来指定常规的服务端,用来增加或删除DataStage工程,并且可以设置工程的属性。Administator也对于总库提供命令接口。使用Administator的Project Propertities 工程属
5、性的窗口,可以进行 1、在General页框中,设置Job监控的一些限制信息和Director中的其他信息。2、在Permission页框中,设置并分配开发人员组的权限。3、在Tracing 页框中,设置或取消服务端进行跟踪。4、在Schedule 页框中,设置调度时运行Job所用到的用户名和口令。5、在Tunables页框中,指定Hash文件Stage的读写的缓存大小。在DataStage中的Administrator设置常用服务器的默认值:1、改变Licence信息。2、设置服务端连接超时时间。第9页/共133页DataStage中的Manager第10页/共133页使用DataStage
6、中的Manager来存储和管理Job的元数据,使之可以在DataStage中的Designer中再度被使用。元数据包括表单和文件结构和导出数据的Routines的转换等等。Manager是DataStage存储的一个重要的部分,可以用来加入表单和文件的结构,在左侧分支树中显示Routines、Transforms和Jobs。自定义的Routines和Transforms也在DataStage中的Manager里创建。第11页/共133页DataStage中的Designer第12页/共133页DataStage中的Designer允许使用熟练地拖拽图标和连线的方式来表示数据抽取、清洗、转换、整
7、合和加载的过程,并将数据导入数据仓库的表单之中。Designer提供一个数据流程的模式,轻松将设置和Job的设计有机的组成。使用Designer,可以:1、指定数据如何抽取。2、指定数据的转换规则和进行转换。3、使用参考性质的LookUp到数据集市中编辑数据。a)例如,如果销售的记录集包括CustomerID,可以在CustomerMaster表中使用LookUp查找到Customer的名称。b)当需要连接数据集市并使用查询,可以快速的进行访问。4、对数据进行整合。5、在定义的约束条件中将基础数据分割成为多个输出的连接。在Tools菜单中可以轻松的于Director,Designer和Mana
8、ger之间切换。第13页/共133页DataStage中的Director第14页/共133页使用Datastage的Director可以对设计的job进行验证、运行、任务调度和监控的工作。也 可以针对job 的运行查看运行的聚合统计情况。第15页/共133页在Datastage中进行开发在Administrator中定义全局的和项目属性。在Datastage中的Manager里导入定义源的元数据和目标的元数据。在Datastage中的Designer中验证和编译job。在Datastage中的Director中验证、运行、和监控job。第16页/共133页1、定义工程的属性在Administ
9、rator中。2、打开工程。3、导入元数据,在job中定义格式、读入或写入在Manager中。4、设计job在Designer中。a)定义数据的抽取(读取)。b)定义数据流程。c)定义数据的集合。d)定义数据的转换。e)定义数据的约束条件。f)定义数据的加载(写入)。g)定义数据的聚合。5、编译和调试job在Designer中。6、运行和监控job在Director中。第17页/共133页Datastage的工程管理所有的工作都在一个工程中。在安装过后,需要建立一个工程,这是安装必选的项目。在使用它工作之前,要登录这个工程。可以在工程间进行导入和导出Datastage的项目内容。多个用户可以在
10、同一时间使用同一工程,但是不能同时编辑同一个项目。第18页/共133页所有的工作都在Datastage的工程里进行。在做任何事之前,那些具有同样管理权限的人,都要先打开一个工程,即进行登录。在安装过程中,工程就要求创建,这是必须做的事情。可以在安装之后,在Administrator中的Project页框中另增加其它工程。一个工程关联着一个目录,这个工程目录用来存储jobs、Datastage项目和元数据。在做任何操作前都要先打开这个工程,即登录这个工程。工程是自包含的很多的工程可以在同一时间被打开,在各自单独的环境打开。可以在它们之间导入或导出项目。多用户可以在同一时间使用一个工程中工作,但是
11、Datastage禁止在同一时间由多个用户访问同一个job。第19页/共133页Datastage测试问题一:Datastage的Designer是用来建立和编译job、用来进行数据的抽取、转换和加载即ETL。(Yes/No)答案一:Yes,Designer使用拖拽的方式将设计元素(习惯上叫stage)拖拽到设计区域中,经过建立和编译,Job就可以执行,用来进行数据的抽取、转换和加载。问题二:Datastage的Manager用来执行编译通过的Jobs。(Yes/No)答案二:No,Datastage的Manager是用来管理元数据的,如表单结构,内置和自定义Routines等的,使Datas
12、tage用来管理资源存储的。第20页/共133页问题三:Datastage的Director用来执行编译通过的Jobs。(Yes/No)答案三:Yes,使用Director来对编译通过的job进行验证或者运行,也可以在jobs运行过程中对其进行监控。问题四:Datastage的Administrator是用来定义全局变量和设置工程属性的。(Yes/No)答案四:Yes,可以在Administrator中设置工程中使用的全局变量和必要属性,如连接数据库超时,登录者权限等等。第21页/共133页第二章 如何安装Datastage下面的讲解中,将可以了解到:在Windows系统中安装Datastag
13、e服务端。建立一个Datastage的工程。安装Datastage的客户端。第22页/共133页 Datastage 的服务端要首先安装,之后才可以安装Datastage 客户端,服务端能都安装在WinNT、Windows2000或者UNIX系统中,这个模块将介绍在Windows环境下进行安装。系统的具体配置依赖于所要安装的Datastage 版本,在安装盘上找到最接近的系统需求配置。安装Datastage 服务端需要有哪些安装盘和服务端的许可,这个许可包含以下信息:第23页/共133页1,注册号(序列号)。2,工程数量。在Datastage服务端可以建立的最大工程数量。包括新建的工程,也包括
14、对先前建立的工程进行加上升级。3,到期时间。4,授权代码。在许可信息中,这个信息必须被正确输入的。第24页/共133页安装向导会指导通过以下步骤进行:1,输入许可信息。2,指定服务器的路径。3,选择程序的文件夹。4,创建一个新的工程或升级已经存在的工程。第25页/共133页安装Datastage 第26页/共133页首先安装Datastage Server端,鼠标点击 软件会自动安装,安装过程中系统提示使用者选择安装路径和输入产品序列号。在Datastage Server安装的过程中会提示用户建立一个工程。在安装Datastage Server端以后,需要安装Datastage Client端
15、,鼠标点击软件会自动进行安装,安装过程中系统提示使用者选择安装路径和输入产品序列号。第27页/共133页安装有Datastage服务端的机器,必须运行着。需要运行Datastage的客户端。打开Datastage的控制面板,来停止或启动服务端。当再次安装Datastage的时候,会停止服务端。第28页/共133页为了保证Datastage客户端程序的正常运行,必须保证Datastage的服务器保持运行状态。在Windows2000的控制面板中打开Datastage的控制面板,可以启动或停止全部的Datastage服务。点击可以启动全部的服务或者停止全部的服务。在安装或重新安装Datastage
16、的时候,这些服务一定要全部停止。第29页/共133页安装Datastage客户端在安装Datastage服务端之后。可以安装在WinNT,Windows2000以及WinXP上。Datastage产品的许可用于安装Datastage的客户端。Datastage的操作许可只能用于安装Director和Administrator。第30页/共133页 Datastage的客户端必须在Datastage的服务端安装过后才可以进行安装,客户端能够安装在Windows95、Windows98、WindowsNT、Windows2000以及WindowsXP操作系统上。这里有俩个版本的Datastage:
17、1,开发版本的Datastage,包含了解所有的客户端应用程序。2,操作员版本的Datastage只包含了需要用到的运行和监控Job的应用程序,即Director和Administrator。第31页/共133页 安装开发版本的Datastage,需要有Datastage开发版的许可。安装操作员版本的Datastage,需要有Datastage的Director的许可。许可包括以下几个信息:1,序列号2,用户限制3,到期时间4,授权认可代码 这些信息必须是正确的数据。第32页/共133页第三章 配置 Datastage 工程下面的讲解中,将可以了解到。在Datastage的 Administr
18、ator中设置工程属性。在Datastage的Administrator中设置用户的权限。第33页/共133页Datastage工程属性建立或者删除Datastage工程。设置Datastage工程的默认属性。修改Datastage工程属性的方法。登录Datastage的Administrator。选择要修改属性的工程。第34页/共133页 Datastage中所有的开发工作都在一个Datastage的工程中,在安装Datastage服务端时,默认就已经建立了一个工程,可以使用Administrator进行工程的控制。每个工程都有其关联的目录,目录存储了在工程中建立的项目,如Jobs、元数据、
19、自定义的Routines等等。在一个工程中工作之前,必须要先打开它(即进行登录)。在使用Datastage的Administrator时,可以设置默认的工程属性。第35页/共133页设置Datastage工程属性选择要进行修改的工程,点击“Properties”第36页/共133页工程属性的“General”页框第37页/共133页点击Datastage的Administrator的“Properties”按钮,打开工程属性的窗口,这里有5个页框(“Mainframe”页框只有在许可支持大型机的Jobs的时候可用),默认打开的“General”页框。如果选择“Enable job admini
20、strator in Director”的选择项,那么在不打开Administrator的情况下在Datastage的Director中可以运行一些管理级别的函数。第38页/共133页在Director中运行一个Job的时候,事件被写入Jobs的运行的日志,例如:记录了何时开始运行Jobs,何时停止,何时终止。日志记录的事件增长量很大,“Auto-purpe of job log”选择框可以让指定用什么条件来筛选这些事件。可以限制记录时间的每天的数量或者运行Jobs运行的数量。第39页/共133页工程属性的“Permissions”页框第40页/共133页 使用这个页框可以设置访问和使用Dat
21、astage的用户组权限。所有的Datastage用户中,在登录Datastage之前,都必须拥有一个公认的,属于自己的用户角色,使之用来进行登录,这样可以用来防止匿名的方式使用Datastage工程。这里有三种Datastage用户角色:1,Datastage Developer,可以访问Datastage工程 全部的范围。2,Datastage Operator,可以运行、释放、Datastage的Jobs。3,Datastage Production Manager,可以管理Datastage 产品组件。第41页/共133页工程属性的“Tracing”页框第42页/共133页 在这个页面
22、设置是否在Datastage服务端进行跟踪处理。Datastage服务端进行跟踪处理默认是无效的。当使其有效,Datastage客户端运行项目的时候,所有的记录信息都要在Datastage服务端进行监控,并写入监控文件。使用这些底层系统知识可以帮助找到Datastage客户端的问题所在,如果跟踪设置为有效,当调用一个Datastage的客户端的时候,用户会收到一些警告的信息。警告:跟踪会消耗Datastage服务器大量的系统资源,除非用户需要诊断重大的问题,一般不建议设置跟踪有效。第43页/共133页 工程属性的“Schedule”页框 使用“Schedule”页框,来指定在选择的项目中运行计
23、划任务的jobs的用户名和口令,如果没有指定,Jobs会在当前系统的计划任务的用户名下运行。第44页/共133页 工程属性的“Tunables”页框 在“Tunable”页框中,可以指定当用来读取Hash文件记录时的缓存的大小,Hash文件大多数用于查找操作,这部分介绍会在下面的介绍中进行。第45页/共133页第四章 设计并运行Datastage的Job 下面的讲解中,将可以了解到:描述什么是Datastage的Job。一步步讲述如何建立Datastage Job。描述Link和Stage。识别不同类型的Stage。设计一个简单抽取和加载的Job。编译、验证和运行Job。监控Job的执行。第4
24、6页/共133页什么是Job第47页/共133页Job开发的浏览在Manager导入数据源和目标数据库的数据结构定义。在Designer加入Stage定义数据的抽取和加载。加入Transformer和其它的Stage来定义转换。从源数据到目的数据,加入Link来定义数据的流向。编译Job。在Director中,验证、运行和监控Job。在这个讲解中,将通过一个单一Job的过程第一步,着手定义元数据。第48页/共133页 Designer的工作区域第49页/共133页 中间偏右是Datastage的设计区域,可以将Stage和Link从工具的板块上拖动过来放在上面,左边是“Repository”(
25、存储)窗口,显示的是Manager中的分支。Manager中的分支,就像Jobs和表定义一样可以直接拖拽到设计区域,点击“ViewRepository”来显示“Repository”窗口。点击“ViewProperty Browser”来显示“Property Browser”窗口,显示在设计区选择的项目的属性。第50页/共133页Designer的工具栏 工具栏中的一些图标可以快捷的调用一些Datastage的内部函数,更加方便进行Jobs的设计工作。第51页/共133页Designer的Stage工具面板工具面板中包含描述的图标,可以将其加入到Jobs设计当中。第52页/共133页 当安装
26、Datastage的时候,很多的Stage都会自动地进行安装,也可以根据特定的目的安装另外的Stage,这些被叫做插件。例如,那个叫做“Sort”的插件就是用来对数据排序的。插件的介绍将在以后的讲解来介绍。第53页/共133页下面将部分的Stage进行简单的说明(有些Stage在普通应用中并不常用):第54页/共133页第55页/共133页第56页/共133页第57页/共133页第58页/共133页第59页/共133页第60页/共133页第61页/共133页第62页/共133页第63页/共133页被动Stage和主动Stage被动Stage的定义是用来读写数据源的Stage。被动Stage包括
27、:Sequential,Odbc,Hash文件的Stage。主动Stage的定义是用来数据的筛选和转换部分的Stage。主动Stage包括:Transformer、Aggregator和Sort的插件。第64页/共133页 这里有俩种类型的Stage:被动Stage,是用来读写数据源的数据的,包括Sequential、Odbc、Hash文件的Stage,等等。主动Stage:是用来筛选和转换部分的Stage,包括Transformer、Aggregator和Sort的插件,等等。Datastage测试:问题一:Sequential Stage是一个主动地Stage。(Yes/No)答案一:No
28、,由于Sequential Stage可以用于读取数据源和写入数据,但是又不能对数据进行转换,所以不是主动的Stage,而是被动的Stage。第65页/共133页Sequential Stage导出数据或加载数据到一个Sequential文件。为Sequential指定完整的路径。指定文件的格式:定义宽度或者分隔符。指定列的定义。指定写的形式:覆盖、追加。第66页/共133页Sequential文件时用来从一个Sequential文件导出或者加载到一个Sequential文件中。在修改Sequential文件的时候需要指定一下内容:1、文件的路径和名称。2、文件的格式。3、列的定义。4、如果S
29、equential Stage被用作一个目标的话,指定写入动作时选择:覆盖已存在的文件或者在文件基础上进行追加。第67页/共133页编辑目标端的一个Sequential文件Stage第68页/共133页 定义一个Sequential的目标Stage类似于定义一个源的Sequential Stage。在输入的Link中,定义数据导入到Stage的数据格式。从“Input Box”中输入Link的列表进行选择。定义一个文件的Job,定义文件被写入,如果文件不存在,Datastage将会自动建立,在“Update action”中指定数据文件是否覆盖或者追加。“General”页框中的“Filter
30、Command”,可以指定一个过滤程序,可以使用其在抽取数据的过程中进行数据的过滤。举例,在读取数据之前要有一个解压缩的过程。从中选择类型或者浏览从过滤程序中,在输入框中指定命令行,只有在“General”页框中的Stage页面中选择了“Stage uses filter commands”的选择框,这个输入框变为可用,如果指定了过滤命令,数据浏览没有定义,那么“ViewData”按钮不可用。第69页/共133页 在“Format”页框中,指定不同格式的目标文件,同指定源文件相同。如果目标文件不存在,在Jobs运行之后,才可以浏览数据。如果这时点击了“ViewData”按钮,Datastage
31、将会返回一个“Failed to Open.”的错误。在源数据的Stage里定义输出数据的列定义,同时定义目标Stage中的相应的输入Link。可以将Link想象成为一个通道,从一头流到另外一头,所以输入和输出的格式要保持一致。第70页/共133页Transformer Stage很关键的主动Stage。使用Transformer Stage 可以定义条件、来源和字段的对应关系。输入的列和输出的列进行对应。在这个讲解中,我们将定义列的对应。第71页/共133页 Transformer Stage是一个重要的主动Stage,其它主动地Stage执行很多指定类型的转换。在Transformer S
32、tage中可以指定:1、列的对应。2、数据的来源。3、过滤条件。字段对应是指输入字段和输出字段进行对应,从输入列到输出列数值直接通过。数据来源的值经过计算写入到输出的列,以输入列为基础。在引入的行将被写入到输出的列,约束指定的条件将有效。第72页/共133页Transformer Stage元素第73页/共133页 Transformer 有以下元素:在上方,左边的区域显示输入Link的列信息,如果有很多的输入Link,就会有许多的列显示。在上方,右边的区域显示的输出Link的内容,我们不能在这里定义字段,如果有很多的输出Link,就会有很多的列显示。现在,忽略右上方的“Stage Varia
33、bles”窗口,我们将在以后的讲解进行讲述。下方显示元数据的列定义,输入和输出的Link。如果有很多的输入和输出的Link,那么将出现很多的页框。第74页/共133页Annotation Stage使用它来在Job上增加文本注释。输入框有不同格式的设置。当Job打印的时候显示。描述注释的Stage将在下一节介绍。增加一个或多个增加一个或多个“Annotation”Annotation”的的StageStage就像一个文本就像一个文本数据框一样进行设置,可以通过在工具栏上的设置要求其是数据框一样进行设置,可以通过在工具栏上的设置要求其是否进行显示。否进行显示。这里有俩个这里有俩个“Annotat
34、ion”Annotation”的的StageStage,“”“”Description Annotation Stage”Description Annotation Stage”将在下面一个讲解中进将在下面一个讲解中进行讲述。行讲述。第75页/共133页编辑Annotation Stage输入框内输入的是文本类型,指定的设置有:1、文本的字体和颜色。2、输入框的颜色。3、文字的横纵位置。第76页/共133页编译Job在运行Jobs之前,必须要对其进行编译,在服务端的机器上产生可以运行的编码,对于编译Jobs,点击“FileCompile”或者在工具栏上点击“Compile”按钮,编译Jobs
35、的窗口显示Jobs编译的情况。编译如果发生错误:点击“Show error”来定位错误的位置。点击“More”来返回关于错误更多的信息。第77页/共133页运行Job从Datastage的Designer切换到Director。在Director的列表中,选择要运行的Job点击运行。选择运行的属性。验证这个Job。运行Job,并在日志浏览中监控Job运行的过程。第78页/共133页 就像知道的那样,在Datastage的Director中运行Job,可以从Designer中的“Tools”菜单中启动,Datastage的Director。可以通过这个方法在Director、Manager和De
36、signer之间进行切换。这里有俩种方法运行一个Job:1、直接运行。(可以在Designer运行,也可以切换 到Director中运行)2、在以后的时间或日期里调用计划任务执行。对于直接运行的Job:1、在列表中选择需要运行的Job,这个Job必须是经过 编译的。2、点击Job菜单中的运行,或者点击工具栏中的运 行。这是Job运行时的设置窗口会显示出来。第79页/共133页Datastage Director在Director中显示Jobs状况的列表,运行一个Job,选择一个而后点击Job菜单中的运行。其它查看内容:1、Job的日志从Job运行产生的数量。2、计划任务预览在计划的时间或日期运
37、行Job。第80页/共133页运行参数设置第81页/共133页Director 的日志浏览 在工具栏上点击Log按钮来查看Job的日志,Jobs日志集合了Jobs执行期间的所有事件信息。这些事件,包括:控制事件,如:开始、结束和中止、报告信息、警告信息、错误信息、和程序发生信息。第82页/共133页 当点击Job菜单中运行的时候,Job运行设置的窗口会显示出来。这个窗口允许用户在以下情况下停止Job的运行。1、指定行数。2、指定警告消息的数量。在运行Job之前可以将其验证,验证是保证Job运行成功地关键。包括:1、验证 Link的数据源是否准备好。2、验证文件是否被打开。3、验证SQL是否可以
38、查询数据。经过验证后点击Run运行Job,在Job运行时列的状况会显示出来。第83页/共133页第五章 操作元数据下面的讲解中,将可以了解到:介绍DataStage的Manager的构成和功能。导入和导出Datastage的项目。从Sequential文件中导入元数据。加载元数据到Sequential Stage中。第84页/共133页什么是元数据 Datastage和Manager是一个图形化管理Datastage项目存储的工具,包括元数据和Datastage的其它构成,如Jobs和Routines等等。元数据是数据源和目标数据的描述的标准化。它包括诸如记录列和分割的通用信息,分割标志,还包
39、括指定列的定义,等等。第85页/共133页第86页/共133页 左边的包括工程的树。分了八大分支,但是可以在其下创建下一级文件夹,在工程树下选择一个文件夹显示它的组成。在这个例子中,在工程里一个命名为”WHBI”的文件夹下创建很多Job。“DataElements”分支:列出内置的和自定义的数据元素。(数据元素是数据类型的扩展,将在下面讲述)“Jobs”分支,显示在当前工程的Jobs列表。“Routines”分支:先是内置和自定义的Routines,Routines是Datastage Basic代码的一部分,可以引入到一个Job中。第87页/共133页 “ShareContainers”分支
40、:共享容器就是Datastage的一个单独的Satage的组成。“StageType”分支:列出在一个Jobs中可用的Stage的类型。内置的Stage包括在Designer中的结果部分和转换部分的Stage。“TableDefinitions”分支:显示加载到一个Job的有效的表结构定义。“Transformer”分支:先是内置和自定义的Transformer。Transformer是可以用于Job的数据转换函数。第88页/共133页Manager内容数据源和目标数据的元数据描述。Datastage项目。Jobs。Routines。表单。第89页/共133页 Datastage的Manage
41、r管理俩个不同类型的项目:数据源和目标数据的元数据描述。在Manager中叫做表单定义。Datastage表单定义用于描述各种类型源的列定义的格式:结果、有关的、Hash文件等等。可以在Manager或者Designer中创建表单的定义,可以从源或者目的导入其结构。第90页/共133页 Datastage的构成 在Datastage中任何一个项目(Jobs,Routines,表定义,等等)在Datastage中存储Manager是接口用来存储。Datastage组成包括整个项目,都可以从导出的文件中导入到Manager中。第91页/共133页Import 和ExportManager中的所有项
42、目,都可以导出成为一个文件。导出整个工程。用于备份用于版本控制。用于Datastage的项目从一个工程到其它工程的移动。对于其它开发者,用于共享Datastage的Job和项目。第92页/共133页 Datastage中的项目包括整个工程,全部都在Manager进行存储,可以将其导出成为一个文件。这个导出的文件能够重新导入回Datastage。导入和导出能用作很多的目的,包括:备份Jobs和工程。维持不同Jobs或者工程的版本。从一个工程到另外一个工程,Datastage项目的移动。将导出的项目,移动到其它的工程,将其重新导入到新的工程里。在开发者之间共享Jobs和工程。导出的文件,当被压缩以
43、后,变得很小,很容易从一个开发者到其他人之间传递。第93页/共133页导出过程在Manager中,点击“ExportDatastage Components”。选择Datastage需要到导出的项目。指定导出的类型:dsx,xml。在客户端机器上指定导出文件的路径。第94页/共133页 在Manager中点击“ExportDatastage Components”开始导出的过程。在Manager中任何的项目都可以将其导出成为一个文件。使用这个程序可以对工作进行备份或者将项目从一个工程移动到另一个工程中。选择导出文件的类型,可以选择整个工程或者在一个工程中的一部分项目。指定导出文件的类型,默认的
44、,项目被导成一个文本格式的文件,默认的导出文件是“Dsx”格式的。也可以将项目导出成为“XML”格式的文档。导出的文件目录是在Datastage的客户端,而不是在服务器。第95页/共133页Datastage测试问题一:可以将Datastage工程中的Jobs导出来,但是却不能将元数据导出,所以不能将元数据的定义导出成为一个文本。(Yes/No)答案一:No,元数据的定义的结构,都存在于“Table Definitions”中,而表单的定义是可以通过导入导出流通于各个工程之间。问题二:Datastage工程导出的目的是存放在客户端,而不是存放在服务器。(Yes/No)答案二:Yes。第96页/
45、共133页导出Datastage的项目在Datastage的Manager的菜单上点击“ExportDatastage Components”。选择“Whole Project”或根据需要进行选择,而后进行导出。第97页/共133页第98页/共133页导入Datastage工程在Manager中,点击“ImportDatastage Components”。选择要导入的Datastage项目文件。选择要导入的文件,点击“Import All”开始导入或者“Import Select”从浏览的项目中选择一个导入。选择“Overwrite Withnot Query”按钮来覆盖那些同名但没有警告的
46、项目。第99页/共133页导入元数据从Sequential文件中导入格式和列的定义。导入关联表的列的定义。导入Hash文件的列的定义。导入的信息在“Table Definitions”。在Job中Stage可以将表定义进行加载进来。第100页/共133页 表格定义对于一些变化的数据文件和表单进行格式的定义。这些定义可以重复的是用于设计的Jobs,来指定数据的格式。举例,可以导入“Customers.txt”文件的格式和列的定义,可以将其加载到源的“Sequential Stage”中,表示Job是从“Customers.txt”中抽取数据。第101页/共133页 可以加载这些相同的元数据到其它
47、的Stage中,用来访问同样格式的数据。可以感觉到,元数据是可以再度使用的,它可以被用于格式相同的文件和数据上。如果需要的列定义很相似,可以编辑定义并将其保存在一个新的名字下面。也可以使用不同类型的数据相同的表单定义使用同样的格式。举例,可以导入一个表单定义从一个“Sequential”文件,并使其指定一个ODBC的表单的格式。可以清楚地看到元数据在格式定义上是宽松灵活的。可以导入和定义几个不同类型的表单定义,包括:“Sequential”文件、ODBC数据源、Hash文件和全部的表单。第102页/共133页Sequential文件导入过程在Datastage Manager中,点击“Impo
48、rtTable Definitions Sequential File Definistions”选择指定的“Sequential”文件的目录和名称。选择Manager的分类。检查格式和列定义和编辑必要的信息。第103页/共133页 要开始导入,点击“ImportTable DefinitionsSequential File Definitions”,“Import Meta Data(Sequential)”窗体会出现。选择目录中包含的Sequential文件,在文件的列表中选择需要导入的文件。选择文件进行导入。选择指定的类别(即文件夹)进行导入 1、格式为:(类别/子类别)。2、是在Ta
49、ble Definitions下的第一级子目录。3、是在目录下的另外一层。第104页/共133页在Manager中定义结构第105页/共133页 在Manager中,选择“Table Definition”的包含的类别。在“Table Definition”上双击,打开“Table Definition”的窗口。单击“Columns”的页框浏览和编辑列的定义,选择“Format”页框来编辑文件的格式说明。第106页/共133页导入Sequential元数据过程第107页/共133页第108页/共133页加载表结构定义在导入了Sequential元数据结构后,可以将元数据的结构加载到“Seque
50、ntial Stage”中。第109页/共133页第六章 操作关联数据下面的讲解中,将可以了解到:设置ODBC连接来关联数据库。导入关联的元数据。从关联表中抽取数据。加载数据到关联表。第110页/共133页操作关联数据在关联的源数据表单中抽取,过滤、转换数据。加载数据到关联表单中。通过ODBC Stage来进行连接。支持用户定义SQL。第111页/共133页 可以对关系型数据执行就像对Sequential数据那样的任务。可以对关系型数据表进行抽取、过滤、转换数据,也可以向关系型表单中加载数据。虽然可以通过本机得到驱动来操作一些关系型数据库,但Oracle等,也可以使用ODBC来访问这些关系型数