《DATASTAGE的介绍及基本操作.ppt》由会员分享,可在线阅读,更多相关《DATASTAGE的介绍及基本操作.ppt(133页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、DATASTAGE 介绍及基本操作内容提要:一、一、一、一、datastagedatastagedatastagedatastage 介绍介绍介绍介绍二、如何安装二、如何安装二、如何安装二、如何安装datastagedatastagedatastagedatastage三、配置三、配置三、配置三、配置datastagedatastagedatastagedatastage 工程工程工程工程四、设计并运行四、设计并运行四、设计并运行四、设计并运行datastagedatastagedatastagedatastage的的的的jobjobjobjob五、操作元数据五、操作元数据五、操作元数据五、操
2、作元数据六、操作关联数据六、操作关联数据六、操作关联数据六、操作关联数据七、操作约束条件及数据来源七、操作约束条件及数据来源七、操作约束条件及数据来源七、操作约束条件及数据来源八、定义查找使用的哈希文件八、定义查找使用的哈希文件八、定义查找使用的哈希文件八、定义查找使用的哈希文件九、聚合数据九、聚合数据九、聚合数据九、聚合数据十、十、十、十、jobjobjobjob的运行及调试的运行及调试的运行及调试的运行及调试十一、创建十一、创建十一、创建十一、创建BasicBasicBasicBasic表达式表达式表达式表达式一,一,datastagedatastage的介绍的介绍 本章主要讲解ETL的概
3、念,datastage的介绍、组成及主要功能。ETL概要 ETL包括数据抽取(Extract)、数据转换(Transform)以及数据加载(Load)3个阶段。一般而言,这三个过程中有二次落地(生成中间文件)。Ascential DataStageAscential DataStage 是一套专门对多种操作数据源是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据仓库目标数据库的集成并将其输入数据集市或数据仓库目标数据库的集成工具。工具。DataStageDataStage 能够处理多种数据源的数据,包括主机
4、能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普系统的大型数据库、开放系统上的关系数据库和普通的文件系统通的文件系统 。包括。包括Oracle,Sybase,DB2,SQL Oracle,Sybase,DB2,SQL ServerServer,TeradataTeradata,FTP,FTP文件系统文件系统,文本文件等等。文本文件等等。数据清洗、转换、加载都可以在图形化工具里完成,数据清洗、转换、加载都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽工具来设
5、计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能取、任务调度等多种复杂而实用的功能 。DS介绍:介绍:Datastage的组成:DatastageDatastage的服务器端和客户端的服务器端和客户端 Datastage是C/S软件,服务器端存储所有的ds项目和元数据,由关系型数据库(RDBMS)组成。客户端具有同服务端一样的软件接口。客户端运行于windows95或更高版本,服务端可运行于windowsNT4.0或windows2000 版本,datastage的很多版本都支持unix。DS Administrator 在服务端管理在服务端管理dsds的项目和服务端操作
6、。主要用于工的项目和服务端操作。主要用于工程的参数调整,变量设置,及程的参数调整,变量设置,及commandcommand操作。操作。DS Designer 建立建立dsds的的jobjob并且编译执行的程序。主要用于并且编译执行的程序。主要用于jobjob的的开发及编译。开发及编译。DS Director运行和监控运行和监控dsds的的jobjob。主要用于。主要用于jobjob调试。调试。DS Manager允允许许编编辑辑和和查查看看在在dsds中中存存储储的的内内容容。主主要要用用于于项项目目管理或管理或jobjob的导入、导出、备份。的导入、导出、备份。DataStage中的Admi
7、nistrator 默认使用默认使用AdministatorAdministator来指定常规的服务端,用来增加来指定常规的服务端,用来增加或删除或删除DataStageDataStage工程,并且可以设置工程的属性。工程,并且可以设置工程的属性。AdministatorAdministator也对于总库提供命令接口。也对于总库提供命令接口。使用使用AdministatorAdministator的的 Project PropertitiesProject Propertities 工程属性的工程属性的窗口,可以进行窗口,可以进行 1 1、在、在 GeneralGeneral页框中,设置页框中
8、,设置JobJob监控的一些限制信监控的一些限制信息和息和DirectorDirector中的其他信息。中的其他信息。2 2、在、在 PermissionPermission页框中,设置并分配开发人员组页框中,设置并分配开发人员组的权限的权限 。3 3、在、在 Tracing Tracing 页框中,页框中,设置或取消服务端进行跟设置或取消服务端进行跟踪。踪。4 4、在、在 Schedule Schedule 页框中,页框中,设置调度时运行设置调度时运行JobJob所用所用到的用户名和口令。到的用户名和口令。5 5、在、在 TunablesTunables 页框中,指定页框中,指定HashHa
9、sh文件文件StageStage的读的读写的缓存大小。写的缓存大小。在在DataStageDataStage中的中的AdministratorAdministrator设置常用服务器的默认值:设置常用服务器的默认值:1 1、改变、改变LicenceLicence信息。信息。2 2、设置服务端连接超时时间。、设置服务端连接超时时间。DataStage中的Manager使用使用DataStageDataStage中的中的ManagerManager来存储和管理来存储和管理JobJob的元的元数据,使之可以在数据,使之可以在DataStageDataStage中的中的DesignerDesigner
10、中再度被中再度被使用。使用。元数据包括表单和文件结构和导出数据的元数据包括表单和文件结构和导出数据的RoutinesRoutines的转换等等。的转换等等。ManagerManager是是DataStageDataStage存储的一个重要的部分,可以存储的一个重要的部分,可以用来加入表单和文件的结构,在左侧分支树中显示用来加入表单和文件的结构,在左侧分支树中显示RoutinesRoutines、TransformsTransforms和和JobsJobs。自定义的自定义的RoutinesRoutines和和TransformsTransforms也在也在DataStageDataStage中的
11、中的ManagerManager里创建。里创建。DataStage中的DesignerDataStageDataStage中的中的DesignerDesigner允许使用熟练地拖拽图标和连线的方式允许使用熟练地拖拽图标和连线的方式来表示数据抽取、清洗、转换、整合和加载的过程,并将数据导来表示数据抽取、清洗、转换、整合和加载的过程,并将数据导入数据仓库的表单之中。入数据仓库的表单之中。DesignerDesigner提供一个数据流程的模式,轻松将设置和提供一个数据流程的模式,轻松将设置和JobJob的设计有的设计有机的组成。机的组成。使用使用DesignerDesigner,可以:,可以:1 1
12、、指定数据如何抽取。、指定数据如何抽取。2 2、指定数据的转换规则和进行转换。、指定数据的转换规则和进行转换。3 3、使用参考性质的、使用参考性质的LookUpLookUp到数据集市中编辑数据。到数据集市中编辑数据。a a)例如,如果销售的记录集包括)例如,如果销售的记录集包括CustomerIDCustomerID,可以在,可以在CustomerMasterCustomerMaster表中使用表中使用LookUpLookUp查找到查找到CustomerCustomer的名称。的名称。b b)当需要连接数据集市并使用查询,可以快速的进行访问。)当需要连接数据集市并使用查询,可以快速的进行访问。
13、4 4、对数据进行整合。、对数据进行整合。5 5、在定义的约束条件中将基础数据分割成为多个输出的连接。、在定义的约束条件中将基础数据分割成为多个输出的连接。在在ToolsTools菜单中可以轻松的于菜单中可以轻松的于DirectorDirector,DesignerDesigner和和ManagerManager之间之间切换。切换。DataStage中的Director使用Datastage的Director可以对设计的job进行验证、运行、任务调度和监控的工作。也 可以针对job 的运行查看运行的聚合统计情况。在Datastage中进行开发在Administrator中定义全局的和项目属性。
14、在Datastage中的Manager里导入定义源的元数据和目标的元数据。在Datastage中的Designer中验证和编译job。在Datastage中的Director中验证、运行、和监控job。1 1、定义工程的属性、定义工程的属性在在AdministratorAdministrator中。中。2 2、打开工程。、打开工程。3 3、导入元数据,在、导入元数据,在jobjob中定义格式、读入或写入中定义格式、读入或写入在在ManagerManager中。中。4 4、设计、设计jobjob在在DesignerDesigner中。中。a)a)定义数据的抽取(读取)。定义数据的抽取(读取)。b
15、)b)定义数据流程。定义数据流程。c)c)定义数据的集合。定义数据的集合。d)d)定义数据的转换。定义数据的转换。e)e)定义数据的约束条件。定义数据的约束条件。f)f)定义数据的加载(写入)。定义数据的加载(写入)。g)g)定义数据的聚合。定义数据的聚合。5 5、编译和调试、编译和调试jobjob在在DesignerDesigner中。中。6 6、运行和监控、运行和监控jobjob在在DirectorDirector中。中。Datastage的工程管理所有的工作都在一个工程中。在安装过后,需要建立一个工程,这是安装必选的项目。在使用它工作之前,要登录这个工程。可以在工程间进行导入和导出Dat
16、astage的项目内容。多个用户可以在同一时间使用同一工程,但是不能同时编辑同一个项目。所有的工作都在所有的工作都在DatastageDatastage的工程里进行。在做任何事的工程里进行。在做任何事之前,那些具有同样管理权限的人,都要先打开一个工程,之前,那些具有同样管理权限的人,都要先打开一个工程,即进行登录。即进行登录。在安装过程中,工程就要求创建,这是必须做的事情。在安装过程中,工程就要求创建,这是必须做的事情。可以在安装之后,在可以在安装之后,在AdministratorAdministrator中的中的ProjectProject页框中另增加页框中另增加其它工程。其它工程。一个工程
17、关联着一个目录,这个工程目录用来存储一个工程关联着一个目录,这个工程目录用来存储jobsjobs、DatastageDatastage项目和元数据。在做任何操作前都要先打开这个项目和元数据。在做任何操作前都要先打开这个工程,即登录这个工程。工程,即登录这个工程。工程是自包含的很多的工程可以在同一时间被打开,在工程是自包含的很多的工程可以在同一时间被打开,在各自单独的环境打开。可以在它们之间导入或导出项目。各自单独的环境打开。可以在它们之间导入或导出项目。多用户可以在同一时间使用一个工程中工作,但是多用户可以在同一时间使用一个工程中工作,但是DatastageDatastage禁止在同一时间由多
18、个用户访问同一个禁止在同一时间由多个用户访问同一个jobjob。Datastage测试问题一:问题一:DatastageDatastage的的DesignerDesigner是用来建立和编译是用来建立和编译jobjob、用来进行数据、用来进行数据的抽取、转换和加载即的抽取、转换和加载即ETLETL。(。(Yes/NoYes/No)答案一:答案一:YesYes,DesignerDesigner使用拖拽的方式将设计元素(习惯上叫使用拖拽的方式将设计元素(习惯上叫stagestage)拖拽到设计区域中,经过建立和编译,)拖拽到设计区域中,经过建立和编译,JobJob就可以执就可以执行,用来进行数据的
19、抽取、转换和加载。行,用来进行数据的抽取、转换和加载。问题二:问题二:DatastageDatastage的的ManagerManager用来执行编译通过的用来执行编译通过的JobsJobs。(Yes/NoYes/No)答案二:答案二:NoNo,DatastageDatastage的的ManagerManager是用来管理元数据的,如表单结是用来管理元数据的,如表单结构,内置和自定义构,内置和自定义RoutinesRoutines等的,使等的,使DatastageDatastage用来管理资源用来管理资源存储的。存储的。问题三:问题三:DatastageDatastage的的DirectorD
20、irector用来执行编译通过的用来执行编译通过的JobsJobs。(Yes/NoYes/No)答案三:答案三:YesYes,使用,使用DirectorDirector来对编译通过的来对编译通过的jobjob进行验证或者进行验证或者运行,也可以在运行,也可以在jobsjobs运行过程中对其进行监控。运行过程中对其进行监控。问题四问题四:DatastageDatastage的的AdministratorAdministrator是用来定义全局变量和设是用来定义全局变量和设置工程属性的。(置工程属性的。(Yes/NoYes/No)答案四:答案四:YesYes,可以在,可以在Administrato
21、rAdministrator中设置工程中使用的全局中设置工程中使用的全局变量和必要属性,如连接数据库超时,登录者权限变量和必要属性,如连接数据库超时,登录者权限等等。等等。第二章 如何安装Datastage下面的讲解中,将可以了解到:在Windows系统中安装Datastage服务端。建立一个Datastage的工程。安装Datastage的客户端。Datastage 的服务端要首先安装,之后才可以安装Datastage 客户端,服务端能都安装在WinNT、Windows2000或者UNIX系统中,这个模块将介绍在Windows环境下进行安装。系统的具体配置依赖于所要安装的Datastage
22、版本,在安装盘上找到最接近的系统需求配置。安装Datastage 服务端需要有哪些安装盘和服务端的许可,这个许可包含以下信息:1,注册号(序列号)。2,工程数量。在Datastage服务端可以建立的最大工程数量。包括新建的工程,也包括对先前建立的工程进行加上升级。3,到期时间。4,授权代码。在许可信息中,这个信息必须被正确输入的。安装向导会指导通过以下步骤进行:1,输入许可信息。2,指定服务器的路径。3,选择程序的文件夹。4,创建一个新的工程或升级已经存在的工程。安装Datastage 首先安装Datastage Server端,鼠标点击 软件会自动安装,安装过程中系统提示使用者选择安装路径和
23、输入产品序列号。在Datastage Server安装的过程中会提示用户建立一个工程。在安装Datastage Server端以后,需要安装Datastage Client端,鼠标点击软件会自动进行安装,安装过程中系统提示使用者选择安装路径和输入产品序列号。安装有Datastage服务端的机器,必须运行着。需要运行Datastage的客户端。打开Datastage的控制面板,来停止或启动服务端。当再次安装Datastage的时候,会停止服务端。为了保证Datastage客户端程序的正常运行,必须保证Datastage的服务器保持运行状态。在Windows2000的控制面板中打开Datastag
24、e的控制面板,可以启动或停止全部的Datastage服务。点击可以启动全部的服务或者停止全部的服务。在安装或重新安装Datastage的时候,这些服务一定要全部停止。安装Datastage客户端在安装Datastage服务端之后。可以安装在WinNT,Windows2000以及WinXP上。Datastage产品的许可用于安装Datastage的客户端。Datastage的操作许可只能用于安装Director和Administrator。Datastage的客户端必须在Datastage的服务端安装过后才可以进行安装,客户端能够安装在Windows95、Windows98、WindowsNT、
25、Windows2000以及WindowsXP操作系统上。这里有俩个版本的Datastage:1,开发版本的Datastage,包含了解所有的客户端应用程序。2,操作员版本的Datastage只包含了需要用到的运行和监控Job的应用程序,即Director和Administrator。安装开发版本的安装开发版本的DatastageDatastage,需要有,需要有DatastageDatastage开开发版的许可。发版的许可。安装操作员版本的安装操作员版本的DatastageDatastage,需要有,需要有DatastageDatastage的的DirectorDirector的许可。的许可。
26、许可包括以下几个信息:许可包括以下几个信息:1 1,序列号,序列号2 2,用户限制,用户限制3 3,到期时间,到期时间4 4,授权认可代码,授权认可代码 这些信息必须是正确的数据。这些信息必须是正确的数据。第三章 配置 Datastage 工程下面的讲解中,将可以了解到。在Datastage的 Administrator中设置工程属性。在Datastage的Administrator中设置用户的权限。Datastage工程属性建立或者删除Datastage工程。设置Datastage工程的默认属性。修改Datastage工程属性的方法。登录Datastage的Administrator。选择要
27、修改属性的工程。Datastage中所有的开发工作都在一个Datastage的工程中,在安装Datastage服务端时,默认就已经建立了一个工程,可以使用Administrator进行工程的控制。每个工程都有其关联的目录,目录存储了在工程中建立的项目,如Jobs、元数据、自定义的Routines等等。在一个工程中工作之前,必须要先打开它(即进行登录)。在使用Datastage的Administrator时,可以设置默认的工程属性。设置Datastage工程属性选择要进行修改的工程,点击“Properties”工程属性的“General”页框点击Datastage的Administrator的“
28、Properties”按钮,打开工程属性的窗口,这里有5个页框(“Mainframe”页框只有在许可支持大型机的Jobs的时候可用),默认打开的“General”页框。如果选择“Enable job administrator in Director”的选择项,那么在不打开Administrator的情况下在Datastage的Director中可以运行一些管理级别的函数。在Director中运行一个Job的时候,事件被写入Jobs的运行的日志,例如:记录了何时开始运行Jobs,何时停止,何时终止。日志记录的事件增长量很大,“Auto-purpe of job log”选择框可以让指定用什么条
29、件来筛选这些事件。可以限制记录时间的每天的数量或者运行Jobs运行的数量。工程属性的“Permissions”页框 使用这个页框可以设置访问和使用使用这个页框可以设置访问和使用DatastageDatastage的用户组权限。的用户组权限。所有的所有的DatastageDatastage用户中,在登录用户中,在登录DatastageDatastage之之前,都必须拥有一个公认的,属于自己的用户角色,前,都必须拥有一个公认的,属于自己的用户角色,使之用来进行登录,这样可以用来防止匿名的方式使之用来进行登录,这样可以用来防止匿名的方式使用使用DatastageDatastage工程。工程。这里有三
30、种这里有三种DatastageDatastage用户角色:用户角色:1 1,DatastageDatastage Developer Developer,可以访问,可以访问DatastageDatastage工程工程 全部的范围。全部的范围。2 2,DatastageDatastage Operator Operator,可以运行、释放、,可以运行、释放、DatastageDatastage的的JobsJobs。3 3,DatastageDatastage Production Manager Production Manager,可以管理,可以管理DatastageDatastage 产品组
31、件。产品组件。工程属性的“Tracing”页框 在这个页面设置是否在在这个页面设置是否在DatastageDatastage服务端进行服务端进行跟踪处理。跟踪处理。DatastageDatastage服务端进行跟踪处理默认是无效的。服务端进行跟踪处理默认是无效的。当使其有效,当使其有效,DatastageDatastage客户端运行项目的时客户端运行项目的时候,所有的记录信息都要在候,所有的记录信息都要在DatastageDatastage服务端进行监服务端进行监控,并写入监控文件。使用这些底层系统知识可以控,并写入监控文件。使用这些底层系统知识可以帮助找到帮助找到DatastageDatas
32、tage客户端的问题所在,如果跟踪设客户端的问题所在,如果跟踪设置为有效,当调用一个置为有效,当调用一个DatastageDatastage的客户端的时候,的客户端的时候,用户会收到一些警告的信息。用户会收到一些警告的信息。警告:警告:跟踪会消耗跟踪会消耗DatastageDatastage服务器大量的系统资源,服务器大量的系统资源,除非用户需要诊断重大的问题,一般不建议设置跟除非用户需要诊断重大的问题,一般不建议设置跟踪有效。踪有效。工程属性的“Schedule”页框 使用“Schedule”页框,来指定在选择的项目中运行计划任务的jobs的用户名和口令,如果没有指定,Jobs会在当前系统的
33、计划任务的用户名下运行。工程属性的“Tunables”页框 在“Tunable”页框中,可以指定当用来读取Hash文件记录时的缓存的大小,Hash文件大多数用于查找操作,这部分介绍会在下面的介绍中进行。第四章 设计并运行Datastage的Job 下面的讲解中,将可以了解到:下面的讲解中,将可以了解到:描述什么是描述什么是DatastageDatastage的的JobJob。一步步讲述如何建立一步步讲述如何建立DatastageDatastage Job Job。描述描述LinkLink和和StageStage。识别不同类型的识别不同类型的StageStage。设计一个简单抽取和加载的设计一个
34、简单抽取和加载的JobJob。编译、验证和运行编译、验证和运行JobJob。监控监控JobJob的执行。的执行。什么是JobJob开发的浏览在在ManagerManager导入数据源和目标数据库的数据结导入数据源和目标数据库的数据结构定义。构定义。在在DesignerDesigner加入加入StageStage定义数据的抽取和加载。定义数据的抽取和加载。加入加入TransformerTransformer和其它的和其它的StageStage来定义转换。来定义转换。从源数据到目的数据,加入从源数据到目的数据,加入LinkLink来定义数据的流向。来定义数据的流向。编译编译JobJob。在在Dir
35、ectorDirector中,验证、运行和监控中,验证、运行和监控JobJob。在这个讲解中,将通过一个单一Job的过程第一步,着手定义元数据。Designer的工作区域 中间偏右是Datastage的设计区域,可以将Stage和Link从工具的板块上拖动过来放在上面,左边是“Repository”(存储)窗口,显示的是Manager中的分支。Manager中的分支,就像Jobs和表定义一样可以直接拖拽到设计区域,点击“ViewRepository”来显示“Repository”窗口。点击“ViewProperty Browser”来显示“Property Browser”窗口,显示在设计区选
36、择的项目的属性。Designer的工具栏 工具栏中的一些图标可以快捷的调用一些Datastage的内部函数,更加方便进行Jobs的设计工作。Designer的Stage工具面板工具面板中包含描述的图标,可以将其加入到工具面板中包含描述的图标,可以将其加入到JobsJobs设计当中。设计当中。当安装Datastage的时候,很多的Stage都会自动地进行安装,也可以根据特定的目的安装另外的Stage,这些被叫做插件。例如,那个叫做“Sort”的插件就是用来对数据排序的。插件的介绍将在以后的讲解来介绍。下面将部分的Stage进行简单的说明(有些Stage在普通应用中并不常用):被动Stage和主动
37、Stage被动Stage的定义是用来读写数据源的Stage。被动Stage包括:Sequential,Odbc,Hash文件的Stage。主动Stage的定义是用来数据的筛选和转换部分的Stage。主动Stage包括:Transformer、Aggregator和Sort的插件。这里有俩种类型的这里有俩种类型的StageStage:被动被动StageStage,是用来读写数据源的数据的,包,是用来读写数据源的数据的,包括括SequentialSequential、OdbcOdbc、HashHash文件的文件的StageStage,等等。,等等。主动主动StageStage:是用来筛选和转换部分
38、的:是用来筛选和转换部分的StageStage,包括包括TransformerTransformer、AggregatorAggregator和和SortSort的插件,等等。的插件,等等。DatastageDatastage测试:测试:测试:测试:问题一:问题一:Sequential StageSequential Stage是一个主动地是一个主动地StageStage。(Yes/NoYes/No)答案一:答案一:NoNo,由于,由于Sequential StageSequential Stage可以用于读取可以用于读取数据源和写入数据,但是又不能对数据进行转换,数据源和写入数据,但是又不能
39、对数据进行转换,所以不是主动的所以不是主动的StageStage,而是被动的,而是被动的StageStage。Sequential Stage导出数据或加载数据到一个Sequential文件。为Sequential指定完整的路径。指定文件的格式:定义宽度或者分隔符。指定列的定义。指定写的形式:覆盖、追加。Sequential文件时用来从一个Sequential文件导出或者加载到一个Sequential文件中。在修改Sequential文件的时候需要指定一下内容:1、文件的路径和名称。2、文件的格式。3、列的定义。4、如果Sequential Stage被用作一个目标的话,指定写入动作时选择:覆
40、盖已存在的文件或者在文件基础上进行追加。编辑目标端的一个Sequential文件Stage 定义一个定义一个SequentialSequential的目标的目标StageStage类似于定义一类似于定义一个源的个源的Sequential StageSequential Stage。在输入的在输入的LinkLink中,定义数据导入到中,定义数据导入到StageStage的数据的数据格式。从格式。从“Input Box”Input Box”中输入中输入LinkLink的列表进行选择。的列表进行选择。定义一个文件的定义一个文件的JobJob,定义文件被写入,如果,定义文件被写入,如果文件不存在,文件
41、不存在,DatastageDatastage将会自动建立,在将会自动建立,在“Update Update action”action”中指定数据文件是否覆盖或者追加。中指定数据文件是否覆盖或者追加。“General”General”页框中的页框中的“FilterCommandFilterCommand”,可以,可以指定一个过滤程序,可以使用其在抽取数据的过程指定一个过滤程序,可以使用其在抽取数据的过程中进行数据的过滤。中进行数据的过滤。举例,在读取数据之前要有一个解压缩的过程。举例,在读取数据之前要有一个解压缩的过程。从中选择类型或者浏览从过滤程序中,在输入框中从中选择类型或者浏览从过滤程序中
42、,在输入框中指定命令行,只有在指定命令行,只有在“General”General”页框中的页框中的StageStage页页面中选择了面中选择了“Stage uses filter commands”Stage uses filter commands”的选择的选择框,这个输入框变为可用,如果指定了过滤命令,框,这个输入框变为可用,如果指定了过滤命令,数据浏览没有定义,那么数据浏览没有定义,那么“ViewDataViewData”按钮不可用。按钮不可用。在在“Format”Format”页框中,指定不同格式的目标文页框中,指定不同格式的目标文件,同指定源文件相同。件,同指定源文件相同。如果目标文
43、件不存在,在如果目标文件不存在,在JobsJobs运行之后,才可运行之后,才可以浏览数据。如果这时点击了以浏览数据。如果这时点击了“ViewDataViewData”按钮,按钮,DatastageDatastage将会返回一个将会返回一个“Failed to OpenFailed to Open.”.”的错的错误。误。在源数据的在源数据的StageStage里定义输出数据的列定义,里定义输出数据的列定义,同时定义目标同时定义目标StageStage中的相应的输入中的相应的输入LinkLink。可以将可以将LinkLink想象成为一个通道,从一头流到另想象成为一个通道,从一头流到另外一头,所以输
44、入和输出的格式要保持一致。外一头,所以输入和输出的格式要保持一致。Transformer Stage很关键的主动Stage。使用Transformer Stage可以定义条件、来源和字段的对应关系。输入的列和输出的列进行对应。在这个讲解中,我们将定义列的对应。Transformer Stage Transformer Stage是一个重要的主动是一个重要的主动StageStage,其它主动地其它主动地StageStage执行很多指定类型的转换。执行很多指定类型的转换。在在Transformer StageTransformer Stage中可以指定:中可以指定:1 1、列的对应。、列的对应。2
45、 2、数据的来源。、数据的来源。3 3、过滤条件。、过滤条件。字段对应是指输入字段和输出字段进行对应,字段对应是指输入字段和输出字段进行对应,从输入列到输出列数值直接通过。从输入列到输出列数值直接通过。数据来源的值经过计算写入到输出的列,以输数据来源的值经过计算写入到输出的列,以输入列为基础。入列为基础。在引入的行将被写入到输出的列,约束指定的在引入的行将被写入到输出的列,约束指定的条件将有效。条件将有效。Transformer Stage元素 Transformer Transformer 有以下元素:有以下元素:在上方,左边的区域显示输入在上方,左边的区域显示输入LinkLink的列信息,
46、的列信息,如果有很多的输入如果有很多的输入LinkLink,就会有许多的列显示。,就会有许多的列显示。在上方,右边的区域显示的输出在上方,右边的区域显示的输出LinkLink的内容,的内容,我们不能在这里定义字段,如果有很多的输出我们不能在这里定义字段,如果有很多的输出LinkLink,就会有很多的列显示。,就会有很多的列显示。现在,忽略右上方的现在,忽略右上方的“Stage Variables”Stage Variables”窗口,窗口,我们将在以后的讲解进行讲述。我们将在以后的讲解进行讲述。下方显示元数据的列定义,输入和输出的下方显示元数据的列定义,输入和输出的LinkLink。如果有很多
47、的输入和输出的如果有很多的输入和输出的LinkLink,那么将出现,那么将出现很多的页框。很多的页框。Annotation Stage使用它来在Job上增加文本注释。输入框有不同格式的设置。当Job打印的时候显示。描述注释的Stage将在下一节介绍。增加一个或多个增加一个或多个“Annotation”Annotation”的的StageStage就像一就像一个文本数据框一样进行设置,可以通过在工具栏上的设置要个文本数据框一样进行设置,可以通过在工具栏上的设置要求其是否进行显示。求其是否进行显示。这里有俩个这里有俩个“Annotation”Annotation”的的StageStage,“”“”
48、Description Annotation Stage”Description Annotation Stage”将在下面一个讲解中进将在下面一个讲解中进行讲述。行讲述。编辑Annotation Stage输入框内输入的是文本类型,指定的设置有:输入框内输入的是文本类型,指定的设置有:1 1、文本的字体和颜色。、文本的字体和颜色。2 2、输入框的颜色。、输入框的颜色。3 3、文字的横纵位置。、文字的横纵位置。编译Job在运行在运行JobsJobs之前,必须要对其进行编译,在服务端的机之前,必须要对其进行编译,在服务端的机器上产生可以运行的编码,对于编译器上产生可以运行的编码,对于编译Jobs
49、Jobs,点击,点击“FileFileCompile”Compile”或者在工具栏上点击或者在工具栏上点击“Compile”Compile”按钮,编译按钮,编译JobsJobs的窗口显示的窗口显示JobsJobs编译的情况。编译的情况。编译如果发生错误:编译如果发生错误:点击点击“Show error”Show error”来定位错误的位置。来定位错误的位置。点击点击“More”More”来返回关于错误更多的信息。来返回关于错误更多的信息。运行Job从Datastage的Designer切换到Director。在Director的列表中,选择要运行的Job点击运行。选择运行的属性。验证这个Jo
50、b。运行Job,并在日志浏览中监控Job运行的过程。就像知道的那样,在就像知道的那样,在DatastageDatastage的的DirectorDirector中运行中运行JobJob,可以从可以从DesignerDesigner中的中的“Tools”Tools”菜单中启动,菜单中启动,DatastageDatastage的的DirectorDirector。可以通过这个方法在可以通过这个方法在DirectorDirector、ManagerManager和和DesignerDesigner之之间进行切换。间进行切换。这里有俩种方法运行一个这里有俩种方法运行一个JobJob:1 1、直接运行。