SAPDataService-中文操作手册.docx-淘文阁

资源描述

《SAPDataService-中文操作手册.docx》由会员分享，可在线阅读，更多相关《SAPDataService-中文操作手册.docx（18页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、DataServices 培训总结-操作手册名目一、DS 简介2二、DS 数据加载方式2三、DS 进展数据抽取模型开发的根本过程3四、DS 创立数据源系统和目标系统的数据存储31、Oracle数据库作为数据源系统32、ECC 作为数据源系统43、HANA 数据库作为目标系统5五、全量加载过程51、创立 Project 和 Job52、导入源表的元数据到资源库63、创立 Data Flow.64、设置源表和目标表75、手工执行 Job7六、基于表比较的增量加载81、在 Job 下定义工作流82、在工作流中定义数据流83、参加 Table_Comparison 控件94、设置 Table_Comp

2、arison 控件9七、基于时间戳的增量加载101、在 Job 下定义工作流102、定义 Script 控件103、定义处理增数据的数据流和处理更数据的数据流11八、DS 中常用控件介绍131、Key_Generation132、Case 1. 33、Merge 1. 44、Validation 1. 55、设置过滤器和断点15九、定义 Job 定期执行161、登录 Data Services Management Console162、定义 Batch Job Schedules 1. 7十、其他留意事项1810一、DS 简介SAP BusinessObjects Data Services

3、是通过 SAP HANA 认证的 ETL 工具。承受数据批量处理的方式，定期执行后台作业，将数据从多个业务系统中抽取出来，并进展必要的处理转换，合并，过滤，清洗，然后再加载到 HANA 数据库中。DS 的组件之间的关系：u Management Consol：治理掌握台是网页版 DS 治理工具，可以进展一些系统配置和定义Job 执行u Designer：Designer 是一个具有易于使用的图形用户界面的开发工具。它允许开发人员定义包括数据映射，转换和掌握规律的数据治理应用程序，创立包含工作流作业执行定义和数据流数据转换定义的应用程序u Repository：应用程序设计器使用的

4、本地资源库用来存储Data Services 对象如工程，作业，工作流，和数据流的定义和源和目标的元数据u Job server：作业效劳器启动数据移动的从多个不同种类的源集成数据的引擎，执行简单的数据转换，并治理从 ERP 系统和其他源的抽取和事务二、DS 数据加载方式u 全量加载u 增量上载a) 基于表比较作业在执行时读取数据源和目标中的全部数据，在效劳器的内存中进展比较，计算数据差异b) 时间戳增量需要在数据源中添加时间戳字段，一般为创立时间和最终修改时间，在抽取作业中定义对两个时间戳字段进展比照，符合条件的创立时间条目进展插入，符合条件的修改时间条目进展更c) 利用数据库 CDCc

5、hanged data capture首先需要开启数据库的 CDC 效劳，为数据库实例启用 CDC 功能，为源表启用 CDC 功能。在这种模式下，DS 的增量更不再直接访问源表，而是在与源表相关的变更记录表中读取增量三、DS 进展数据抽取模型开发的根本过程u 为数据源创立数据存储u 导入源表的元数据到资源库u 为 SAP HANA 目标系统创立数据存储u 建 DS 工程和批量作业u 建 DS 数据流：定义源表和目标表，定义变量、编辑Query 和 Map_CDC_Operationu 执行批量作业四、DS 创立数据源系统和目标系统的数据存储1、Oracle数据库作为数据源系统登录 Data S

6、ervices Designer，在本地对象库的数据存储页签中单击鼠标右键，选择建菜单创立数据存储“EAM_TEST”，在弹出的对话框中输入 EAM 数据库的连接信息2、ECC 作为数据源系统同样在创立 DataStore 时，输入 ECC 的连接信息3、HANA 数据库作为目标系统在创立 DataStore 时，输入 HANA 数据库的连接信息五、全量加载过程1、创立 Project 和 Job在本地对象库的 project 页签中单击鼠标右键，选择建菜单，创立工程“ERP_DS”。双击该工程，在“Project Area”，可以在该工程下创立 Job2、导入源表的元数据到资源库在本地对象库

7、的数据存储页签中，选择源系统的数据存储，单击鼠标邮件，选择“Import By Name”，输入需要导入到资源库的表名称。导入成功后，在数据存储的table 名目下可以看到导入的表3、创立 Data Flow单击“General”Job，在右边空白区域单击鼠标邮件，选择“Add New”-“Data Flow”4、设置源表和目标表单击创立的 Data Flow，将需要导入到 HANA 数据库中的源表拖入到 Data Flow 区域中，将Data Flow 区域右侧的工具条中的模版表拖入Data Flow 区域创立模版表输入模版表名称、HANA 目标系统的数据存储、HANA 数据库存放 DS 抽

8、取数据表的用户名。连接源表和目标表双击模版表，设置“Options”中的“Use NVARCHAR for VARCHAR”5、手工执行 Job选择 Job，单击鼠标右键，选择“Execute”执行成功之后，在 HANA 数据库中的 ERPDSUSER 下可以看到“T161T”，可以查看数据表的内容。执行过程信息和结果可以在监控器中查看。六、基于表比较的增量加载1、在 Job 下定义工作流2、在工作流中定义数据流在数据流中定义源表和模版表，执行Job，执行成功之后，在目标系统数据存储的Template Table 名目下可以看到创立的模版表3、参加 Table_Comparison 控件选择模

9、版表，单击鼠标邮件，选择“Import Table”。模版表会更为 Tables 名目下的数据表。通过将转换- 数据集成中的“ Table_Comparison” 控件拖入到数据流中的方式添加“Table_Comparison”控件将源表连接“Table_Comparison”控件，“Table_Comparison”控件连接目标表。4、设置 Table_Comparison 控件双击“Table_Comparison”控件，设置相关参数：比较的目标表、表的主键，需要比较的字段。当需要比较的字段为空时，会比较全部字段。建议依据需要填写需要比较的字段，可以加快处理速度。保存后执行 Job。七、基

10、于时间戳的增量加载1、在 Job 下定义工作流在工作流中定义 Script 控件，读取数据抽取后最的创立时间和更改时间，定义一个处理增数据的数据流和一个处理更数据的数据流2、定义 Script 控件在 Script 控件中需要使用变量存放读取的最的创立时间和最的更改时间。选择 Job，在工具栏选择“Variables”按钮，创立全局变量双击“Script”控件，编写 SQL 语句，从 HANA 数据库表中读取最的创立时间和更改时间3、定义处理增数据的数据流和处理更数据的数据流双击“EBAN_New”数据流，加载源表，Query，Map_CDC_Operation 控件和目标表双击 Query，

11、在输出字段中增加“Sequence”和“Operation”两个字段。“Sequence”字段使用函数 gen_row_num进展赋值，“Operation”赋值为I在 Quey 中设置 Where 条件双击 Map_CDC_Operation 控件，设置 CDC Columns同样的方式定义“EBAN_Upd”数据流，在 Query 的 where 条件中定义为在 Query 的数据结果中增加“Sequence”和“Operation”两个字段。“Sequence”字段使用函数 gen_row_num进展赋值，“Operation”赋值为U保存后，执行 Job。可以通过修改源系统数据测试基于

12、时间戳的增量加载。八、DS 中常用控件介绍1、Key_Generation在源表根底上为目标表重生成主键在 Query 中增加“ID”字段，赋值为 0。在 Key_Generation 控件中设置目标表、主键字段、主键值增加量2、Case将源表依据规章进展拆分双击 Case 控件，设置拆分条件当 SOURCE = 1 时，输出 SPFLI_1，当 SOURCE =2 时，输出 SPFLI_23、Merge将具有同样数据构造的源表进展合并在 Query 中增加输出字段 Source，赋值为 1。在 Query1 中增加输出字段 Source，赋值为 2。在 Merge 中将两个表的内容合并输出。

13、4、Validation提取数据源表中的正确数据，将错误数据单独存放在其他表中双击 Validation 控件，设置“Validation Rule”5、设置过滤器和断点过滤器和断点结合使用，用于设置 Debug 的条件选择源表到目标表的连接线，单击鼠标右键，选择 Set Filter/Breakpoint，设置 Debug 条件当满足某种条件时进入断点，或者在满足过滤条件的同时执行多少条数据后时进入断点选择 Job，单击鼠标右键，选择 Start debug工具栏上的按钮可以掌握执行下一条数据、连续执行、终止DebugDebug 过程中进入断点后，可以一次查看数据加载结果九、定义 Job 定

14、期执行1、登录 Data Services Management Console单击工具栏的“Data Services Management Console”按钮进入 Data Services Management Console 的登录界面单击进入 Administrator 界面2、定义 Batch Job Schedules在 Batch Job Configuration 页签选择 Add Schedules进入批量执行 Job 的设置界面可以设置每周的某一天执行一周执行一次或则每月的某一天执行一个月执行一次，也可以设置为每天都执行。都选“Recurring”则会定期循环执行，否则

15、只执行一次。可以设置一天执行一次，也可以一天执行屡次，设置开头执行时间。上图中假设设置为一天屡次执行，开头时间为上午 1 点，持续时间为 600 分钟，间隔时间为360 分钟，则Job 会在一天的上午 1 点和上午 6 点各执行一次。假设设置时间间隔为240 分钟，则 Job 会在一天的上午 1 点、上午 5 点和上午 9 点各执行一次。总持续时间不超过 10 小时。十、其他留意事项1、客户端安装包需要留意和效劳器 DS 版本全都2、在第一次登录 CMS 信息时，无法成功。ping sapdstest 也失败，需要在 host 文件中添加对应的地址和域名3、连接 Oracle 数据库作为

16、数据源时，需要在客户端上安装 Oracle 客户端，设置 tnsname.ora 文件，设置环境变量 ORACLE_HOME 之后重启效劳器；连接 HANA 数据库时，需要安装HANA 客户端4、在连接 ECC 作为数据源时，需要开启系统跨客户端编辑权限5、在 HANA 中建 ERPDSUSER 作为存放 DS 抽取表的 Schema，将 ERPDSUSER 给 SLTADM赋权限，包括查询和创立的权限6、全量抽取时，目标表不能使用导入表，需要使用模版表，模版表每次会删除重建，导入表会消灭主键重复的错误提示7、基于时间戳的增量加载，源表中需要有创立时间和更改时间两个字段，分别处理增和修改的数据8、假设只是设置过滤器而没有设置断点，在进展 Debug 时，Job 会执行成功，过滤器有效。假设不进展 Debug，直接执行，设置的过滤器不起作用

展开阅读全文