《数据仓库系统运行维护操作介绍书.doc》由会员分享,可在线阅读,更多相关《数据仓库系统运行维护操作介绍书.doc(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、/数据仓库生产环境操作手册数据仓库生产环境操作手册一运维概述一运维概述“数据仓库生产系统”的运行维护责任在于保障系统运行,运维方式主要是 操作员通过工作机远程登陆到系统中的相关主机,对主机进行操作,包括 automation 调度系统、数据库、磁盘、软件环境、数据情况等,查看批出理的运 行情况,一旦运行出现问题作相应的记录并通知相关的技术人员,作出相应的处 理。 所有运维项目成员严格按照数据仓库系统运维守则.doc文档来进行运维 检查工作,否则出现事故由值班人员和当日值班负责人承担事故责任。二运维内容二运维内容1每日维护每日维护1.1 数据检查数据检查每日批处理运行前运行完成后都需要对源头的数
2、据和生产出的数据进行检查,确保当 日批处理程序正常从事生产。检查工作在每日 9:00-9:30 之间完成,且必须在启动程序 (批处理程序)前执行。具体规定如下:1.1.1 转定长数据的检查转定长数据的检查每天上午 9:00-9:45 之间,运维值班人员进行这项工作具体执行步骤如下: 1.在本地工作机上使用 telnet 远程登录工具登录到 168.7.6.163 服务器上,输入用户名 sjtq, 密码:cib2009edw, 2.输入命令 cd EDW/sh/log 3.输入命令 more yyyymmdd 当天的日志,是否有错误信息,最后数据是否都上传结束。 4.以下错误属于正常情况: 03
3、:00:03 : 1.检查 20091031 标志文件失败 03:00:03 : 1.数据标志检查失败,等待 5 分钟(06001/dta_varied) 正常等待情况 5.检查点如下: 1)每个大任务开始的初始化操作/03:00:00 : = 0.环境变量设置完毕 = 2)数据装载,卸载,上传,整个模块处理结束的情况。 05:41:50 : = 2.装载 Unl 数据完毕 = 05:41:50 : -2.开始装载 BAK 数据 - 05:41:50 : = 2.装载 BAK 数据完毕 = 05:41:50 : -3.开始卸载 fix 数据- 06:26:11 : =3.卸载 fix 数据完毕
4、= 06:26:11 : -4.开始向批量数据交换平台送 fix 数据- 06001 send ok 06001 send ok 06002 send ok 06002 send ok 07002 send ok 07002 send ok 06027 send ok 06027 send ok 06:28:56 : = 4.向批量数据交换平台送 fix 数据完毕 = 06:28:58 : END 6.查找是否存在“错误“, ”出错“字样。 7.检查的模块有 06001,input,06002,07002,06027 几个模块的转定长情况,都要看到正 常 END 结束。 8.检查日志中是否存在
5、跑到一半或一部分就终止的现象。 如果没有转换成功或数据晚到,时间顺延检查,并将异常情况汇报给当日值班负责人和客 户,并记录异常到异常情况登记及处理单_YYYYMMDD.doc中。1.1.2 源数据是否全部到达源数据是否全部到达数据仓库每日 06:00 定时触发加载。在正常情况下,数据仓库项目组要求各系统源数 据抽取必须在每日 05:00 之前完成,并传送到上海数据交换平台。如果数据抽取或传送出 现错误,请源系统接口负责人在 06:00 前完成数据补导操作。 加载触发之后,可以看到每台 etlserver 上都启动了 ftpall 和 getall 两个作业,其中 ftpall 脚本负责从数据交
6、互平台获取源系统文件,getall 脚本负责对源系统文件进行解压、 格式检查,并将检查结果存放在 DQC 日志表中。 检查方法:检查项检查方法1.FTP 是否结束查看 AUTOMATION Monitor 前台界面 Running Job 是否有 FTPALL_ETL1,FTPALL_ETL2,GETALL_ETL1,GETALL _ETL2 任务是否正在运行。若没有以上任务,说明从数据交 换平台 FTP 数据已经完成。如果还在运行,说明有些数据文 件还未到达。2. 哪些接口文件未到达 可能性一:数据交换平台查看当日 initall0090.pl 脚本的日志,例如: ETLLOGCTL2006
7、0530initall0090.pl.32.log,搜索关键字/没有该数据文件miss,就可以看到数据交换平台上哪些文件(包括数据文件 和标志文件)未到3. 哪些接口文件未到达 可能性二:FTP 下载时发 生错误方法一:查看 ftpall0100.pl 脚本的日志,例如: ETLLOGCTL20060530 ftpall_etl10100.pl.29.log,可以看到 每个源系统数据的实时到达情况; 方法二:登陆兴业银行数据仓库 DQC 管理系统,点击左边的 源数据文件接口定义维护源数据文件接口定义维护主题。 输入源表系统名或表名进行模糊查询;处理方法: 如果超过这个时间检查顺延,如果超过 1
8、0:30 源数据还没到 etl 服务器上则通知值班负责 人和客户,联系方式见客户和值班负责人联系清单.doc ,并记录异常到异常情况登记 及处理单_YYYYMMDD.doc中。1.1.3 下游系统数据是否全部给出下游系统数据是否全部给出每天上午 9:009:30,检查给下游系统的数据是否全部给出,这项工作非常重要, 仓库目前有很多应用,而导数及上传脚本并非都有时时报错机制,特别是上传脚本,本项 工作为检查上一日给下游供数情况。 具体操作如下: 1执行以下 SQL 如果返回结果为 0,表示所有下游脚本运行正常selectselect * fromfrom etlauto.etl_job wher
9、ewhere etl_system inin (SUB,ARM,AML,TSR,EBM,RPA,CS3,ICR,PMS) andand Last_JobStatus 程序netvaultmedia managent,查看磁带的使用情况 2.重点查看 L4_FS_ETL_SRC_G1,L4_FS_ETL_SRC_G2,L4_CIB_DAILY_DIC_G1,L4_NV_DB _G1,L4_NV_DB_G2,L4_TD_EBM_G1,L4_TD_EBM_G2. 永久备份的磁带空间是使用情况。 若发现磁盘满的情况,通知值班负责人和客户,并及时记录到异常情况登记及处理 单_YYYYMMDD.doc中。
10、1.41.4 异常处理异常处理异常处理工作由每日值班负责人来主导,和每日值班人共同完成。每日值班人员要详 细记录下整个处理过程。 异常处理流程如下: 1.找到问题原因,确定好处理方案。 2.通知值班负责人,通知客户,说清楚问题及处理办法。 3.得到客户授权,处理异常。1.51.5 备份备份数据仓库生产运行系统每天生产运行结束后需要备份源数据、运行脚本、日志、数据 库等进行备份,备份到磁带库进行存储,有永久和没日循环两种方式;备份方式是通过 automation 调度机制调度脚本来触发 netvalut 进行备份工作。1.5.1 前一天备份耗时前一天备份耗时值班人员必须每天 9:40 检查上日整
11、个备份开始到结束的时间,具体操作步骤如下: 1.打开数据库 sql assistant。 2.输入如下命令: sel a1.duration from (sel etl_system ,min(starttime) (timestamp(0) as start_time ,max(endtime) (timestamp(0) as end_time ,(end_time - start_time) hour to second(0) as duration from etlauto.etl_job_log where returncode=0 and txdate = 2009-11-05 /
12、*改成相应的数据日期*/ and etl_system = BAK/and etl_system not in (dqc) group by 1 ) a1 如果发现时间很长,需要通知值班负责人进行分析,找到原因后通知值班负责人和客 户,并及时记录到异常情况登记及处理单_YYYYMMDD.doc中。1.61.6 运维日志运维日志运维值班人员需每天做运维日志,以便随时查看系统的运行状况。根据 168.7.6.94 服 务器 E:zhangliang每日值班 目录下的兴业银行数据仓库运维日志 20090921.xls来进行 每日值班检查工作,并做如实填写。如发生了异常情况,请及时填写异常情况登记及处
13、 理单_YYYYMMDD.doc2 2定期维护定期维护2.1 94,95 服务器系统定期重启服务器系统定期重启由于批处理程序长期运行,程序并不能完全释放内存,时间久了系统缓存会被占用, 造成系统资源不足,导致程序运行失败。 具体操作步骤如下: 1.通知客户到了重启服务器的时间,每周五。 2.和客户一起共同完成这项工作。 3.重启之前关闭所有运行程序,注销调远程登陆用户。 4.点击重启按钮。 5.确定是否正常重启。 6.重启之后验证网络,TD 软件,automation 批处理调度软件是否正常。2.2 异常总结异常总结针对一段时间(一个月)的异常做个总结。定期对生产环境出现的错误进行分析。 具体
14、操作如下: 1将历史出错及处理方法都集中到一个 word 文档中,归纳。 2. 分析,总结,将一些建议写入到文档。 3. 将总结文档发给客户。/3事件触发维护事件触发维护3.1 软件下发维护软件下发维护主要是针对各种下发包进行的维护,当下发包中涉及到脚本更新时,需要对后续批处 理的 log 文件进行跟踪,确认下发的正确性;有 SDDL 或者 DLL 变动时,需要跟踪下一日 的批处理状态,保证加载和转换的正确性;新增接口时,需要跟踪新增的接口加载是否正 确等等。 具体步骤如下: 1接收软件下发配合通知 2确定上线时间,地点 3明确工作内容 4上线实施配合工作 5上线实施步骤复核 6系统上线后运行结果跟踪检查 7提交上线结果验证报告6.6.参考文档参考文档CS-00331-常规问题处理手册常规问题处理手册.doc EDW-OTH-O-001ETL 运行维护手册.doc EDW-SPE-D-002ETL Automation 用户手册.doc EDW-SPE-P-003 数据备份恢复方案.doc ETL 运行维护单检查手册.doc 异常情况登记及处理单_YYYYMMDD.doc