数据仓库系统运维操作手册.doc

上传人:美****子 文档编号:77543543 上传时间:2023-03-15 格式:DOC 页数:9 大小:55.50KB
返回 下载 相关 举报
数据仓库系统运维操作手册.doc_第1页
第1页 / 共9页
数据仓库系统运维操作手册.doc_第2页
第2页 / 共9页
点击查看更多>>
资源描述

《数据仓库系统运维操作手册.doc》由会员分享,可在线阅读,更多相关《数据仓库系统运维操作手册.doc(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、数据仓库生产环境操作手册一运维概述“数据仓库生产系统的运行维护责任在于保障系统运行,运维方式主要是操作员通过工作机远程登陆到系统中的相关主机,对主机进展操作,包括automation调度系统、数据库、磁盘、软件环境、数据情况等,查看批出理的运行情况,一旦运行出现问题作相应的记录并通知相关的技术人员,作出相应的处理。所有运维工程成员严格按照?文档来进展运维检查工作,否那么出现事故由值班人员和当日值班负责人承当事故责任。二运维内容1每日维护1.1数据检查每日批处理运行前运行完成后都需要对源头的数据和生产出的数据进展检查,确保当日批处理程序正常从事生产。检查工作在每日9:00-9:30之间完成,且必

2、须在启动程序批处理程序前执行。具体规定如下:.1 转定长数据的检查每天上午9:00-9:45之间,运维值班人员进展这项工作具体执行步骤如下:1.在本地工作机上使用telnet远程登录工具登录到168.7.6.163效劳器上,输入用户名sjtq,密码:cib2021edw,2.输入命令 cd EDW/sh/log3.输入命令 more yyyymmdd当天的日志,是否有错误信息,最后数据是否都上传完毕。4.以下错误属于正常情况:03:00:03 : 1.检查20211031标志文件失败 03:00:03 : 1.数据标志检查失败,等待5分钟(06001/dta_varied)正常等待情况5.检查

3、点如下:1每个大任务开场的初始化操作03:00:00 : = 0.环境变量设置完毕 =2数据装载,卸载,上传,整个模块处理完毕的情况。05:41:50 : = 2.装载Unl数据完毕 = 05:41:50 : -2.开场装载BAK数据- 05:41:50 : = 2.装载BAK数据完毕 = 05:41:50 : -3.开场卸载fix数据- 06:26:11 : =3.卸载fix数据完毕= 06:26:11 : -4.开场向批量数据交换平台送fix数据- 06001 send ok06001 send ok06002 send ok06002 send ok07002 send ok07002

4、send ok06027 send ok06027 send ok06:28:56 : =4.向批量数据交换平台送fix数据完毕= 06:28:58 : END“错误“,出错“字样。7.检查的模块有06001,input,06002,07002,06027几个模块的转定长情况,都要看到正常END完毕。8.检查日志中是否存在跑到一半或一局部就终止的现象。如果没有转换成功或数据晚到,时间顺延检查,并将异常情况汇报给当日值班负责人和客户,并记录异常到?异常情况登记及处理单_YYYYMMDD.doc?中。1.1.2 源数据是否全部到达数据仓库每日06:00定时触发加载。在正常情况下,数据仓库工程组要求

5、各系统源数据抽取必须在每日05:00之前完成,并传送到上海数据交换平台。如果数据抽取或传送出现错误,请源系统接口负责人在06:00前完成数据补导操作。加载触发之后,可以看到每台etlserver上都启动了和getall两个作业,其中脚本负责从数据交互平台获取源系统文件,getall脚本负责对源系统文件进展解压、格式检查,并将检查结果存放在DQC日志表中。检查方法:检查项检查方法查看AUTOMATION Monitor前台界面Running Job是否有,GETALL_ETL1,GETALL_ETL2任务是否正在运行。假设没有以上任务,说明从数据交换平台FTP数据已经完成。如果还在运行,说明有些

6、数据文件还未到达。2. 哪些接口文件未到达可能性一:数据交换平台没有该数据文件查看当日initall0090.pl脚本的日志,例如:ETLLOGCTL20060530,搜索关键字miss,就可以看到数据交换平台上哪些文件包括数据文件和标志文件未到3. 哪些接口文件未到达可能性二:FTP下载时发生错误方法一:查看脚本的日志,例如:ETLLOGCTL20060530 ,可以看到每个源系统数据的实时到达情况;方法二:登陆兴业银行数据仓库DQC管理系统,点击左边的源数据文件接口定义维护主题。输入源表系统名或表名进展模糊查询;处理方法:如果超过这个时间检查顺延,如果超过10:30源数据还没到etl效劳器

7、上那么通知值班负责人和客户,联系方式见?,并记录异常到?异常情况登记及处理单_YYYYMMDD.doc?中。1.1.3下游系统数据是否全部给出每天上午9:009:30,检查给下游系统的数据是否全部给出,这项工作非常重要,仓库目前有很多应用,而导数及上传脚本并非都有时时报错机制,特别是上传脚本,本项工作为检查上一日给下游供数情况。具体操作如下:1执行以下SQL如果返回结果为0,表示所有下游脚本运行正常 select * from etlauto.etl_job where etl_system in (SUB,ARM,AML,TSR,EBM,RPA,CS3,ICR,PMS) and Last_J

8、obStatus DONE and enable = 1and Last_txDate = 数据日期,表示所有下游脚本运行正常select count(*) from etlauto.etl_job where etl_system in (SUB,ARM,AML,TSR,EBM,RPA,CS3,ICR,PMS) and Last_JobStatus = DONE and enable = 1 and runningscript like %0110%and Last_txDate = 2009-11-053. 到168.7.6.94效劳器 E:zhangliang每日值班下游数据统计软件 目

9、录下运行程序,将运行结果和步骤2的结果进展比对。4如果发现有未给出的数据,那么查找原因,找到原因后通知值班负责人和客户,并记录异常到?异常情况登记及处理单_YYYYMMDD.doc?中. 数据库 STAGE区库空间检查值班人员每天早上9:00必须看数据库STAGE各子库的空间情况,MaxPerm是否比CurrPerm多20的空间,假设没有,需通知通知值班负责人即时处理。具体操作步骤如下:1. E:zhangliang每日值班统计库空间软件 目录下双击软件。2. 查看日志最近一次的统计结果,如果发现对应的库的per有超过90的使用率的就需要增加空间了。处理方法:如果空间缺乏需通知通知值班负责人分

10、配库空间。 APP_SPACE库空间是否足够值班人员每天早上10:30必须看数据库APP下面各子库的空间情况,MaxPerm是否比CurrPerm多20的空间,假设没有,需通知通知值班负责人即时处理。具体操作步骤如下:1. E:zhangliang每日值班统计库空间软件 目录下双击软件。2. 查看日志最近一次的统计结果,如果发现对应的库的per有超过90的使用率的就需要增加空间了。处理方法:如果空间缺乏需通知通知值班负责人分配库空间。 PDM库空间是否足够值班人员每天早上9:20必须看PMD下面各子库的空间情况,MaxPerm是否比CurrPerm多20的空间,假设没有,需通知通知值班负责人即

11、时处理。具体操作步骤如下:1. E:zhangliang每日值班统计库空间软件 目录下双击软件。2. 查看日志最近一次的统计结果,如果发现对应的库的per有超过90的使用率的就需要增加空间了。处理方法:如果空间缺乏需通知通知值班负责人分配库空间。 94、95磁盘空间是否足够值班人员每天早上9:10必须看168.7.6.94、168.7.6.95效劳器d盘、e盘空间情况检查方法:1 翻开“我的电脑,观察D盘,E盘磁盘空间,必须有30GB以上的剩余空间处理方法:30G的存储空间,需通知通知值班负责人及时清理垃圾文件。3.如果清理以后磁盘空间仍然缺乏,必须通知相关环境保障人员增加磁盘空间。1.3 E

12、TL批处理 AWS是否有报警显示硬件维护目前由客户方管理,因此节点硬件方面的巡检由客户方负责。 ETL AUTOMATION监控窗口是否存在异常作业 值班人员每个工作日9:0017:00必须每隔一段时间1015分钟之内看下ETL MONITOR监控窗口是否有failed的脚本错误提示或其它异常提示。具体操作如下:1. 翻开桌面上的程序,datasource输入etldb,用户名密码输入etlauto,etlauto。2. 查看是否有failed的脚本错误提示或其它异常提示。假设有发现,通知值班负责人,找到原因后通知客户,并记录异常到?异常情况登记及处理单_YYYYMMDD.doc?中。 Job

13、状态是否正常值班人员每个工作日9:0017:00必须每隔一段时间10-15分钟之内看下ETL MONITOR监控窗口是否有failed的脚本错误提示或其它异常提示。具体操作如下:1翻开桌面上的程序,datasource输入etldb,用户名密码输入etlauto,etlauto。2查看是否有failed的脚本错误提示或其它异常提示。3假设有发现,通知值班负责人,找到原因后通知客户,并记录异常到?异常情况登记及处理单_YYYYMMDD.doc?中。数据日期的转换作业完成时间CTLALL的时间值班人员必须每个工作日下午13:30之前看下etljob ctlall是否完成,记录完成时间。具体操作步骤

14、如下:1. 到168.7.6.94 效劳器E:ETLLOGCTL目录下查看当日日期的ctlall的日志时间。如果在13:30还未完成,通知值班负责人并一同查找原因,通知客户,并记录异常到?异常情况登记及处理单_YYYYMMDD.doc?中。监控窗口是否存在长时间running 或者pending的作业值班人员每个工作日9:0017:00必须每隔一段时间10-15分钟看下ETL MONITOR监控窗口是否有。具体操作如下:1翻开桌面上的程序,datasource输入etldb,用户名密码输入etlauto,etlauto。2.看监控界面是否有很长时间都处于pending或running状态的脚本

15、假设发现有一些脚本很长时间都处于pending或running状态的脚本。假设有发现,通知值班负责人,找到原因后通知客户,并记录异常到?异常情况登记及处理单_YYYYMMDD.doc?中。上日ALLDONE状态值班人员必须每天9:00看下上日alldone的时间。1. 到168.7.6.94 效劳器E:ETLLOGCTL目录下查看上一日期的alldone的日志时间。假设有发现异常情况,通知值班负责人,找到原因后通知客户,并记录异常到?异常情况登记及处理单_YYYYMMDD.doc?中磁带空间是否足够值班人员必须在每天11:50之前查看磁带是否有足够的空间,以便数据备份需要。具体操作步骤如下:1

16、. 开场程序netvaultmedia managent,查看磁带的使用情况2. 重点查看L4_FS_ETL_SRC_G1,L4_FS_ETL_SRC_G2,L4_CIB_DAILY_DIC_G1,L4_NV_DB_G1,L4_NV_DB_G2,L4_TD_EBM_G1,L4_TD_EBM_G2.永久备份的磁带空间是使用情况。假设发现磁盘满的情况,通知值班负责人和客户,并及时记录到?异常情况登记及处理单_YYYYMMDD.doc?中。1.4 异常处理异常处理工作由每日值班负责人来主导,和每日值班人共同完成。每日值班人员要详细记录下整个处理过程。异常处理流程如下:1. 找到问题原因,确定好处理方

17、案。2. 通知值班负责人,通知客户,说清楚问题及处理方法。3. 得到客户授权,处理异常。备份数据仓库生产运行系统每天生产运行完毕后需要备份源数据、运行脚本、日志、数据库等进展备份,备份到磁带库进展存储,有永久和没日循环两种方式;备份方式是通过automation调度机制调度脚本来触发netvalut进展备份工作。 前一天备份耗时值班人员必须每天9:40检查上日整个备份开场到完毕的时间,具体操作步骤如下:1.翻开数据库sql assistant。2.输入如下命令:from(seletl_system ,min(starttime) (timestamp(0) as start_time,max(

18、endtime) (timestamp(0) as end_time,(end_time - start_time) hour to second(0) as duration where returncode=0and txdate = 2009-11-05 /*改成相应的数据日期*/and etl_system = BAKand etl_system not in (dqc)group by 1) a1如果发现时间很长,需要通知值班负责人进展分析,找到原因后通知值班负责人和客户,并及时记录到?异常情况登记及处理单_YYYYMMDD.doc?中。运维日志运维值班人员需每天做运维日志,以便随时

19、查看系统的运行状况。根据168.7.6.94效劳器 E:zhangliang每日值班 目录下的?来进展每日值班检查工作,并做如实填写。如发生了异常情况,请及时填写?异常情况登记及处理单_YYYYMMDD.doc?2定期维护2.1 94,95效劳器系统定期重启由于批处理程序长期运行,程序并不能完全释放内存,时间久了系统缓存会被占用,造成系统资源缺乏,导致程序运行失败。具体操作步骤如下:1.通知客户到了重启效劳器的时间,每周五。2.和客户一起共同完成这项工作。3.重启之前关闭所有运行程序,注销调远程登陆用户。4.点击重启按钮。5.确定是否正常重启。6.重启之后验证网络,TD软件,automatio

20、n批处理调度软件是否正常。2.2 异常总结针对一段时间一个月的异常做个总结。定期对生产环境出现的错误进展分析。具体操作如下:1将历史出错及处理方法都集中到一个word文档中,归纳。2. 分析,总结,将一些建议写入到文档。3. 将总结文档发给客户。3事件触发维护3.1 软件下发维护主要是针对各种下发包进展的维护,当下发包中涉及到脚本更新时,需要对后续批处理的log文件进展跟踪,确认下发的正确性;有SDDL或者DLL变动时,需要跟踪下一日的批处理状态,保证加载和转换的正确性;新增接口时,需要跟踪新增的接口加载是否正确等等。 具体步骤如下:1接收软件下发配合通知2确定上线时间,地点3明确工作内容4上线实施配合工作5上线实施步骤复核6系统上线后运行结果跟踪检查7提交上线结果验证报告?CS-00331-常规问题处理手册.doc?EDW-SPE-P-003数据备份恢复方案.doc?ETL运行维护单检查手册.doc?异常情况登记及处理单_YYYYMMDD.doc?

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 文案大全

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁