灾备演练就是通过假设某种灾难场景,主动进行应急演练,验证灾备系统的灾难恢复预案是否合理,是否能够达到项目初期期望的灾备效果的过程。
通常,灾备系统的建设会参考各自业务系统要求、预算等因素而不同,最后建成的灾备系统大致分为三种:数据级、应用级、业务级。这三种级别的灾备系统具有不同的RTO和RPO。灾备演练就是根据某种灾备类型中的某一特定的场景而进行的,灾难场景不同、灾备业务复杂度不同,灾备演练的技术过程与周期也不相同。
灾备演练包括哪些内容?
进行灾备演练之前,首先需要明确本次灾备演练的实现目标。根据实现目标,依次做相应的演练测试,比如:
系统更新、调整,原有的灾难恢复预案是否仍然有效?灾备系统是否需要进行有效的更新?系统切换流程、步骤是否有遗漏和错误?灾备系统的切换时间是否可以满足业务的恢复需要?
灾备演练的三种常见方式:桌面演练、模拟演练和实际演练
桌面演练
桌面演练也叫“沙盘推演”,是最基础的灾备演练方式。通过对初始灾难恢复预案的一个理论验证,进而测试急响应预案和灾难恢复体系的完整性和有效性,使相关人员了解应急响应及业务恢复流程,全面验证技术及业务管理指挥、流程操作、协调配和等方面的综合能力。
桌面演练工作量小,易于实施,可以根据实际需求灵活开展,并可以模拟多个场景。
模拟演练
模拟演练以桌面演练结果为基础,由IT部门与相关业务部门参加模拟演练,采用模拟数据和模拟业务系统运行演练。模拟演练的过程高度接近真实灾难发生时的处理过程,通过演练可以检验灾备系统的可用性、灾难恢复预案的可行性以及增加参演人员对灾难处理过程的感知度与配合的默契度。
模拟演练是一种对现有生产环境没有影响的演练方式,由于需要虚拟出较为真实的使用场景,因此在技术上的要求较高。
实际演练
实际演练需要灾备中心真正接替生产运行一段时间,实际演练是在具体设定的灾难场景下,将业务切换到灾备中心及业务恢复环境,并在完成数据、应用及业务恢复后由灾备系统提供对内对外的业务服务,原来的生产环境可以进行必要的系统维护或为灾备环境提供备份支持。
作为灾备演练的最高的阶段,他的场景最为真实,更易于发现潜在问题并进一步完善灾备系统,但随之而来的就是演练成本的提高。
验证已建成灾备系统的可用性、有效性,通过演练结果来修正、补充、完善灾备恢复预案并为灾备系统的升级建设提供理论依据及数据指标,从而使企业在灾备建设中有据可依,保证建成的灾备系统能充分实现建设的目的、达到建设的目标。这就是灾备演练的意义所在。
最后提醒
世界上没有完全相同的两套系统。所以无论我们搭建的模拟环境与真实环境是多么的接近,它都不是真正的真实环境。在模拟的环境中取得的演练效果,不可能完全证明灾备演练在真实环境下的效果。
所以,有条件的用户,还是应该在各种条件都准备好的前提下,进行真实业务系统的演练。
xx公司SAP灾备系统演习
xx公司的ERP灾备系统已搭建起来,主机房位于xx公司公司平南总部,主要设备有两台IBM P570小机分别做ERP数据库服务器和应用服务器,一台IBM DS4800存储,一台IBM B16和一台IBM H08光纤交换机;灾备机房位于惠河厂内,主要设备分别为一台IBM P570服务器路ERP数据库和应用,一台IBMDS4700存储,一台IBMB16光纤交换机。通过裸光纤连接主、备机房的两台IBM B16光纤交换机来实时同步复制主机房与灾备机房两台存储的数据以实现ERP系统的灾备功能。
附:某单位灾备演练计划表
2月2日:
灾备演练前告知灾难管理小组及相关业务部门提前做好准备工作。
一、【容灾演习-第一阶段开始】
1、7点钟灾难发生(模拟南汇生产机房火灾,导致服务器、网络设备受损严重、各业务均不可访问)。
2、7时32分完成灾难确认及灾难评估,同步上报灾难管理小组决策是否进行灾备切换。
3、7时50分灾难管理小组组长决策进行灾备切换,按既定流程,确定于8:00准时开始切换核心营运系统到无锡灾备中心,预计10:00恢复核心系统及周边系统。
4、7时50分内部门户发布灾备演练维护通知,计划于 2014-12-21 10:00 切换完成,涉及业务操作详情请各业务部门咨询各事业部解决方案推广小组。
5、8时xx官网发布《xx系统升级告客户书》,并实时记录业务量情况,每半小时展现一次数据。
6、8时灾备切换执行团队进行切换,灾备切换进度实时通过进度工具展现。切换工作按照预期计划正常进行,整体进展顺利。
7、截止9时00分核心营运系统等10个系统已切换至灾备中心,同步进行灾备中心内网功能验证工作。预计10点灾备中心开始对外提供服务。
8、截止9时30分核心营运系统及周边相关系统等10个系统切换至灾备中心后,灾备中心内网功能验证工作已完成,所有系统验证正常,9时30分灾备中心开始正式对外提供服务,其它切换工作按照预期计划正常进行,整体进展顺利。同步进行业务回访,涉及异常由各事业部解决方案推广组进行对接解决。实时查看业务开单量及灾备系统、网络运行状况。
9、9时30分内部门户更新灾备演练维护通知,计划于 2014-12-21 12:00 关闭使用并进行回切操作。
二、【容灾演习-灾难回切评估】
1、回切软硬件条件具备 ;数据反向同步和校验完成;回切方案就绪;
2、回切成本评估:①业务中断时间:12时00分~14时00分为业务操作低峰期,期间业务可采用线下执行,系统恢复后补录; ②数据丢失量:0数据丢失;
3、评估结论:生产机房具备回切条件,回切时间处于业务低峰,建议12:00开始回切操作。灾难管理小组组长决策进行容灾切换回切操作。
三、【容灾演习-第二阶段】
1、12时整内部门户更新灾备演练维护通知,计划于 2014-12-21 14:00 回切完成恢复正常使用。
2、截止12时30分核心营运系统及周边相关系统等10个系统已回切至生产南汇中心,同步进行生产中心内网功能验证工作。预计12时50分生产中心开始对外提供服务。
3、截止12时50分回切至生产中心后,生产中心内网功能验证工作已完成,所有系统验证正常;12时50分上海生产中心开始正式对外提供服务,其它切换工作按照预期计划正常进行,整体进展顺利。
四、【容灾演习-演习结束】
总结过程经验及流程改进。
同城灾备系统演练测试情况统计表
一、参加测试单位 各会员单位远程交易席位 一、测试项目 (一)会员单位远程交易席位能够连通郑商所同城灾备系统交易前臵机;会员单位能够连通郑商所灾备中心会员服务系统; (二)会员单位远程交易席位能够连通、登录郑商所同城灾备系统进行下撤单操作、接收行情、成交和查询等各种功能; (三)会员单位使用同城灾备中心会员服务系统进行网上业务办理、查询、报表接收。
本文转自:转自中国存储网http://www.chinastor.com/baike/dr/0Q3393S2018.html