第一篇:灾难恢复计划制度
灾难恢复计划
一、灾难的定义
灾难分为自然灾害和非自然灾害。自然灾害是指由火灾、地震等引发的一系列灾害直接导致公司的业务中断、电力故障、网络故障等。
非自然灾害是指人为的造成的如服务器断电、软件错误、人为故意破坏、恶意代码、木马植入、恐怖袭击等。
二、灾难恢复项目小组的制定和职能
1.管理组:统筹规划,指挥各小组按照既定计划进行执行。
2.部门恢复组:负责制定各部门情况制定应急备案,确定各部门数据和财产的保护方式并执行保护,确定各部门数据的恢复方式并执行恢复。
3.计算机恢复组:负责对全公司范围内的计算机故障进行排除、恢复范围包括系统、必备办公软件。
4.损坏评估组:负责对公司损失的重要数据、财务进行总体评估。并针对相应损失的财产进行汇总并结合拥有的保险进行申报。
5.安全组:负责灾难发生后的人员、数据、财务的安全进行保护。并制定相应的安全策略。
6.设备支持组:负责对公司服务器、网络设备、交换机的故障进行排除,制定相应解决重建方案。
7、数据恢复组:负责对公司各平台数据进行恢复,并制定相应数据恢复方案。
8、市场和客户关系组:负责对外进行信息发布、制定相应应急措施应对客户疑问等。各小组共同职能:
a)负责计划的执行
b)与其它组之间进行信息交流,监督计划的测试和执行 c)所有或是某一个成员可能领导特定的组 d)协调恢复过程
e)评估灾难,执行恢复计划,联系组长 f)监控并记录恢复的过程
三、业务恢复流程
(一)自然灾害引起的灾难恢复流程 由自然灾害引起的灾难往往影响较大,可能会直接导致一些基础设施的无法使用,甚至会对导致人员减少。因此对于自然灾害引发的灾难恢复流程相对特殊且繁琐。1.数据抢救
灾难发生时,需在保证人身安全的情况对公司的重要数据进行抢救,抢救的范围主要包括:记录公司重要信息的文件、资料,存储公司重要数据的磁带,存放重要数据的硬盘、服务器。此过程需由安全组进行统筹指挥,按照既定的计划执行,各组成员、公司员工必须服从安全组的统一调度和指挥。2.损坏评估及启动应预案
灾难发生后各小组需根据情况汇报损失情况给损坏评估组,损坏评估组根据汇总信息进行消息告知披露。披露损坏信息包括: a)公司重要生产、监视测量、办公设备
b)拥有在可以执行计划之内的关键性功能的员工 c)保存公司重要数据的介质 d)网络、通讯设备
各小组人员根据披露的损坏信息情况进行应急预案启动,如选举临时领导、使用备份服务器、备份通讯设备进行替代等。3.业务恢复计划
业务恢复计划需要多个小组支持与配合,总体可划分为以下几个阶段: a)IT基础设施恢复阶段:
此阶段主要的目标是将对于保存数据的基础设施、业务系统所在的主机、公司网络架构进行恢复。首先须根据损失评估小组给出的报告分析可继续利用的IT基础设施,如供电设施、交换机、服务器、防火墙等。若有损坏不可用的设备,需及时同代理商进行沟通借用或新购相应设备。此阶段由设备支持组执行。
b)系统恢复阶段:
系统恢复主要针对关键应用主机,如金蝶软件。为节约时间需同时针对各个服务器系统进行快速恢复。此阶段由数据恢复组执行。
c)网络恢复阶段:
网络恢复阶段的主要针对以下几点进行:
关键商业应用系统的内部局域网和网络设备的支持 外部广域网和电信服务
待恢复系统和终端用户(公司同事)间的通讯 此阶段由数据恢复组同设备支持组共同执行。
d)业务平台恢复阶段:
在此阶段的恢复工作主要围绕日常工作常用的业务平台进行,常用的业务平台主要为:企业QQ、QQMail、OA、ERP等。平台恢复的工作分为两个部分:
业务系统数据恢复 业务系统重搭建 业务系统数据导入 业务系统数据恢复: 数据恢复小组首先须对业务系统的数据进行恢复,需要寻找相应的恢复设备完成此操作,目前我们主要利用硬盘和可正常工作的主机进行数据恢复工作。需要将抢救出的硬盘接连在对应设备上恢复出数据。
业务系统重搭建: 为提高业务恢复效率,数据恢复小组成员需分工协作,共同完成业务系统的重搭建工作,由于一些业务系统的特殊性,需尽快与相应平台的供应商接口人取得联系,并申请临时可用的加密狗、许可文件等。各个平台负责人需对自己管理的平台在短时间
内进行重搭建。业务系统数据导入:
数据恢复小组成员需根据导出的数据结合自己管理的业务平台进行数据导入,并测试可行性。再导入成功并可使用后及时同个小组成员负责人进行通知。
(二)非自然灾害引起的灾难恢复流程
非自然灾害引起的灾难恢复通常破坏较小,但是风险程度仍不可忽视,如电力故障导致的关键业务系统无法运行同样会给我们的公司带来一定的影响。但由于破坏程度的不同,我们将引入业务持续计划(BCP)这样一个概念。
业务持续计划是为了防止正常业务行为的中断而被建立的计划。当面对由于人为造成的故障或灾难以及由此造成的财产损和正常业务不能正常使用时,BCP主要被设计用来保护关键业务步骤。BCP是最小化对于业务的干扰效果和使业务能恢复正常运行的计划。
RTO(Recovery Time Object)恢复时间是指EIA部门同公司签订的故障响应恢复时间,如确保在1小时内排除故障,使业务系统重新恢复工作。
RPO(Recovery Point Objective)恢复点目标,该指标规定在灾难发生后,公司所能够容忍的数据丢失量,该指标由EIA部门同公司签订。
对于RTO和RPO目标的实现,需要人力、物力的支持,因此对于高效,最小化的BCP指标,往往也会花费大量的财力资源。在执行业务持续计划的同时,由于造成的灾难和破坏性并不严重,因此可直接进入业务平台恢复阶段。
第二篇:灾难恢复计划
部署灾难恢复计划时最易忽略的九大事
件
2011-07-09 15:52来源:论坛论坛我要评论(0)
摘要:本文简单的介绍了在部署灾难恢复计划时比较容易忽略那些,而忽略了这些对企业会造成怎样的损失呢?这是难以想象的,本文就为大家列出了在部署灾难恢复计划时最易忽略的九大事件。 标签:灾难恢复计划
谁都知道用有一个有效的灾难恢复计划的重要性。那么,在部署灾备方案的时候,有哪些重要的因素被忽视了?基于对数以千计的中小型用户的调查,我们列出了大家最易忽略的九件事。
1.没有考虑到可能会破坏基础设施和数据运行的所有可能性
除了显而易见的病毒,木马,蠕虫等威胁,还需要想到您所处的地理位置发生自然灾害的可能性,比如是否处于地震断层或是在洪水区,风暴多发区,或拉闸限电等等。在制定灾备计划时,一定要把这些看似与IT无关的因素也考虑进去,如果自然条件实在太恶劣,劝您可以考虑换个地方建设数据中心。
2.灾备计划过于依赖很少的某几个员工
常常看到有些企业的 灾难恢复计划依赖于某几个甚至一个IT员工,这很危险。万一如果该人由于某种原因无法工作或者刚好找不到他/她怎么办?您需要确定员工也得有“备份”,矩 阵式结构的雇员组织形式会更好的做出应急响应。而且负责灾备的员工分布的地理位置最好是分散的,以防某一地区发生重大灾害。
3.故障或灾难来临时,依靠手工流程通知工作人员
假设您的设备由于停电而终断运行,可是现场又没有人,负责灾备的IT人员怎么会知道机房停电了?您需要建立一套自动化的系统,发生灾难或者服务终断时它可以自动的通知您的IT员工。你还可以选择第三方服务,请服务商来监控您的设施并且指派受过灾备培训的专业人员来帮你执行你的灾难恢复计划。
4.未能提供充足的后备电源
如果您的机房所在地常受到断电影响,一定要购买寿命最长的、最不易受干扰而间断的电力供应。还要准备好额外的备用电池以保证业务的持续能力。
5.忘记安排哪些资源需要优先恢复
您的IT应用中,哪些是最重要的?是否有一些可以等待一两天也不会影响到业务?你需要事先安排好应用与服务的恢复顺序。比如,你可以选择首先重启您公司的电子邮件应用,然后再恢复部门文件服务器。在安排这个顺序时,你需要考虑到相关的法规遵从要求.6.未制定规范灾难恢复计划流程文档
在制订了一套灾备计划之后,您一定要把如何执行恢复计划的步骤写下来,要详细到每一个进程以及记录,描述所有系统资源的位置。这个灾备恢复步骤手册一定要多印几份,并且存储在多个不同的地方,并确保所有关键恢复人员人手一份。
7.忘记测试灾难恢复计划
确保恢复计划在有紧急状况时真的可以恢复出来!虽然这似乎是显而易见的事,但是许多企业都忽视了这一点,没有充分测试他们的灾备恢复计划。应该定期进行灾难演习,测试每种可能发生的情况,从基本的电力故障到可能导致持续几个月的重大灾难性事件。
8.密码也很难找到
虽然密码保护是数据安全的重要环节,不过还是建议您最好至少在两个不同的、安全的地方保存您的系统密码。确保一个以上的IT工作人员的人有机会进入那里,并能获得所有密码。并且,如果这些关键人员辞职了,一定要及时更改密码。
9.未能保持恢复计划的更新
您需要不断更新您的灾难恢复计划,至少一个季度要再看一次。确定调用该计划的触发点,如人员、设备、地点或应用的改变等等。这不仅有利于IT工作人员的技能保持更新,还将让你有机会发现灾备计划程序中的漏洞并优化之。
以上就是为大家总结的在部署灾难恢复计划时最容易忽略的问题,希望通过本文的内容能对大家有所帮助。
第三篇:灾难恢复计划V1.0
灾难恢复计划
一、灾难的定义
灾难分为自然灾害和非自然灾害。
自然灾害是指由火灾、地震等引发的一系列灾害直接导致公司的业务中断、电力故障、网络故障等。
非自然灾害是指人为的造成的如服务器断电、软件错误、人为故意破坏、恶意代码、木马植入、恐怖袭击等。
二、灾难恢复项目小组的制定和职能
1.管理组:统筹规划,指挥各小组按照既定计划进行执行。2.部门恢复组:负责制定各部门情况制定应急备案,确定各部门数据和财产的保护方式并执行保护,确定各部门数据的恢复方式并执行恢复。
3.计算机恢复组:负责对全公司范围内的计算机故障进行排除、恢复范围包括系统、必备办公软件。
4.损坏评估组:负责对公司损失的重要数据、财务进行总体评估。并针对相应损失的财产进行汇总并结合拥有的保险进行申报。5.安全组:负责灾难发生后的人员、数据、财务的安全进行保护。并制定相应的安全策略。
6.设备支持组:负责对公司服务器、网络设备、交换机的故障进行排除,制定相应解决重建方案。
7、数据恢复组:负责对公司各平台数据进行恢复,并制定相应数据恢复方案。
8、市场和客户关系组:负责对外进行信息发布、制定相应应急措施应对客户疑问等。各小组共同职能: a)负责计划的执行
b)与其它组之间进行信息交流,监督计划的测试和执行 c)所有或是某一个成员可能领导特定的组 d)协调恢复过程
e)评估灾难,执行恢复计划,联系组长 f)监控并记录恢复的过程
三、灾难恢复流程
(一)自然灾害引起的灾难恢复流程
由自然灾害引起的灾难往往影响较大,可能会直接导致一些基础设施的无法使用,甚至会对导致人员减少。因此对于自然灾害引发的灾难恢复流程相对特殊且繁琐。1.数据抢救
灾难发生时,需在保证人身安全的情况优先对公司的重要数据进行抢救,抢救的范围主要包括:记录公司重要信息的文件、资料,存储公司重要数据的磁带,存放重要数据的硬盘、服务器。此过程需由安全组进行统筹指挥,按照既定的计划执行,各组成员、公司员工必须服从安全组的统一调度和指挥。2.损坏评估及启动应预案
灾难发生后各小组需根据情况汇报损失情况给损坏评估组,损坏评估组根据汇总信息进行消息告知披露。披露损坏信息包括: a)公司重要生产、监视测量、办公设备 b)拥有在可以执行计划之内的关键性功能的员工 c)保存公司重要数据的介质 d)网络、通讯设备
各小组人员根据披露的损坏信息情况进行应急预案启动,如选举临时领导、使用备份服务器、备份通讯设备进行替代等。3.业务恢复计划
业务恢复计划需要多个小组支持与配合,总体可划分为以下几个阶段: a)IT基础设施恢复阶段:
此阶段主要的目标是将对于保存数据的基础设施、业务系统所在的主机、公司网络架构进行恢复。首先须根据损失评估小组给出的报告分析可继续利用的IT基础设施,如供电设施、交换机、服务器、防火墙等。若有损坏不可用的设备,需及时同代理商进行沟通借用或新购相应设备。此阶段由设备支持组执行。
b)系统恢复阶段:
系统恢复主要针对关键应用主机,如Rasd-server、IBM、Center-server、BJTCT。为节约时间需同时针对各个服务器系统进行快速恢复。此阶段由数据恢复组执行。
c)网络恢复阶段: 网络恢复阶段的主要针对以下几点进行:
关键商业应用系统的内部局域网和网络设备的支持 外部广域网和电信服务
待恢复系统和终端用户(公司同事)间的通讯 此阶段由数据恢复组同设备支持组共同执行。d)业务平台恢复阶段:
在此阶段的恢复工作主要围绕日常工作常用的业务平台进行,常用的业务平台主要为:Winmail、Change、Doors、Synergy、OA、ERP等。平台恢复的工作分为两个部分:
业务系统数据恢复 业务系统重搭建 业务系统数据导入 业务系统数据恢复:
数据恢复小组首先须对业务系统的数据进行恢复,需要寻找相应的恢复设备完成此操作,目前我们主要利用磁带机和可正常工作的主机进行数据恢复工作。需要将抢救出的磁带和硬盘接连在对应设备上恢复出数据。
业务系统重搭建:
为提高业务恢复效率,数据恢复小组成员需分工协作,共同完成业务系统的重搭建工作,由于一些业务系统的特殊性,需尽快与相应平台的供应商接口人取得联系,并申请临时可用的加密狗、许可文件等。各个平台负责人需对自己管理的平台在短时间 内进行重搭建。
业务系统数据导入:
数据恢复小组成员需根据导出的数据结合自己管理的业务平台进行数据导入,并测试可行性。再导入成功并可使用后及时同个小组成员负责人进行通知。
(二)非自然灾害引起的灾难恢复流程
非自然灾害引起的灾难恢复通常破坏较小,但是风险程度仍不可忽视,如电力故障导致的关键业务系统无法运行同样会给我们的公司带来一定的影响。但由于破坏程度的不同,我们将引入业务持续计划(BCP)这样一个概念。
业务持续计划是为了防止正常业务行为的中断而被建立的计划。当面对由于人为造成的故障或灾难以及由此造成的财产损和正常业务不能正常使用时,BCP主要被设计用来保护关键业务步骤。BCP是最小化对于业务的干扰效果和使业务能恢复正常运行的计划。
RTO(Recovery Time Object)恢复时间是指EIA部门同公司签订的故障响应恢复时间,如确保在1小时内排除故障,使业务系统重新恢复工作。
RPO(Recovery Point Objective)恢复点目标,该指标规定在灾难发生后,公司所能够容忍的数据丢失量,该指标由EIA部门同公司签订。
对于RTO和RPO目标的实现,需要人力、物力的支持,因此 对于高效,最小化的BCP指标,往往也会花费大量的财力资源。在执行业务持续计划的同时,由于造成的灾难和破坏性并不严重,因此可直接进入业务平台恢复阶段。
一. 日常备份检查
1.日常服务主机按时定期做备份,分为两类:
主机备份:主机备份应在每周,确认服务运行正常后,制定备份计划和类型,并指定备份时间应为网络最空闲时。在自动执行计划后,应确认备份是否完整,是否有错误
数据备份:数据备份应做每日备份,确定需要备份的数据库,制定每日备份和备份类型。每日,数据库管理人员应对前一日的备份,进行检查,确认备份是否成功完整。
2.日常备份检查
日常备份检查应由网络部主管人员不定期或定期指定检查,查看备份时间是否符合备份规定,备份文件是否完整,存放是否规整。
3.备份空间检查
日常由网络管理人员检查备份空间是否充足,如空间紧张,应提前把距离最远的备份文件,存放至指定存储介质中,网络部管理人员应对存储介质存放进行检查,查看存放空间是否达到防潮防磁,并对存储介质进行封存 灾难恢复制度:
1.灾难级别划分
A类:计算机软硬件故障
发生概率:对于企业,发生可能性最大。由于设备长时间运行,升级硬件所造成。状况有(服务停止,正常业务不能办理)
B类:人为操作故障
发生概率:日常工作中员工对于本部门的资源进行更新或维护,由于不正当操纵或误操纵造成文件损坏或丢失。状况有(个别部门文件丢失,使得部门正常办公受到阻碍)
C类:资源不足引起的计划性停机
发生概率:由于操纵系统软件或硬件资源不足所造成的系统;服务宕机,造成的数据丢失或损坏。状况有(服务器无法正常提供服务,重启后无效,需要转移服务,升级维修服务器)
2.相对应级别的处臵方法
当发生时。应先报告网络维护人员,由灾难鉴定小组进行灾难鉴定,确定灾难级别,上报灾难小组组长,并对灾难发生时间,解决方法,恢复时间进行记录。
2.1 发生A类灾难时,灾难鉴定人员确定灾难级别后,上报灾难恢复组组长,确定恢复方案,排除硬件原因,在主机正常启动后,检查缺失的文件或不能正常启动的服务,上报灾难组组长,并准备备份文件,进行恢复。进行恢复后,由恢复后检查人员检查主机是否恢复正常服务,文件是否完整且可以被正常访问,检查无误后。上报灾难恢复小组组长,并对灾难恢复的过程进行记录。
2.2 发生B类灾难时,灾难发现人应及时上报网络部及灾难恢复小组组长,明确丢失的文件,确定文件丢失原因,并对丢失原因和责任人进行记录。由丢失文件部门提出书面“恢复文件申请”,由灾难鉴定确定丢失文件,在灾难恢复小组组长批准后,准备备份文件恢复。恢复后,由丢失文件所在部门进行确认。
2.3 当发生C类灾难,由灾难鉴定人员确定主机故障,并上报灾难恢复小组组长:
2.3.1 确认为主机操纵系统故障或硬件资源不足所引起宕机时,先确认该主机是否为应用服务器(如是应用服务器,应先断开该主机的网络连接),如有需要,应及时转移服务,由其他服务器代为承接业务。故障主机再进行维修。
2.3.2 如确认系统不能正常运行,但通过短时间维护(不超过2小时)可以恢复正常,报请灾难恢复小组组长,并对原因进行说明。在得到批准后,实行对主机的全面恢复(在断开主机网络连接后,回复到最近一次的正常备份状态)。在恢复后由恢复检查人员对主机进行检查,确认主机确实恢复后,再接入网络,恢复后检查人员应在48小时内对恢复后的主机密切关注,确实恢复正常后,报告灾难恢复小组组长。并对主机恢复情况留有详细记录,以备后续检查
第四篇:信息系统灾难恢复计划
XXXX有限公司文件
信息系统灾难恢复计划
为应对突发的各项灾难(如:地震、强台风、洪水、地坑等自然灾难和恐怖分子、黑客等人为破坏),保障电脑、网络信息安全,做好反恐工作,特制定本计划。
一、信息系统灾难恢复组织机构:
成立“信息系统反恐小组” 专门应对信息系统灾难恢复。组长:XXX(行政部经理)电话:XXX
副组长;XX(保安主管)电话:XX
组员;
XXX(电脑工程师、网管)电话:XXX
XXX(机要室机要员)电话:XX
XXX(专业电工)电话:XXXX
XXX(生产部经理)电话:XXX
XXX(样品管理主管)电话:XXXX
XXXX(设计师)电话:XXXX
二、信息系统灾难恢复时间要求:
为保障设计、开发、生产的正常运行,一旦发生信息系统灾难,立即启动信息系统反恐应急预案,确保在4小时内恢复信息系统。
三、信息系统反恐应急预案
1.信息系统灾难发生时,应在第一时间向“信息系统反恐小组”报告报告电话:6021137
2.信息系统反恐小组接到报告后,按如下分工,各就各位,展开工作:XXX;全面负责信息系统灾难恢复中的协调、指挥、人员分工、材
料供应等各项工作。
XXX;负责电讯、网络公司的沟通、协调工作,并按反恐预案的要
求,组织保安人员做好厂区各项反恐工作。
XXX:负责电脑消除病毒,系统及网络恢复、文件和数据的拷贝,保证信息系统及时运作。
XXX:机房、机柜、线路的硬件更换、修复。
XXX、XXX、XXXX、XXXX、XXXX:
在电脑工程师指导下,分别负责制作一部、制作二部样品管
理部门、设计部、行政部和机要室、财务部的电脑消除病毒,系
统及网络恢复、文件和数据的拷贝,保证信息系统及时运作。
3.信息系统灾难检查、验收:
由“信息系统反恐小组”牵头,会同设计、开发、生产、销售、财务部门经理,在信息系统灾难恢复结束时进检查、验收。
四、规范管理,认真做好信息系统灾难预防工作
1.一般工作机不安装软驱和光驱,如有安装软驱和光驱的计算机,每次使用磁盘都要用杀毒软件检查。.对于联网的计算器,任何人在未经批准的情况下,不得向电脑
内拷入软件或文件。.重要资料存入数据库中,并每日备份,数据的备份由机要室机要员管理,备份用的硬盘交公司电脑网络管理工程师保管。.软盘光盘等在使用前,必须确保无病毒。.电脑一经发现病毒,应立即通知机要室机要员处理。.操作员在离开前应退出系统并关机。.任何人未经操作员本人同意,不得使用他人的计算机。
8.装有软驱的电脑一律不得入网;对于尚未联网电脑,其软件的安装由机要室负责、任何电脑需安装软件时,由相关人员负责
人提出书面报告,经经理同意后,由机要室负责安装;软件出
现异常时,应通知机要室机要员处理;所有电脑不得安装游戏
软件;数据的备份由机要室机要员管理,备份用的软盘由电脑
工程师负责人提供。
9.硬件维护人员在拆卸电脑时,必须由专业人员负责所有微机的检测和清理工作,采取必要的防静电措施;硬件维护人员在作
业完成后或准备离去时,必须将所拆卸的设备复原;要求各专
业负责人认真落实所辖电脑及配套设备的使用的保养责任;要
求各专业负责人采取必要措施,确保所用的电脑及外设始终处于整洁和良好的状态;所有带锁的电脑,在使用完毕或离去前必须上锁;对于关键的电脑设备应配备必要的断电保护电源。
10.所有电脑不得上网,上网统一到机要室,在机要员的管理下
专机上网。电子邮件的收发,统一由机要室管理。除机要室电脑外所有电脑的外接口全部封闭。
11.密码由机要室统一设置,并每季定期更换密码,如发现密码己
泄漏,就尽快更换,做好保密和存档记录。
12.不要随便运行或删除电脑上的文件或程序。
13.对公司辞职人员的电脑由负责人立即更改电脑密码,保密电脑
内文件。
五、每半年一次信息系统灾难应急培训、研讨。
六.每半年一次信息系统灾难应急演习。
XXXXX有限公司
2011年2月14日
第五篇:灾难恢复计划
灾难恢复计划
一、灾难的定义
灾难分为自然灾害和非自然灾害。
自然灾害是指由火灾、地震等引发的一系列灾害直接导致学校业务中断、电力故障、网络故障等。
非自然灾害是指人为造成的如服务器断电、软件错误、人为故意破坏、恶意代码、木马植入、恐怖袭击等。
二、灾难恢复项目小组的制定和职能
1、管理组:统筹规划、指挥各小组按照既定计划进行执行。
2、部门恢复组:负责制定各部门情况制定应急备案,确定各部门数据和财产的保护方式并执行保护,确定各部门数据的恢复方式并执行恢复。
3、计算机恢复组:负责对全校范围内的计算机故障进行排除、恢复,范围包括系统、必备办公软件。
4、损坏评估组:负责对学校损失的重要数据、财务进行总体评估。并针对相应损失的财产进行汇总并结合拥有的保险进行申报。
5、安全组:负责灾难发生后的人员、数据、财务的安全进行保护,并制定相应的安全策略。
6、设备支持组:负责对学校服务器、网络设备、交换机的故障进行排除,制定相应解决重建方案。
7、数据恢复组:负责对学校各平台数据进行恢复,并制定相应数据恢复方案。
8、市场和家长关系组:负责对外进行信息发布、制定相应应急措施应对家长疑问。各小组共同职能: A)负责计划的执行
B)与其他组之间进行信息交流,监督计划的测试和执行 C)所有或是某一个成员领导特定的组 D)协调恢复过程
E)评估灾难,执行恢复计划,联系组长 F)监控并记录恢复的过程
三、业务恢复流程
(一)自然灾害引起的灾难恢复流程
由自然灾害引起的灾难往往影响较大;可能直接导致一些基础设施的无法使用,甚至会导致人员减少。因此对于自然灾害引发的灾难恢复流程相对特殊且繁琐。
1、数据抢救
灾难发生时,需在保证人身安全的情况下对学校的重要数据迸行抢救,抢救的范围主要包括:记录学校重要信息的文件、资料,存储学校重要数据的磁带,存放重要数据的硬盘和服务器。此过程由安全组进行统筹指挥,按照既定的计划执行,各组成员、学校员工必须服从安全组的统一调度和指挥。
2、损坏评估及启动应急预案 灾难发生后各小组需根据情况汇报损失情况给损坏评估组。损坏评估组根据汇总信息进行消息告知披露。披露损坏信息包括:
A)学校重要生产、监视测量、办公设备
B)拥有在可以执行计划之内的关键性功能的员工 C)保存学校重要数据的介质 D)网络通讯设备
各小组人员根据披露的损坏信息情况进行应急预案启动,如选举临时领导、使用备份服务器、备份通讯设备替代等。
3、业务恢复计划
业务恢复计划需要多个小组支持与配合,总体可划分为以下几个阶段:
A)IT基础设施恢复阶段
此阶段主要的目标是将对于保存数据的基础设施、业务系统所在的主机、学校网络构架进行恢复。首先须根据损失评估小组给出的报告分析可以继续利用的IT基础设施,如供电设施、交换机、服务器、防火墙等。若有损坏不可用的设备,需及时同代理商进行沟通或新购相应设备。此阶段由设备支持组执行。B)系统恢复阶段
系统恢复阶段主要针对应用主机,如Rasd-server、IBM、Center-server、BJTCT。为节约时间需同时针对各个服务器系统进行快速恢复,此阶段由数据恢复组执行。C)网络恢复阶段
网络恢复阶段主要针对以下几点进行:关键商业应用系统的内部局域网和网络设备的支持;外部广域网和电信服务;待恢复系统和终端用户(学校同事)间的通讯。此阶段由数据恢复组和设备支持组共同执行。D)业务平台恢复阶段:
在此阶段的恢复工作主要围绕日常工作常用的业务平台进行,常用的业务平台主要为:Winmail、Change、Doors、Synergy、OA、ERP等。平台恢复的工作分为三个部分: 业务系统数据恢复:
数据恢复小组首先须对业务系统的数据进行恢复,需要寻找相应的恢复设备完成此操作,目前我们主要利用磁带机和可正常运作的主机进行数据恢复工作。需要将抢救出的磁带和硬盘接连在对应设备上恢复出数据。业务系统重搭建:
为提高业务恢复效率,数据恢复小组成员需分工协作,共同完成业务系统的重搭建工作。由于一些业务系统的特殊性,需尽快与相应平台的供应商接口人取得联系,并申请临时可用的加密狗、许可文件等。各个平台负责人需对自己管理的平台在短时间内进行重搭建。业务系统数据导入: 数据恢复小组成员需根据导出的数据结合自己管理的业务平台进行数据导入,并测试数据可行性。在导入成功并可使用后及时对各小组成员负责人进行通知。
(二)非自然灾害引起的灾难恢复流程
非自然灾害引起的灾难通常破坏较小,但是风险程度仍然不可忽视。如电力故障导致关键业务系统无法正常运行同样会给我们的学校带来一定的影响。但由于破坏程度的不同,我们将引入业务持续计划(BCP)这样一个概念。
业务持续计划是为了防止正常业务行为的中断而被建立的计划。当面对由于人为造成的故障或灾难以及由此造成的财产损失和正常业务不能正常使用时,BCP主要被设计用来保护关键业务步骤。BCP是最小化对于业务的干扰效果和使业务能恢复正常运行的计划。
RTO(Recovery Time Object)恢复时间是指EIA部门同学校签订的故障响应恢复时间,如确保在1小时内排除故障,使业务系统重新恢复工作。
RPO(Recovery Point Object)恢复点目标,该指标规定在灾难发生后,学校所能够容忍的数据丢失量,该指标由EIA部门同学校签订。
对于RTO和RPO目标的实现,需要人力、物力的支持,因此对于高效,最小化的BCP指标,往往也会花费大量的财力资源,在执行业务持续计划的同时,由于造成灾难和破坏性并不严重,因此可直接进入业务平台恢复期。