第一篇:IDC中心机房预防措施及应急预案
IDC机房维保预防措施及应急预案
IDC数据中心机房的安全无疑是整个计算机信息系统安全的前提,如果数据中心机房存在这样那样的不安全因素,从而导致发生数据中心机房事故,则整个信息系统的安全也就不可能实现。
随着网络信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突发事件的处理能力将是我们目前面临的一项重要任务。为确保系统及机房安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置”的原则,本着建立一个有效处置突发事件,建立统一指挥、职责明确运转有序、反应迅速处置有力的机房安全体系的目标,将正在发生或已发生事故的损害程度减轻到最低。
1、维保预防措施
1、建立健全机房维保技术人员管理制度
1.1在正常工作日内,信息技术人员负责对机房进行监控,主要职责是:巡视网络设备及系统的运行情况,发生异常情况及时处理,消除故障隐患。
1.2周末、节假日及重大会议期间技术人员轮流值班,负责处理有关异常情况。
2、应提高对机房可靠性、可用性、安全性等方面的认识,既要重视信息系统安全,又要重视机房的运行维护管理,重视对计算机硬件、软件及网络设备的维护。要树立大局意识和忧患意识,对机房设施安全的重要性给予足够的重视。
3、应重点加强管理制度的执行。管理制度包括预防维护流程和紧急情况处理预案两个方面。要制定相应的管理制度,包括机房管理岗位制度、机房操作规程等,以明确岗位职责。为应对机房中可能会发生的紧急情况,如火灾、断电、数据丢失、设备失灵等,应按各种紧急情况分列处置措施,还要对预案进行演练。
4、应不断提高机房管理人员的技术水平。机房设施非常复杂,涉及很多专业和系统,维护人员只有通过不断的总结以往出现的各种问题进行后续学习和培训,提高技术水平,才能避免更多的相同的问题及异常情况甚至事故的发生。
5.应加强供配电、照明等电源子系统的监测。同时应重点对温度、湿度、灰尘、有害气体等进行评估和监测。还要加强静电防护、干扰源分析及保护、雷击
防护、电磁干扰、振动控制,防火、防水等工作。
5、应加强对进入机房人员的管理。工作人员行为、素质等因素均可能对机房安全造成影响,因此,除管理制度约束外,门禁和视频监视等物理安全策略均可有效提高机房安全水平。
7、应定期对机房设施进行安全评估。最好每年聘请第三方机构进行安全评估,专业评估机构拥有专家力量,能够比较安全地对所有的设备进行操作,不会因为误操作引起机房故障。
8、机房内严格采取防雷、防火、防尘、防静电等措施以及机房24小时监控等措施。
9、认真做好数据备份工作,定期做一次数据库完全备份,每月检查服务器运行和备份情况。
10、对机房的主要网络设备(路由器、主干交换机等)进行工作时间内全程监控,发现异常情况应及时进行处理,确保整个网络的正常运行。
2、应急处置措施
2.1 机房漏水应急预案
(1)发生机房漏水时,第一目击者应立即通知运维服务小组,并及时报告监控系统突发故障应急领导小组。
(2)若空调系统出现渗漏水,运维服务小组负责人应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,同时启动备用空调,必要情况下可临时用备用空调对服务器进行降温。
(3)若为墙体或机房门渗漏水,运维服务小组负责人应立即采取有效措施确保机房安全,及时清除积水,维修墙体或门窗,消除渗漏水隐患。2.2 设备发生被盗或人为损害事件应急预案
(1)发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告系统突发故障应急领导小组,同时保护好现场。
(2)系统突发故障应急领导小组接报后,通知用户保卫部门、相关领导,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。
(3)事发单位和当事人应当积极配合公安部门进行调查,并将有关情况向系统突发故障应急领导小组汇报。
(4)系统突发故障应急领导小组安排运维服务小组、事发单位及时恢复系统正常运行,并对事件进行调查。运维服务小组和事发单位应在调查结束后一日内书面报告系统突发故障应急领导小组。事态或后果严重的,应向相关领导汇报。2.3 机房长时间停电应急预案
(1)定期检查机房供电设备的运行状况和电路线缆器材情况,当发生下列突发事件时,按照以下方案进行处置:
(2)当机房发生市电供电突然停电或是电源异常时。首先应和后勤部门联系确认正常停电以及预计停电时间。检查不间断电源的电池可供电时间,确保设备正常运行,如遇到突然断电,应及时将空调等不在UPS电源供电范围内的设备及时断电,预防突然来电时瞬间电流过大导致设备损坏等现象。
(3)当确定停电时间超出机房UPS承载范围后,首先确定停电的范围以及受影响的设备范围。并及时通知各部门做好停电应急准备。然后通知机房电源维护人和设备的负责人到达现场,做好各设备的电源停电准备。在UPS供电电量仅剩10%之后,严格按操作手册停掉各服务器的电源,最后停核心交换机和路由器,等待电力恢复。
(4)当确定停电原因是在本身供电系统范围内,立即汇报给负责领导,并及时联系相关维护人员达到现场检修。对于恢复时间无法预计的,要通知后勤部门做好柴油机发电及移动电源车供电准备
(5)恢复供电后,严格按照操作程序逐步恢复机房设备和UPS的供电,以防瞬间电流过大造成设备损坏。
2.4 通信网络故障应急预案
(1)发生通信线路中断、路由故障、流量异常、域名系统故障后,操作员应及时通知本单位信息系统管理员,经初步判断后及时上报运维服务小组和系统突发故障应急领导小组。
(2)运维服务小组接报告后,应及时查清通信网络故障位置,隔离故障区
域,并将事态及时报告系统突发故障应急领导小组,通知相关通信网络运营商查清原因;同时及时组织相关技术人员检测故障区域,逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。
(3)事态或后果严重的,应向应急指挥办公室和相关领导汇报。(4)应急处置结束后,运维服务小组应将故障分析报告,在调查结束后一日内书面报告系统突发故障应急领导小组。2.5网络病毒事件应急预案
(1)发现不良信息或网络病毒时,信息系统管理员应立即断开网线,终止不良信息或网络病毒传播,并报告指挥调度中心运维服务小组和系统突发故障应急领导小组。
(2)运维服务小组应根据系统突发故障应急领导小组指令,采取隔离网络等措施,及时杀毒或清除不良信息,并追查不良信息来源。
(3)事态或后果严重的,应向监控中心办公室和相关领导汇报。(4)处置结束后 ,运维服务小组应将事发经过、造成影响、处置结果在调查工作结束后一日内书面报告系统突发故障应急领导小组。2.6 服务器软件系统故障应急预案
(1)发生服务器软件系统故障后,运维服务小组负责人应立即组织启动备份服务器系统,由备份服务器接管业务应用,并及时报告系统突发故障应急领导小组;同时安排相关责任人将故障服务器脱离网络,保存系统状态不变,取出系统镜像备份磁盘,保持原始数据。
(2)运维服务小组应根据系统突发故障应急领导小组的指令,在确认安全的情况下,重新启动故障服务器系统;重启系统成功,则检查数据丢失情况,利用备份数据恢复;若重启失败,立即联系相关厂商和上级单位,请求技术支援,作好技术处理。
(3)事态或后果严重的,应向监控中心应急指挥办公室和相关领导汇报。(4)处置结束后,运维服务小组应将事发经过、处置结果等在调查工作结束后一日内报告系统突发故障应急领导小组。
2.7 黑客攻击事件应急预案
(1)当发现网络被非法入侵、网页内容被篡改,应用服务器上的数据被非法拷贝、修改、删除,或通过入侵检测系统发现有黑客正在进行攻击时,使用者或管理者应断开网络,并立即报告系统突发故障应急领导小组。
(2)接报告后,系统突发故障应急领导小组应立即指令运维服务小组核实情况,关闭服务器或系统,修改防火墙和路由器的过滤规则,封锁或删除被攻破的登陆帐号,阻断可疑用户进入网络的通道。
(3)运维服务小组应及时清理系统,恢复数据、程序,恢复系统和网络正常;情况严重的,应向监控中心应急指挥办公室和相关领导汇报,并请求支援。
(4)处置结束后 ,运维服务小组应将事发经过、处置结果等在调查工作结束后一日内报告系统突发故障应急领导小组。2.8 核心设备硬件故障应急预案
(1)发生核心设备硬件故障后,运维服务小组应及时报告系统突发故障应急领导小组,并组织查找、确定故障设备及故障原因,进行先期处置。
(2)若故障设备在短时间内无法修复运维服务小组应启动备份设备,保持系统正常运行;将故障设备脱离网络,进行故障排除工作。
(3)运维服务小组故障排除后,在网络空闲时期,替换备用设备;若故障仍然存在,立即联系相关厂商,认真填写设备故障报告单备查。
(4)事态或后果严重的,应向监控中心应急指挥办公室和相关领导汇报。2.9 业务数据损坏应急预案
(1)发生业务数据损坏 时,运维服务小组应及时报告系统突发故障应急领导小组,检查、备份业务系统当前数据。
(2)运维服务小组负责调用备份服务器备份数据,若备份数据损坏,则调用磁带机中历史备份数据,若磁带机数据仍不可用,则调用异地备份数据。
(3)业务数据损坏事件超过 2小时后,运维服务小组应及时报告系统突发故障应急领导小组,及时通知业务部门以手工方式开展业务。
(4)运维服务小组应待业务数据系统恢复后,检查历史数据和当前数据的差别,由相关系统业务员补录数据;重新备份数据,并在工作结束后一日内报告系统突发故障应急领导小组。2.10 雷击事故应急预案
(1)遇雷暴天气或接上级部门雷暴气象预警,运维服务小组应及时报告系统突发故障应急领导小组,经请示同意后关闭部分服务器,切断电源,暂停内部计算机部分网络工作。
(2)雷暴天气结束后,运维服务小组报经系统突发故障应急领导小组同意,及时开通服务器,恢复内部计算机网络工作,对设备和数据进行检查。
(3)因雷击造成损失的,运维服务小组应会同相关部门进行核实、报损,并在调查工作结束后一日内书面报告系统突发故障应急领导小组。必要时,应向监控中心应急指挥办公室和相关领导汇报。2.11 空调设备故障应急预案
若机房专用空调损坏,应第一时间启用机房备用空调,并通知厂家上门进行维修,并及时报告相关领导请示,获得授权后按机房设备关闭顺序关闭各类设备。2.12 火灾事故应急预案
(1)一旦机房发生火灾,应遵照下列原则:首先确保人员安全;其次保护关键设备、数据安全;三是保护一般设备安全;
(2)人员疏散的程序是:机房工作人员立即按响火警警报,并通过119电话向公安消防请求支援,所有人员戴上防毒面具,所有不参与灭火的人员按照预先确定的线路,迅速从机房中撤出;
(3)人员灭火的程序是:首先切断所有电源,启动自动喷淋系统或使用灭火器,灭火值班人员戴好防毒面具,从指定位置取出泡沫灭火器进行灭火。2.13 电源设备故障应急预案
机房目前使用UPS系统,在紧急情况发生时,应按如下步骤进行关机:(1)确认所有负载均已安全关机。
(2)关闭UPS负载电源。
(3)将UPS的系统启用开关切换到off 的状态。(4)将电池连接断路器切换到off的位置。
第二篇:IDC机房应急预案手册
机房应急预案手册
一、机房事故处理通则
凡系统发生故障时,网管运行监控负责人必须立即组织抢修,不得拖延。
运行监控人员均应熟悉故障紧急处理流程,熟练掌握操作步骤和方法。
运行监控管理人员应如实上报故障情况,故障报告应当做到时间清、原因清、结果清。
重大故障和严重故障要报上级业务主管领导。对已处理的重大故障和严重故障,事后必须做故障分析,查清故障原因,确定故障性质和责任,采取防范措施,避免同类故障再次发生。
故障处理基本原则:先重点后一般;先调通后维修。
1、故障等级
网管系统的故障等级共分三类:
1.1 重大故障
在系统运行期间,关键设备(包括传输或其它专业所属设备)、软件故障造成所有网管业务中断超过24小时。
1.2 严重故障
在系统运行期间,关键设备(包括传输或其它专业所属设备)、软件故障造成下列情况之一的系统故障:
(1)所有网管业务中断超过12小时但不超过24小时;
(2)网管个别业务中断超过24小时;
1.3 一般故障
除重大故障和严重故障外的其他故障。
2、故障通报与通报制度
网管中心应建立相关设备故障处理联系制度,并将联系人和联系方法张贴在醒目位置。
网管中心应建立设备操作手册和故障处理流程,并存放在固定地点。
网管中心应建立设备运行情况统计和登记表,并存放在固定地点。
2.1 故障处理:
2.11、在系统发生故障时,值班人员应对照运行维护手册进行简单的故障处理和准确定位,对无法处理的故障应立即通知系统维护主管工程师,并逐级上报。系统维护主管工程师组织相关人员现场处理,故障处理完毕后,马上通知故障发起点,并进行详细记录。当系统发生故障时,网管中心运行维护负责人必须立即组织抢修,不得拖延。
2.12、在处理故障时,应严格按照故障处理流程进行,整个流程强调闭环管理,按先重点后一般;先调通后维修的原则进行。
2.13、在系统和设备故障处理的过程中,若出现较为严重或一时无法解决的问题,及时通知故障发起点,并立即向主管领导汇报,同时与厂家联系,及时争取技术支持,填写故障报告。
2.14、在系统设备故障处理过程中,若使用了备件单元或备用电路板,应按规定分别详细登记故障发生的工作单元、故障现象或故障代码、换用备件名称、编号,有条件时应附上当时的打印记录,向主管报告,并及时与备件管理人员取得联系,按正确的手续发送返修。
2.15、在相关专业部门或设备供应商进行抢修的过程中,网管中心应负责协调相关专业部门,采取其它措施对网络进行监控。
2.16、在相关专业部门或设备供应商进行抢修的过程中,网管中心应负责协调相关专业部门,采取其它措施对网络相关数据进行保存和统计。
2.17、网管中心在相关故障排除后48小时内提交故障分析报告。报告将视故障级别上报所在公司运行维护部和上级网管中心。
运行维护人员均应熟悉故障紧急处理流程,熟练掌握操作步骤和方法。2.2 故障通报:
当出现值班人员不能解决的故障时,值班人员应立即上报系统维护主管工程师和部门主管。
故障处理完毕一天内,系统主管工程师写出故障报告,上报部门主管,重大故障和严重故障要报上级业务主管部门。
当发生故障时,机房当班人员应将故障发生经过详细填写进《值班日志》。
如果网管系统出现严重故障,在故障发生后应在第一时间向上一级网管中心通报相关情况。
出现故障后,由网管中心指定专人向相关部门通报故障影响范围和处理情况等。
运行维护负责人应如实上报故障情况,故障报告应当做到时间清、原因清、结果清。
二、机房应急动力预案
1、机房停电故障 1.1 准备工作
1.11停电后第一时间电话咨询供电公司(电话号码)询问停电原因及停电时长。
1.12电话通知相关领导停电状况,如果在值班过程中停电需同事共同处理的也及时通知,在停电期间要保持通信畅通有问题及时联系。(领导电话)
1.13准备扳手、六棱起、数字万用表、“+”字“—”字螺丝刀各两把(大、小)等常用电工工具,准备好高压绝缘手套、绝缘鞋、专用扳手。
1.14以上3点工作尽量在最短时间内结束,然后针对故障原因作出相应处理。
1.2停电情况下处理方式
从供电公司确定完停电原因及停电时长后,确定停电时长是否在UPS负荷工作时间范围内:如果在UPS负荷工作范围内,密切观察UPS工作状态,所有设备正常工作;如果超出UPS工作范围内,向领导申请,存储信息,关闭机房设备,防止机房断电丢失数据。
1.3 市电恢复后的操作
1.所有设备恢复市电供电,检查设备的供电运行情况。
2、UPS故障处理
通州工商局机房UPS系统为2台OVERTOP RT30KH UPS 的并机系统.如30KVA UPS系统中一台UPS故障,系统自动将负载倒到另一台UPS上,如何关闭故障的UPS,如何再次开启UPS,如下:
关机
1、先将旁路转换开关打到“ON”的位置:
2、将UPS输出开关打到“OFF”位置
3、关掉UPS的开关,这时UPS停止运行;
4、关掉UPS输入开关,系统关机完毕。
开机
1、首先确认UPS的开关都打到“OFF”位置,配电柜的UPS输出开关也在“OFF”位置。
2、先把旁路转换开关打到“ON”的位置
3、分别将UPS的开关合闸;
4、当UPS面板指示为旁路供电状态时,再把旁路转换开关打到“OFF”位置这时,UPS转到正常工作模式,启动完成。
5、最后合上UPS输出开关,系统供电正常。
当关掉其中一台UPS在启动办法
1、先把旁路转换开关打到“ON”的位置
2、再把已关掉的UPS的开关分别打到“ON”的位置;
3、当两台UPS面板指示为旁路供电状态时,再把旁路转换开关打到“OFF”位置这时,两台UPS转到正常工作模式,启动完成
3、机房空调及局部过热故障的紧急处理方案
发生机房空调故障,会使机房的温度升高,危害设备正常运行。所以发生此类故障后,要积极维修,如果一时无法修复,必须采取应急措施,保障机房环境符合要求。
现在的机房空调一台艾赛尔精密空调,一台大金空调。
1、首先判断机房空调什么故障,如果压缩机故障,送风机工作正常,此时尽量将机房防静电地板掀开.增将出风口.如果是空调的送风机故障,不能正常送风,把邻近空调的送风口的格栅尽量调整,到故障空调前面的区域,这样才能的保障机房温度不至于上升。或者尽量将机房防静电地板掀开,增将出风口,或者拿普通的电风扇在故障空调的影响区域吹风,打开机柜门,冰块局部降温等措施防止局部升温过快。
2、机房局部设备温度上升过快或过热的处理步骤 首先将此设备的机柜门打开,让热空气充分散出,也可以用电风扇对此设备吹风,加快散热速度,购买冰块,放在大盆里,置于局部过热部位,利用冰块融化吸收热量,或者同时放置冰块并用电风扇吹。
三、机房防火预案
一、当发生火灾事故时,抢险工作应遵循如下原则:
1坚持“统一领导、分级负责、严密组织、密切配合、快速反应、保障有力”的原则。
2坚持快速恢复生产、减少经济损失的原则。
3坚持原则性与灵活性相结合的原则,注意讲究策略和方法。
二、消防安全管理基本原则:
1坚持“预防为主,防消结合”的原则。2坚持“谁主管、谁负责”的“两谁”原则。
第三篇:中心机房应急预案
中心机房应急预案
一、系统故障应急流程
1.1 系统故障应急流程说明
一、故障发生
值班人员可从以下途径得知故障的发生: 1)值班人员通过报警系统告警发现故障 2)值班人员通过远程数据监测发现故障 3)值班人员通过维护巡检发现故障 4)系统用户发现故障,报给呼叫值班人员
二、报障受理
值班人员发现系统故障发生后,立即响应,根据级别进行应急处理,并向相关领导报告系统故障情况。
三、信息研判
值班人员根据了解到的系统故障情况进行分析判断,以确定采用一般故障处理流程还是立即启动系统突发故障应急处理预案。
四、预案启动
如需启动应急预案,则立刻通知相关领导小组,由相关领导小组启动应急预案,对系统突发故障应急事件进行全面管控处理。
五、资源确认
系统突发故障应急预案启动后,首先是根据现场突发故障实际状况、紧急程度、技术难度、备品备件等情况对相关资源(主要是参与人员)依据经验进行调度和确认,主要有以下资源:
本单位相关技术支持人员 授权第三方公司技术支持人员; 故障设备相关厂家技术支持人员; 聘请的技术专家
六、预案执行
按照既定的预案进行突发事件处理和故障抢修,如遇到问题及时向相关领导小组汇报。
七、预案终止
预案的终止时间由故障现场技术人员根据现场的实际进展情况,在与用户单位有关部门协调后相关领导小组决定。
八、结果上报
预案中止后,相关预案参与人员将整个事件过程中所有收发信息、领导批示、事故调查报告、现场录像、图片等材料及时整理归档,并总结事件处理过程中的经验和教训,修改、完善事件应急预案。然后集中上报至相关领导小组。
1.2 系统故障应急处理流程图
机房应急预案
3.1 机房漏水应急预案
(1)发生机房漏水时,第一目击者应立即检测漏水影响范围,并及时报告相关领导小组。
(2)若空调系统出现渗漏水,值班人员应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,同时启动备用空调,必要情况下可其它方式(通风、冰块降温等)对服务器进行降温。
(3)若为墙体或窗户渗漏水,值班人员应立即采取有效措施确保机房安全,同时安排通知房屋产权方,及时清除积水,维修墙体或窗户,消除 渗漏水隐患。
3.2 设备发生被盗或人为损害事件应急预案
(1)发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告相关领导小组,同时保护好现场。
(2)相关领导小组接报后,通知用户保卫部门、相关领导,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。
(3)值班人员应当积极配合公安部门进行调查,并将有关情况向相关领导小组汇报。(4)相关领导小组安排相关技术人员及时恢复系统正常运行,并对事件进行调查。值班人员应在调查结束后三日内书面报告相关领导小组。
3.3 机房长时间停电应急预案
(1)接到长时间停电通知后,值班人员应及时通过办公系统、电话等发布相关信息,部署应对具体措施,要求相关保障人员在停电前及时就位,检查业务系统、保存数据。
(2)停电时间过长的,应准备充足燃油,并准备租用电力公司发电车协助,保证系统正常运转。3.4 通信网络故障应急预案
(1)发生通信线路中断、路由故障、流量异常、业务系统故障后,操作员应及时通知本单位相关系统管理员,经初步判断后及时上报值班人员和相关领导小组。
(2)值班人员接报告后,应及时查清通信网络故障位置,隔离故障区域,并将事态及时报告相关领导小组,通知相关通信网络运营商查清原因;同时及时组织相关技术人员检测故障区域,逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。
(3)事态或后果严重的,应及时向相关领导汇报。
(4)应急处置结束后,值班人员应将故障分析报告,在调查结束后三日内书面报告相关领导小组。
3.5 不良信息和网络病毒事件应急预案
(1)发现不良信息或网络病毒时,信息系统管理员应立即断开网线,终止不良信息或网络病毒传播,并报告相关系统维护人员和相关领导小组。
(2)值班人员应根据相关领导小组指令,采取隔离网络等措施,及时杀毒或清除不良信息,并追查不良信息来源。
(3)事态或后果严重的,应向总公司相关领导汇报。
(4)处置结束后 ,值班人员应将事发经过、造成影响、处置结果在调查工作结束后三日内书面报告相关领导小组。
3.6 服务器软件系统故障应急预案
(1)发生服务器软件系统故障后,值班人员应立即组织启动备份服务器系统,由备份服务器接管业务应用,并及时报告相关领导小组;同时安排相关责任人将故障服务器脱离网络,保存系统状态不变,取出系统镜像备份磁盘,保持原始数据。
(2)值班人员应根据相关领导小组的指令,在确认安全的情况下,重新启动故障服务器系统;重启系统成功,则检查数据丢失情况,利用备份数据恢复;若重启失败,立即联系相关厂商和上级单位,请求技术支援,作好技术处理。(3)事态或后果严重的,总公司相关领导汇报。
(4)处置结束后,值班人员应将事发经过、处置结果等在调查工作结束后三日内报告相关领导小组。
3.7 黑客攻击事件应急预案
(1)当发现网络被非法入侵、业务内容被篡改,应用服务器上的数据被非法拷贝、修改、删除,或通过入侵检测系统发现有黑客正在进行攻击时,使用者或管理者应断开网络,并立即报告相关领导小组。
(2)接报告后,相关领导小组应立即指令相关技术人员核实情况,关闭服务器或系统,修改防火墙和路由器的过滤规则,封锁或删除被攻破的登陆帐号,阻断可疑用户进入网络的通道。
(3)值班人员应及时清理系统,恢复数据、程序,恢复系统和网络正常;情况严重的,应向总公司相关领导汇报,并请求支援。
(4)处置结束后 ,值班人员应将事发经过、处置结果等在调查工作结束后三日内报告相关领导小组。
3.8 核心设备硬件故障应急预案
(1)发生核心设备硬件故障后,值班人员应及时报告相关领导小组,并组织查找、确定故障设备及故障原因,进行先期处置。
(2)若故障设备在短时间内无法修复值班人员应启动备份设备,保持系统正常运行;将故障设备脱离网络,进行故障排除工作。
(3)值班人员故障排除后,在网络空闲时期,替换备用设备;若故障仍然存在,立即联系相关厂商,认真填写设备故障报告单备查。
(4)事态或后果严重的,应向总公司相关领导汇报。
3.9 业务数据损坏应急预案
(1)发生业务数据损坏时,值班人员应及时报告相关领导小组,检查、备份业务系统当前数据。(2)值班人员负责调用备份服务器备份数据,若备份数据损坏,则调用磁带机中历史备份数据,若磁带机数据仍不可用,则调用异地备份数据。
(3)业务数据损坏事件超过 X小时后,维护小组应及时报告相关领导,及时通知业务部门以其它方式开展业务。
(4)值班人员应待业务数据系统恢复后,检查历史数据和当前数据的差别,由相关系统业务员补录数据;重新备份数据,并写出故障分析报告,在调查工作结束后三日内报告相关领导。
3.10 雷击事故应急预案
(1)遇雷暴天气或接上级部门雷暴气象预警,值班人员应及时报告相关领导,经请示同意后关闭部分服务器,切断电源,暂停内部计算机部分网络工作。
(2)雷暴天气结束后,值班人员报经相关领导小组同意,及时开通服务器,恢复停用的计算机网络工作,对设备和数据进行检查。
(3)因雷击造成损失的,值班人员应会同相关部门进行核实、报损,并在调查工作结束后三日内书面报告相关领导小组。必要时,应向总公司相关领导汇报。
四、机房动力系统应急处理方案
在机房动力发生异常情况时,动力系统通常可自动切换由备用电池提供机房设备的动力,在发生重大事故或自然灾害而无法短时间内正常恢复机房动力的情况下,启动机房动力系统应急处理流程,采用应急油机发电,确保用户单位网点通信网络能够安全、高效和可靠地运行。具体流程见下图: 监控到机房动力异常告警 通知维护站赴现场,监视动力系统电压下降情况 停电时间超过备用电池的合适支撑时间? 否 是 通知相关部门协助排查动力系统故障 超过蓄电池允许放电电压,立即启动油机发电 动力恢复 关闭油机供电开关 关闭电源柜油机开关 关闭/拆除油机 市电供电/蓄电池充电正常 消障
当发生长时间停电的动力系统故障时,抢修人员在机房现场实时测试记录备用电池的放电情况,电池放电容量超过40%时,如果动力系统还没有恢复正常供电,就用油机发电为机房提供动力。
动力系统恢复后立即对电池进行均充。一天内发生多次停电,放电容量在50%以下,均充转浮充后,浮充时间不少于24小时。一次停电放电容量在50%~80%时,均充转浮充后,浮充时间不少于48小时。
第四篇:中心机房火灾应急预案
为规范本酒店网络中心机房设备管理,提高处理酒店网络突发事件的能力,形成反应迅速的应急工作机制,确保重要网络设备和服务器硬件安全以及运行安全和数据安全,最大限度地减少突发事件造成的危害,特制定《网络中心机房应急预案及管理办法》。
篇一:中心机房管理办法
第一条 机房内禁止明火禁止吸烟,机房内的所有设备需要定期维护并做巡检记录、根据机房实际情况进行清扫工作。
第二条 机房网络设备维护由网络管理员进行,如发现机器故障应及时排除故障,在遇到硬件三包范围内的故障时,应及时联系供应公司上门或将机器送供应公司维修;
第三条 酒店员工必须严格遵守有关机房、设备及系统运行管理规定,不得在机房内从事与系统管理、运行维护、系统安装和调试等无关的工作;
第四条 做好防火、防雨、防湿、防盗工作,注意用电安全;机房内的环境要每周检查温度、湿度、电力系统、是否满足机房相关的标准要求。
第五条 机房内的交换机和服务器系酒店运营的关键设备,任何人不得自行配置或更改其系统参数。
第六条 要做好机房的安全工作,对服务器的各种帐户、密码严格保密。
第七条 应及时做好数据的备份工作,保证在系统发生故障时,数据能够快速、安全的恢复。所有备份数据不得更改,并要求做到本地和异地分别备份保存。
第八条 为了确保本酒店网络正常运行,每日对机房内的设备进行巡视,主要着重于服务器及网络设备运行正常与否。
1、对机房里的温度进行调节,如室内温度过高,调节空调对机房进行有效的通风。
2、查看交换机与防火墙及接入设备的工作状态,如发生异常,对其进行及时有效的维护。
3、监测网络运行状况。
第九条 除本酒店网络管理员外,公司其他人员因工作需要进入机房的,需网络管理员陪同下进入机房。
第十条 严禁带外单位人员或无关人员进入机房,确因工作需要,如:系统故障诊断和处理,设备维修维护、系统或设备安装等进入机房,必须由网络管理员陪同进入,配合项目的实施。
第十一条 进入机房的设备应在进入机房前拆除外包装,以保证机房环境的清洁和安
第十二条 严禁携带易燃、易爆、易腐蚀等危险性物品进入机房。
第十三条 机房内提供的UPS电源只允许为主机、服务器、网络及存储等核心设备供电,严禁安插其他设备,增加UPS电源供电负荷。
第十四条 严禁擅自切断供电系统,确因工作需要断电时,首先应做好相应准备工作,经部门领导批准,然后给所有部门发放断电或断网通知,最后方可实施。
第十五条 机房内安装用电设备或有用电需求的项目时,必须经过专业人员或设备提供商的安装工程师进行现场勘查,经确认在满足或符合要求后工程才能实施。
篇二:中心机房突发事件应急预案
第一条 机房突发事件包括网络设备或服务器故障、自然灾害(水、火、电等)造成的物理破坏、人为失误造成的安全事件等等。针对突发事件的预防措施如下: 建立安全、可靠、稳定运行的机房环境,防火、防盗、防雷电、防水、防静电、防尘;建立备份电源系统;加强防火、防盗意识。
第二条 机房漏水应急预案如下:
1、发生机房漏水时,第一目击者应立即通知机房管理人员。
2、若空调系统出现渗漏水,机房管理人员应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,必要情况下可临时用电扇对服务器进行降温。
3、若为墙体或窗户渗漏水,机房管理人员应立即采取有效措施确保机房安全,同时安排通知工程人员及时清除积水,维修墙体或窗户,消除渗漏水隐患。
第三条 机房火灾应急预案如下:
1、完善机房环境,确保机房放置灭火器;禁止携带易燃易爆物品进入机房。
2、机房管理人员应熟悉机房内部消防安全操作和规则,了解消防设备操作原理,掌握消防应急处理步骤、措施和要领,懂得灭火的方法,会扑救初起火源。
3、一旦发生火灾,迅速切断机房电源,避免灾情的扩散,并迅速和保安部联系必要时立即报火警。
第四条 机房停电应急预案如下:
1、接到停电通知后,应及时通过办公系统、电话等发布相关信息,部署应对具体措施,要求在停电前停止业务、保存数据。
2、机房管理人员每日检查UPS电源的状态,确保在突发停电时,UPS电源能自动供应服务器正常工作15分钟以上,保证员工工作的数据及时保存。
第五条 通信网络故障应急预案如下:
1、发生通信线路中断、流量异常等故障后,发现状况的员工或部门领导应及时通知网络管理员。
2、网络管理员了解情况后,迅速组织检测故障区域,并作相关故障处理,逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。
第六条 服务器故障应急预案如下:
1、机房管理人员每日检查机房内各服务器状态。
2、定期备份数据服务器数据。并将备份资料拷贝到移动设备。服务器出现严重硬件故障时启用备用服务器以保障正常运转。
第五篇:机房应急预案
应急处置方案
第一节 总 则
1、保证人员和财产的安全为前提的原则:在由于火灾或电力问题造成的主机故障,在解决故障前,应以保证人员的生命安全和财产的安全为前提,然后进行故障的解决。
2、最快时间恢复业务的原则:本着先想尽一切方法,尽快恢复业务的原则来处理故障,如在有备用设备的情况下,主设备产生了故障,应先尽快将应用切换到备用机上,使业务能够运行,再对故障设备进行诊断和维修。
3、故障应急人员高度负责的原则:当故障应急人员在节假日接到故障通知时,本着高度负责的态度,应迅速接手处理障碍,如远程无法处理解决,应迅速赶到故障设备所在地,进行现场处理,处理故障的同时应及时向领导汇报。应急人员不可互相推卸责任,如因特殊情况,确实无法处理障碍,部门领导必须安排好其他人员处理。
4、尽可能全面的保留故障现场的原则:当故障发生后,应急人员应尽可能全面的备份出能够反映故障现象的各种日志、记录、受损文件等,便于业务恢复后,对故障的分析、解决,杜绝故障的再次发生。
应急方案的目标:保证预付卡运营系统连续安全稳定地运行。
第二节 应急领导小组
应急领导小组成员:
组 长: 副组长: 成 员:
第三节 电源系统故障应急处理
定期检查信息中心机房电源设备的运行状况,当发生下列突发事件时,按以下方案进行处置:
当中心机房发生市电供电突然停电或远程报警电源异常时。首先确认是否为正常停电及预计停电时间。检查不间断电源的电池可供电时间,需在不间断电源供电时效内关闭所有服务器及网络设备。
联系工程部查看停电原因,尽快恢复供电,并将情况报告相关领导
工程部联系电话:
第四节 空调系统故障应急处理
定期对空调的运行情况进行检查,如有报警信息,应及时查找故障原因,对于不能自行排除的问题,应及时与设备提供商进行联系。
当中心机房主空调因故障无法制冷,致使机房内环境温度超过摄氏40度时,打开机房房门,并关闭所有服务器及网络设备。对于无法自行处置的空调系统异常情况,及时与设备提供商联系,并报告公司领导。空调问题联系人:
第五节 中心机房自动消防系统应急处理
当中心机房发生火警时,按以下方案进行处置:
1.上班工作时间发生火警,听到自动消防系统发出的声光报警后,中心机房附近办公室人员应及时紧急撤离,避免气体自动消防系统启动后,消防气体对附近人员造成人身伤害。确认火警后,立刻拨打119报警,并说明尽量使用气体灭火器进行灭火,减少电子设备的损坏。
2.发生火警后,信息中心相关人员应马上赶赴现场,并向有关领导报告事故情况。同时立即联系联通等相关公司,及时评估事故损失情况,研讨尽快恢复信息系统正常运行的最佳方案。安保消防中控电话:
第六节 设备、网络系统故障应急处理
设备、网络应用系统故障应由发现人通知技术部,技术部门立即检查故障,进行初步故障定位,解决;
1.网络设备、服务器、储存设备均有备份,当设备存在硬件问题时,可随时把业务切换到备份主机上,保证业务正常运行; 2.应用系统每更新一次则做一次远程备份,在远程主机上分别备份旧的应用系统和更新后的应用系统,以当天的更新日期命名; 3.对磁盘柜上的数据库文件有定时任务,每天凌晨4:00会把数据库里的数据文件倒出到远程备份主机上,以确保磁盘柜出现硬件故障的时候,数据文件不丢失;对于网络、应用系统出现硬件方面的故障,比较严重的问题,对业务的正常运行造成较大的影响,立即向有关领导报告。
4、网络中有监控服务器,运用Cacti v10最新的版本,监控网络所有设备(路由器,防火墙,交换机以及服务器设备);对设备本身的硬件检测、外部入侵检测、外部攻击等多种对系统不利因素以发送mail的形式报警;相关人员收到报警信息,分析收到的log日志以做出相应的处理。
5、每周周五对网络设备进行日志及配置文件采集,对数据库数据文件定期下载,和远程备份;在本地电脑上保存最近的配置文件,以便在发生毁灭性的灾难时,用来重组。
对简单故障,运维人员应迅速排除故障,解决问题并记录。如果需要更换设备,应上报有关领导,经批准后马上更换故障设备,尽快恢复网络、应用系统运行。运维部门判断无法及时修理时,应立即通知相关的系统运行服务提供商,在最短的时间内安排修理或更换系统。
如发现属外部线路的问题,应与线路服务提供商联系,敦促对方尽快恢复故障线路。
启用备份线路、设备、系统,迅速恢复相关的应用。
联通联系电话:
第七节 黑客入侵的应急处理
发现网络上有黑客攻击行为,任何人员都有义务向技术部门报告。技术部立即启动应急响应,切断受攻击计算机与网络的连接,停止一切操作、保护现场,并上报有关领导。
对于黑客攻击,由计算中心组织应急响应专家小组查找入侵踪迹,分析入侵方式和原因。由安全管理员根据对入侵事件的分析,组织相关人员对内部网计算机整改,防止黑客用同样的手段再次入侵其他系统。安全管理员检查确定无安全隐患后,才可将受攻击计算机重新连接网络,或启用备份计算机来恢复应用。
安全管理员应做好记录,保护现场,进行日志收集等工作。如果能追查到攻击者的相关信息,可以对其发出警告,必要时可以采取进一步的行动,乃至采取法律手段。根据破坏程度,经有关领导同意后,上报公安部门。
若系统已被黑客破坏,无法恢复,应将受黑客攻击的计算机上的重要数据备份到其他存储介质,确保计算机内重要的数据不丢失。如果数据无法恢复,经有关领导同意后,可与国家指定的部门联系,由他们来协助恢复,为保证数据信息安全,需在安全管理部门作记录。
第八节 生产系统、数据库故障处理
生产系统出现故障,技术部做出应急处理
1.因软件设计缺陷、设计漏洞等引起的故障,通知公司研发部门在2小时内查明原因,解决问题。
2.数据库出现故障,运维人员应在2小时内查清故障原因,其他相关部门应积极配合,解决问题。
3.如出现数据丢失情况,确认不能自行恢复后,启用备份恢复数据,24小时内恢复运营。
本方案自发布之日起施行