第一篇:机房用电应急预案
1,机房意外停电后,首先确定停电的范围以及受影响的设备范围。2,确认停电的范围为本楼或本校区,应立即打后勤管理处电话汇报。估算电力可能恢复的时间。并通知网络中心领导。3,如果确认停电的时间为1个小时内,可以在UPS正常供电的时间内,等到电力恢复,如果不能确认在2小时内恢复,立即汇报给机房电源维护负责人和中心机房各设备的负责人到达现场。做好各设备的电源停电准备,在UPS供电达1.5小时后,严格殷实操作手册停掉存储和各应用服务器的电源。最后停核心交换机和路由器,等待电力恢复。电力恢复供电后转第七条执行。如果确认停电的范围仅在于本机房电源故障。立即汇报给机房电源维护负责人。4,机房维护负责人将掉电的电源柜总空开和分空开的状态处于下电状态。并向主管领导汇报。马上联系相关厂家,如有可能请厂家立即到现场支持。5,将掉电的所有设备电源处于下电状态。以防止电源柜加电对设备的冲击。6,等各厂家和相关人员到齐后,商议设备恢复时间因注意的事项。并形成相关文档。7,电力室恢复供电后,先不要急于给电源柜加电,等待10-20分钟后,再开始给电源柜加电,以防止供电不稳定或再次掉电。8,供电正常后,确定设备处于下电状态后,打开电力柜的总控开。9,根据设备加电顺序,启动分项空开。10,设备加电顺序,IP交换机和SAN交换机正常后再给存储加电,存储状态检查正常后,启动主机(以上各设备务必按操作手册的启动顺序上电).11,设备启动正常后,开始启动数据库。12,数据库启动正常后,开始启动中间件服务器。13,中间件服务器正常后,启动应用程序。
2,核心机房电力的保障一直是维护体系的头等重要事项,通过实施应急发电演练,建立了可靠的应急预案机制,最大限度的降低电源中断对网络传输质量的影响。现分享核心机房电源中断应急预案,希望分公司尽快建立一套统一指挥、职责明确、反应迅速、处置有力的机房安全保障机制。3,组织架构: 4,责任领导、工程维护、网络监控、网络运维、质量管理等相关人员。
5,机房电源系统说明: 6,1.机房电力是两路三相四线制供电,进线线缆规格为:RVV50*4+16*1铜芯护套线。
7,2.机房电源系统采用三级防雷系统,三级防雷分别位于电源进线端、UPS输入前端。
8,3.机房现有两台60KVA-UPS电源,均处于正常运行状态。
9,4.机房现有设备机柜已编号,均通过UPS电源和市电供电,每个机柜有独立的20A空气开关。空调、墙壁插座开关、应急灯、照明等都是单独空开接市电。
10,5.运行中的UPS电源所带负荷,在逆变运行状态下能正常工作约4小时(已经过UPS放电测试)。
11,一.核心机房电源中断预案
12,1.在接到停电通知的情况下: 13,1)计划性停电通知要确保综合部、工维机房管理部对口人接到通知(提前将对口联系人备案在物业处),机房管理员接到计划停电通知后,升级到调度中心进行信息发送,同步进行邮件通知相应应急小组成员。并与负责组长及责任领导电话告知,确保已经接收到本次停电的时间及可能发生的情况。
14,2)维部进行发电应急预案小组成员通知,提前做好机房发电预案要求的准备工作,将相应的发电机、连接线、人员安排到位,各司其职,随时待命现场,做发电准备工作。确保停电时刻的电力安全及机房用电的保障措施,提前调度安排好相应人员做好保障用电的措施。
15,3)计划停电时间开始后,马上启动应急发电操作,按照机房发电操作步骤实施阶梯供电的步骤,恢复市电保障。并进行现场值守及设备工作确认,确保全部正常后电话告知调度中心及维护体系领导。
16,2.在没有接到任何通知,突然发生停电的情况下:
17,确认停电线路,停电时刻,停电时间等要素,启动核心机房发电应急预案。
18,1)值班网管工作流程:
19,⑴值班网管监控到核心机房停电,第一时间告知工维部、网络部、运维部应急小组组长。信息传达到工维部机房管理员(一主一备),告知停电开始时间。
20,要求在停电5分钟内将消息传达到调度中心,各应急小组组长。如无法联系上,进行升级到责任领导-工维部经理经理处。21,⑵网管将停电信息电话传达后,进行调度派单,确保全部的应急小组成员都收到本次故障停电的信息。然后进行机房中设备的检查,包括:UPS设备主机、各核心设备、汇聚设备、服务器、语音系统等。检查是否受影响。同时启动机房降温措施(降温方案:初步为加装抽排风设备、增加大风扇排风形成热量流动降温)22,⑶实时监控设备及UPS工作情况,包括:电量下降情况,设备工作正常情况,每15分钟通报一次电量情况。
23,2)运维部应急工作流程:
24,⑴运维应急同事接到故障通告后,第一时间往停电现场赶,到现场配合网管/工维部门进行设备仪器的检查、客服语音系统的保障,应急发电的协助。
25,⑵现场配合进行机房降温散热措施实施,实时检查网络设备的工作情况。
26,3)运营质量管理应急工作流程:
27,⑴调度中心值班人员接到网管监控调度信息后,第一时间将故障信息记录并发故障通告到相关应急成员,并电话通知各应急小组组长是否知悉。
28,⑵进行客服调度系统的设备工作运行系统检查,特别语音系统级坐席电脑,是否有问题,如发现工作系统有异常,及时与运维应急小组成员沟通,进行检查处理。
29,⑶实时关注故障工单流程进度登记,配合应急小组进行人员调度通告。30,4)工维部应急工作流程:
31,⑴机房管理员第一时间往停电现场赶,同时进行电话沟通供电公司、物业方等,咨询停电原因,是属于计划性还是突发性停电,预计停电时长,将咨询清楚的结果反馈到应急小组成员中,电话联系物业沟通好需要发电需求申请。
32,⑵工维应急小组组长接到时间后第一时间往停电现场赶,同时进行发电应急小组成员调度,安排第一时间到场工作开展,并升级通报告知主管领导,对口集团维护中心上报信息。
33,⑶工维应急小组成员接到停电时间后第一时间往停电现场赶,要求30分钟内必须到场(住机房附近的人员往现场去,较远同事可以进行打车往现场去),先行到处同事配合网管、运维同事启动做好应急发电前的准备:连接线布放、接续、发电机发电前检测油/电/水路检查,确保正常。确保一切就绪后,确认可以进行发电操作后,按照发电操作流程进行发电恢复市电。
34,⑷网管将监控到停电的相应信息及级别同步发送到运营质量管理部调度岗,由调度岗将相应信息进行工维、运维、网络关联同事进行信息告知,同时报工维主管领导知悉。
35,5)应急机房发电操作流程:
36,⑴机房用电系统包括四方面:空调制冷、主/备UPS主机、照明系统、客服调度系统。37,⑵发电前考虑4方面系统设备用电功率情况,为保障发电机带动的正常,不能进行同步供电,要区分优先恢复的步骤实施,确认发电机的工作正常。在发电前将需要供电的“空调制冷、主/备UPS主机、照明系统、客服调度系统”的市电输入主开关关闭。防止同步启动时发电机的无法供电保证。
38,⑶启动发电机,检测发电输出电流通断,待发电机运行稳定后。
39,第一步启动空调制冷系统的市电输入开关,运维应急小组成员重新启动空调主机(空调因为市电恢复后需要重新启动)观察空调制冷工作是否正常。
40,第二步启动主UPS设备的市电输入开关,观察发电机运行稳定情况,主UPS主机工作稳定情况,网络设备的工作正常与否。
41,第三步启动客服系统的市电输入开关,包括(客服坐席电脑、UPS设备、空调制冷等),观察发电机运行稳定情况,设备恢复工作情况。
42,第四步启动备UPS设备、市电照明的市电输入开关,观察发电机运行稳定情况,备UPS主机工作稳定情况,网络设备的工作正常与否。
43,⑷发电机启动,市电输入正常后,网管将降温系统的抽排风设备关闭,与运维同事进行所有设备的运行进行全面的检查,确保设备已经是运行正常。
44,⑸发电机发起市电正常后,工维应急小组安排专人现场值守,及时关注发电机油量情况,同时与油品供应商确认油品配送要求及时间要求,并实时与供电部门确认市电恢复时间。
45,6)停电过程中突发事项预防: 46,⑴网管在停电时进行机房确认运行中的UPS工作组、设备组工作状态。主/备UPS工作切换是否正常,在市电中断时UPS是否已经开始进行供电保护。
47,⑵值班网管对机房中的所有设备进行全面检查,确保所有的设备已经是有主备供电,市电中断后UPS已经正常保障设备工作。同时对机房的温度进行观察,温度是否突然升高。
48,⑶停电后,UPS处于逆变工作状态,当班人员要每隔15分钟观察一次UPS的蓄电池容量、带负荷情况、机房环境温度,尽量使蓄电池容量大于60%,带负荷小于85%(因为已经有自购发电机应急,尽快要求短时间发起电,减少UPS的放电过度)。
49,⑷发现机房环境温度大于26℃。当以上指标不能保证时,要及时向机房管理员汇报,同时上报责任领导知悉,网管预案小组成员经过慎重讨论,适时采取关闭不必要网络的网络设备、加强通风降温等措施尽量延长关键设备运行时间
50,三.应急发电机的油品保障措施
51,发电机正常启动后,需要做到油品及时供应,具体保障措施方案为: 52,1.确认多家供应商进行油品供应,签署油品供应协议,确保油品的供应充足。
53,2.油品的供应以应急小组成员通知后开始准备,协议要求是6小时内送货到场。54,3.只要进行发电一小时以上,则必须在停止发电后补充满油品,确保发电机随时都是满配油品保障中。
55,4.油品的零购是属于公安部门的监管,所以分公司提前将资料向公安部门报备,在公司因为特殊原因有零购油品需求,在公安部门已经有分公司备案资料下,每次使用零购油品进行公安部门盖章申请。可以随时进行购买。
56,四.恢复交流电后的处理措施
57,1.打开电力室和网络机房空调市电开关,并将调节温度设定为20℃。首先恢复机房制冷系统的正常工作。
58,2.等供电稳定后(一般在恢复市电10分钟后),闭合主/备UPS设备空气开关,恢复给主/备UPS交流供电。观察并确认UPS转换为交流稳压和浮充状态。
59,3.闭合客服系统的主空气开关,恢复客服系统的交流供电,并观察设备工作运行情况。
60,4.观察10分钟后,确保所有网络及设备、UPS设备组工作稳定后,将发电机停止发电,并将情况报告给调度及主管领导。
61,5.应急小组将发电的物资进行收拾整理存放好,并进行记录发电机的工作时间及油/水/电路的切断。机房的降温设备的关闭确认及物资收拾整理存放好。62,6.将处理情况做详细书面记录,请相关人员签字确认并报集团公司信息化系统管理平台上填写相关记录。
63,五.发电机的日常维护措施
64,对于柴油发电机来说,由于它不是日常的主要供电设备,所以日常的维护保养主要包括以下几个方面:
65,1.定期检查和更换柴油过滤器和机油过滤器
66,2.定期清理检查进气过滤器,并在固定的周期进行更换(或者根据现场的工况和进气过滤器的透气程度进行更换)67,3.定期检查和清理电池组接线柱,保持接线柱清洁
68,4.定期检查电池组的充电状态,保证良好的充电效果
69,5.定期检查风扇皮带的状态,确保无损伤和处于正常的松紧度
70,6.定期检查冷却液的状态,确保满足要求
71,7.定期检查或者更换柴油机机油,确保油位正常
72,8.冬天寒冷季节要确保机组预热装置正常工作,以便在需要启动发电机时能正常启动
1.机房工作人员应具备用电常识,了解机房供电布局、开关位置、设备供电来源等,机房工作时间注意用电安全和自身安全。
2.机房工作人员不得私自更改设备供电线路,对自己所管设备进行断电操作时不能影响其他设备供电,新增设备需要供电应由机房电力管理员统一调配。
3.机房禁止使用高温、炽热、产生火花的大功率或危险设备,确需使用电焊、电钻等,须在电力管理员指导下用电。
4.工作时发现用电安全隐患如漏电、火花、设备异常发烧等现象,应立即报告机房电力管理员,并协助进行处理。
5、机房停电需要启用内部发电系统时,设备管理人须在场及时检查自管设备是否正常供电。
6、机房电力管理员应定期对机房供电设备、线路、电源、开关等相关设备进行安全检查,及时排除用电安全隐患。
1.综述 为尽量避免机房内电力意外事故,以保障人身安全、防止设备损坏及影响供电系统等为目的。规范数据中心机房设备加电、日常操作的用电安全防护措施,制定本文档。
2.范围 本文档适用于北京移动数据中心所有机房(菜市口、望京、昌平、丰台、大白楼)。
3.用电安全措施 机房日常用电安全的最高准则为确保人员安全。3.1 设备用电安全措施 3.1.1设备上架加电要求
•• 所有进入机房,需使用机房电源的设备应为正规品牌且具有3C标志(即中国强制性产品认证)中CCC+5安全认证标志或CCC+S&B安全与电磁兼容认证标志任意一个。任何自行组装(DIY)设备不得上架加电。• 设备上架加电前应在机房外,使用非机房(生产用电)电源进行加电、开机测试,测试该设备电源组件为正常运行方可上架加电。• 不能在机房外加电测试的直流电设备,进入机房后首次加电需机房负责人,电力维护人员,中通维护人员,运维人员及客户同时在场。• 不能在机房加电测试的其他交流电设备,进入机房后首次加电需机房负责人中通维护人员,运维人员及客户同时 在场。• 设备上架后,加电前,由中通维护人员对机柜电源进行通路、电压测试,测试结果正常后由客户自行闭合对应的空开。●以上任意一点不能达到标准,必须由机房负责人书面(包含邮件)批准。
3.1.2 设备日常操作安全措施
• 机房内应设置维护和测试用电源插座(地插、强插等),供日常维护过程中接插相关维护设备,仪器仪表等。严禁随意使用机柜内电源接插。• 需要关闭电源时,不要设想电源已关闭,必须仔细检查,确认。• 为避免静电对设备的电子器件造成损坏,对设备进行操作时应穿着防静电服或戴防静电手套或佩戴防静电手镯。• 拿电路板时,应拿电路板边缘,不要接触元器件和印制电路。• 保持机柜内清洁、无尘。• 防静电手镯的使用方法如下:
1、将手伸进防静电手镯,戴至手腕处。
2、拉紧锁扣,确认防静电手镯与皮肤有良好的接触。
3、将防静电手镯,插入设备的防静电手镯插孔内,或者是用鳄鱼夹夹在机柜的接地处。
4、确认防静电手镯良好接地。3.2.日常维护人员安全措施:
• 非电工作业人员、不具有电气电力专业资质人员严禁进行任何电工作业。电工作业包括但不限于以下内容:对机房配供电设施、装置进行安装、维护、检查、检修等操作。• 配供电设施、装置的绝缘或外壳损坏,可能导致人体接触及带电部分时,应立即停止使用,并及时修复或更换。• 移动用电设备、打开用电设备外壳时必须拔掉所有电源线和外部电缆。• 确认操作区域内地面无积水、潮湿等。• 为避免出现意外,尽量不要一个人进行带电维护。维护前应确认设备的电源开关,如发生意外,第一时间切断对应的电源开关。
1.机房工作人员应学习常规的用电安全操作和知识,了解机房内部的供电、用电设施的操作规程,注意节约用电。
2.机房工作人员应经常实习、掌握机房用电应急处理步骤、措施和要领;在真正接通设备电源之前必须先检查线路、接头是否安全连接以及设备是否已经就绪、人员是否已经具备安全保护。
3.机房管理人员必须定期安排有专业资质的人员检查供电、用电设备、设施;如发现用电安全隐患,应即时采取措施解决,不能解决的必须及时向相关负责人员提出解决。
4.机房不得乱拉乱接电线,应选用安全、有保证的供电、用电器材;严禁随意对设备断电、更改设备供电线路,严禁随意串接、并接、搭接各种供电线路。
5.机房工作人员对个人用电安全负责。外来人员需要用电的,必须得到机房管理人员允许,并使用安全和对机房设备影响最少的供电方式。
6.机房工作人员需要离开当前用电工作环境时,应检查并保证工作环境的用电安全。
7.最后离开机房的工作人员,应检查所有用电设备,应关闭长时间带电运作可能会产生严重后果的用电设备。
8.禁止在无人看管下在机房中使用高温、炽热、产生火花的用电设备。
9.在使用功率超过额定瓦数的用电设备前,必须得到上级主管批准,并在保证线路安全的基础上使用。
10.在外部供电系统停电时,机房工作人员应全力配合完成停电应急工作。
第二篇:机房应急预案
应急处置方案
第一节 总 则
1、保证人员和财产的安全为前提的原则:在由于火灾或电力问题造成的主机故障,在解决故障前,应以保证人员的生命安全和财产的安全为前提,然后进行故障的解决。
2、最快时间恢复业务的原则:本着先想尽一切方法,尽快恢复业务的原则来处理故障,如在有备用设备的情况下,主设备产生了故障,应先尽快将应用切换到备用机上,使业务能够运行,再对故障设备进行诊断和维修。
3、故障应急人员高度负责的原则:当故障应急人员在节假日接到故障通知时,本着高度负责的态度,应迅速接手处理障碍,如远程无法处理解决,应迅速赶到故障设备所在地,进行现场处理,处理故障的同时应及时向领导汇报。应急人员不可互相推卸责任,如因特殊情况,确实无法处理障碍,部门领导必须安排好其他人员处理。
4、尽可能全面的保留故障现场的原则:当故障发生后,应急人员应尽可能全面的备份出能够反映故障现象的各种日志、记录、受损文件等,便于业务恢复后,对故障的分析、解决,杜绝故障的再次发生。
应急方案的目标:保证预付卡运营系统连续安全稳定地运行。
第二节 应急领导小组
应急领导小组成员:
组 长: 副组长: 成 员:
第三节 电源系统故障应急处理
定期检查信息中心机房电源设备的运行状况,当发生下列突发事件时,按以下方案进行处置:
当中心机房发生市电供电突然停电或远程报警电源异常时。首先确认是否为正常停电及预计停电时间。检查不间断电源的电池可供电时间,需在不间断电源供电时效内关闭所有服务器及网络设备。
联系工程部查看停电原因,尽快恢复供电,并将情况报告相关领导
工程部联系电话:
第四节 空调系统故障应急处理
定期对空调的运行情况进行检查,如有报警信息,应及时查找故障原因,对于不能自行排除的问题,应及时与设备提供商进行联系。
当中心机房主空调因故障无法制冷,致使机房内环境温度超过摄氏40度时,打开机房房门,并关闭所有服务器及网络设备。对于无法自行处置的空调系统异常情况,及时与设备提供商联系,并报告公司领导。空调问题联系人:
第五节 中心机房自动消防系统应急处理
当中心机房发生火警时,按以下方案进行处置:
1.上班工作时间发生火警,听到自动消防系统发出的声光报警后,中心机房附近办公室人员应及时紧急撤离,避免气体自动消防系统启动后,消防气体对附近人员造成人身伤害。确认火警后,立刻拨打119报警,并说明尽量使用气体灭火器进行灭火,减少电子设备的损坏。
2.发生火警后,信息中心相关人员应马上赶赴现场,并向有关领导报告事故情况。同时立即联系联通等相关公司,及时评估事故损失情况,研讨尽快恢复信息系统正常运行的最佳方案。安保消防中控电话:
第六节 设备、网络系统故障应急处理
设备、网络应用系统故障应由发现人通知技术部,技术部门立即检查故障,进行初步故障定位,解决;
1.网络设备、服务器、储存设备均有备份,当设备存在硬件问题时,可随时把业务切换到备份主机上,保证业务正常运行; 2.应用系统每更新一次则做一次远程备份,在远程主机上分别备份旧的应用系统和更新后的应用系统,以当天的更新日期命名; 3.对磁盘柜上的数据库文件有定时任务,每天凌晨4:00会把数据库里的数据文件倒出到远程备份主机上,以确保磁盘柜出现硬件故障的时候,数据文件不丢失;对于网络、应用系统出现硬件方面的故障,比较严重的问题,对业务的正常运行造成较大的影响,立即向有关领导报告。
4、网络中有监控服务器,运用Cacti v10最新的版本,监控网络所有设备(路由器,防火墙,交换机以及服务器设备);对设备本身的硬件检测、外部入侵检测、外部攻击等多种对系统不利因素以发送mail的形式报警;相关人员收到报警信息,分析收到的log日志以做出相应的处理。
5、每周周五对网络设备进行日志及配置文件采集,对数据库数据文件定期下载,和远程备份;在本地电脑上保存最近的配置文件,以便在发生毁灭性的灾难时,用来重组。
对简单故障,运维人员应迅速排除故障,解决问题并记录。如果需要更换设备,应上报有关领导,经批准后马上更换故障设备,尽快恢复网络、应用系统运行。运维部门判断无法及时修理时,应立即通知相关的系统运行服务提供商,在最短的时间内安排修理或更换系统。
如发现属外部线路的问题,应与线路服务提供商联系,敦促对方尽快恢复故障线路。
启用备份线路、设备、系统,迅速恢复相关的应用。
联通联系电话:
第七节 黑客入侵的应急处理
发现网络上有黑客攻击行为,任何人员都有义务向技术部门报告。技术部立即启动应急响应,切断受攻击计算机与网络的连接,停止一切操作、保护现场,并上报有关领导。
对于黑客攻击,由计算中心组织应急响应专家小组查找入侵踪迹,分析入侵方式和原因。由安全管理员根据对入侵事件的分析,组织相关人员对内部网计算机整改,防止黑客用同样的手段再次入侵其他系统。安全管理员检查确定无安全隐患后,才可将受攻击计算机重新连接网络,或启用备份计算机来恢复应用。
安全管理员应做好记录,保护现场,进行日志收集等工作。如果能追查到攻击者的相关信息,可以对其发出警告,必要时可以采取进一步的行动,乃至采取法律手段。根据破坏程度,经有关领导同意后,上报公安部门。
若系统已被黑客破坏,无法恢复,应将受黑客攻击的计算机上的重要数据备份到其他存储介质,确保计算机内重要的数据不丢失。如果数据无法恢复,经有关领导同意后,可与国家指定的部门联系,由他们来协助恢复,为保证数据信息安全,需在安全管理部门作记录。
第八节 生产系统、数据库故障处理
生产系统出现故障,技术部做出应急处理
1.因软件设计缺陷、设计漏洞等引起的故障,通知公司研发部门在2小时内查明原因,解决问题。
2.数据库出现故障,运维人员应在2小时内查清故障原因,其他相关部门应积极配合,解决问题。
3.如出现数据丢失情况,确认不能自行恢复后,启用备份恢复数据,24小时内恢复运营。
本方案自发布之日起施行
第三篇:机房应急预案
中心机房突发事件应急预案
第一条
机房突发事件包括网络设备或服务器故障、自然灾害(水、火、电等)造成的 物理破坏、人为失误造成的安全事件等等。针对突发事件的预防措施如下:
1.建立安全、可靠、稳定运行的机房环境,防火、防盗、防雷电、防水、防静电、防尘; 建立备份电源系统;加强所有人员防火、防盗等基本技能培训。
2.服务器采用可靠、稳定的硬件设备,落实数据备份机制,安装有效的防病毒软件,及时 更新升级扫描引擎;加强对局域网内所有用户和信息系统管理员的安全技术培训。
第二条
机房漏水应急预案如下:
1.发生机房漏水时,第一目击者应立即通知机房管理人员。
2.若空调系统出现渗漏水,机房管理人员应立即安排停用故障空调,清除机房积水,并及 时联系设备供应方处理,同时启动备用空调,必要情况下可临时用电扇对服务器进行降温。3.若为墙体或窗户渗漏水,机房管理人员应立即采取有效措施确保机房安全,同时安排通 知办公室,及时清除积水,维修墙体或窗户,消除渗漏水隐患。
第三条
机房火灾应急预案如下:
1.完善机房环境,确保机房具备二氧化碳灭火器;禁止携带易燃易爆物品进入机房。2.机房管理人员应熟悉机房内部消防安全操作和规则,了解消防设备操作原理,掌握消防 应急处理步骤、措施和要领,懂得灭火的方法,会扑救初起火灾,并定期组织灭火演习。3.一旦发生火灾,迅速切断机房电源,避免灾情的扩散,并迅速拨打物业管理和119火警电话。
4.等待消防车到来期间,应组织物业保安或工作人员在保证安全的前提下灭火,应急领导小组应在第一时间内集中所有二氧化碳灭火器,抓住时机,尽可能的把火扑灭。
5.配合消防部门调查事故原因,对造成的损失和起火原因做好记录,以便进行灾后总结。
第四条
雷击事故应急预案如下:
1.遇雷暴天气,机房管理人员在下班后应及时关闭所有服务器,切断电源,暂停内部计算 机网络工作。
2.雷暴天气结束后,机房管理人员应及时开通服务器,恢复内部计算机网络工作,对设备 和数据进行检查。出现故障的,事发部门应将故障情况及时报告机房管理人员。
3.因雷击造成损失的,机房管理人员应会同相关部门进行核实、报损,并在调查工作结束 后一日内书面报告领导。
第五条
设备防盗被盗或人为损害应急预案如下:
1.机房管理人员每日查看、清点设备并锁好机房大门。
2.机房管理人员每日检查录像监控服务器状态,确保监控画面正常,并检查每日录像正常性、完整性。
3.发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告相关负责人,同时保护好现场。
4.机房维护人员接报后,通知保安及公安部门,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。
5.事发单位和当事人应积极配合公安部门进行调查,并将有关情况向机房管理人员汇报。
第六条
机房停电应急预案如下:
1.接到停电通知后,机房管理人员应及时通过办公系统、电话等发布相关信息,部署应对具体措施,要求用户在停电前停止业务、保存数据。
2.机房管理人员每日检查UPS电源的状态,确保在突发停电时,UPS电源能自动供应服务器正常工作半个小时,保证员工工作的数据及时保存。
第七条
通信网络故障应急预案如下:
1.发生通信线路中断、流量异常等故障后,员工应及时通知机房管理人员。
2.机房管理人员在接到报告后,迅速组织相关技术人员检测故障区域,并作相关故障处理,必要时通知通信网络运营商查清原因;逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。
3.应急处理结束后,机房管理人员应在一日之内提交故障分析报告,以便备案。
第八条
服务器故障应急预案如下:
1.机房管理人员每日检查服务器状态,检查邮箱服务器状态,确保系统运行的完善。
2.机房管理人员定期备份服务器数据,并将备份资料刻录成光盘或拷贝到移动硬盘。
第九条
1.发生机房突发事件后,机房管理人员应采取有效措施开展先期处置,恢复信息网络正常状态。应急处置工作结束后,机房管理人员对事件发生原因、性质、影响、后果、责任及应急处置能力、恢复重建等问题进行全面调查评估,根据应急处置中暴露出的管理、协调和技术问题,改进和完善预案,实施针对性演练,总结经验教训,整改存在隐患,组织恢复正常工作秩序。
第四篇:机房火灾事故应急预案
机房火灾事故应急预案
1.总则 1.1编制目的
为高效有序地做好机房火灾事故的应急处置工作,避免或最大程度地减轻火灾事故造成的损失,保障员工生命和企业财产安全,维护社会稳定。1.2编制依据
《中华人民共和国安全生产法》 《江苏省消防条例》 1.3适用范围
适用于机房火灾事故的现场应急处置和应急救援工作。2.事件特征
2.1事件类型及危险性分析
2.1.1电气线路短路、过载、接触电阻过大,静电,雷击等强电侵入,机房内电脑、空调等用电设备长时间通电过热、设备故障等原因均可能引起计算机房的火灾事故。
2.1.2机房火灾事故会造成计算机设备损坏、系统故障网络中断或瘫痪,影响网络的安全运行。
2.1.3火灾产生的有毒烟雾污染机房的空气,造成人员中毒、窒息等人身伤亡事故。3.应急组织及职责 3.1火灾应急指挥部
应急指挥部总指挥: 机房火灾应急抢险指挥: 成员:
3.2指挥部人员的职责
3.2.1指挥的职责:全面指挥突发事件应急救援工作。
3.2.2高低压专业职责:组织、协调本部门人员参加应急处置和救援工作,对发生险情机房切断电源。
3.2.3智能化专业职责:监控相关区域事故情况。
3.2.4空调专业职责:发现异常情况,及时切断空调、通风系统,做好运行方式的调整和故障设备的隔离。4应急处置
4.1现场应急处置程序
4.1.1最早发现火情者应立即向值班长和机房负责人汇报,机房负责人到现场指挥灭火,同时报告公司领导,启动本预案。
4.1.2机房负责人根据事故状态及危害程度做出相应的应急决定,指挥疏散现场无关人员,各应急救援队立即开展救援。
4.1.3事故扩大时,拨打119报警电话请求市消防队支援。报警内容:单位名称、地址、着火物质、火势大小、着火范围。把自己的电话号码和姓名告诉对方,以便联系。同时还要注意听清对方提出的问题,以便正确回答。打完电话后,要立即到交叉路口等候消防车的到来,以便引导消防车迅速赶到火灾现场。4.2现场应急处置措施
4.2.1机房负责人组织人员迅速查明着火原因。4.2.2发生火灾事故后,运行值班人员在人身安全不受危害的情况下要坚守本职岗位,确保设备运行。
4.2.3火灾初起阶段,值班人员要利用区域内常规灭火器(干粉或气体灭火器)进行扑救。控制初起火灾,防止火势蔓延。根据火势情况立即启动气体自动灭火装置。
4.2.4被困火场逃生时,应用湿毛巾捂住口鼻,背向烟火方向迅速离开。逃生通道被切断、短时间内无人救援时,应关紧迎火门窗,用湿毛巾、湿布堵塞门缝,用水淋透房门,防止烟火侵入。
4.2.5火灾发生时要采取有效措施扑灭身上的火焰,使伤员迅速脱离开致伤现场。当衣服着火时,应采用各种方法尽快地灭火,如水浸、水淋、就地卧倒翻滚等,千万不可直立奔跑或站立呼喊,以免助长燃烧,引起或加重呼吸道烧伤。灭火后伤员应立即将衣服脱去,如衣服和皮肤粘在一起,可在救护人员的帮助下把未粘的部分剪去,并对创面进行包扎。
4.2.6在火场,对于烧伤创面一般可不做特殊处理,尽量不要弄破水泡,不能涂龙胆紫一类有色的外用药,以免影响烧伤面深度的判断。为防止创面继续污染,避免加重感染和加深创面,对创面应立即用三角巾、大纱布块、清洁的衣眼和被单等,给予简单而确实的包扎。手足被烧伤时,应将各个指、趾分开包扎,以防粘连。
4.2.7消防队到达火场时,应立即与消防队负责人取得联系并交待失火设备现状和运行设备状况,然后协助消防队灭火,并提供技术支援。4.2.8复情况,事故应急处理全部结束,才能恢复生产秩序。4.3火灾事故报告流程
4.3.1出现火情后,值班人员除采取有效措施扑灭初期火情外应立即想机房负责人汇报;
4.3.2火势无法控制时由机房负责人决定报火警请求辖区消防队救援。并在在火灾事故发生后1小时内向所云汇报突发事件信息。速报内容主要包括事故发生的时间、地点、人员伤亡、设备损坏情况、可能的引发因素和发展趋势等。4.3.3联系方式
消防队: 119 医务急救:120 4.4注意事项
4.4.1应急处置时注意防止中毒、窒息、触电、烫伤。
4.4.2危险区设好警戒线,并挂好标示牌。无操作权限的人员不得乱动现场设备。
4.4.3佩戴个人防护器具时注意检查防护用品合格,且在有效检验期内;正确佩戴使用正压式呼吸器、隔热服、隔热手套、绝缘靴等安全防护用具。
4.4.4现场自救和互救时不熟悉现场情况和灭火方法的人员不得盲目进入危险区域,救人前先确认自己的能力和现场情况是否能够满足对他人施救的需要。
4.4.5应急救援结束后要全面检查,确认现场无火灾隐患和建筑物坍塌的隐患。4.4.6加强自身防护,避免救火导致人身伤害。4.5附则
4.5.1机房应急人员的联系方式。
第五篇:中心机房应急预案
中心机房应急预案
一、系统故障应急流程
1.1 系统故障应急流程说明
一、故障发生
值班人员可从以下途径得知故障的发生: 1)值班人员通过报警系统告警发现故障 2)值班人员通过远程数据监测发现故障 3)值班人员通过维护巡检发现故障 4)系统用户发现故障,报给呼叫值班人员
二、报障受理
值班人员发现系统故障发生后,立即响应,根据级别进行应急处理,并向相关领导报告系统故障情况。
三、信息研判
值班人员根据了解到的系统故障情况进行分析判断,以确定采用一般故障处理流程还是立即启动系统突发故障应急处理预案。
四、预案启动
如需启动应急预案,则立刻通知相关领导小组,由相关领导小组启动应急预案,对系统突发故障应急事件进行全面管控处理。
五、资源确认
系统突发故障应急预案启动后,首先是根据现场突发故障实际状况、紧急程度、技术难度、备品备件等情况对相关资源(主要是参与人员)依据经验进行调度和确认,主要有以下资源:
本单位相关技术支持人员 授权第三方公司技术支持人员; 故障设备相关厂家技术支持人员; 聘请的技术专家
六、预案执行
按照既定的预案进行突发事件处理和故障抢修,如遇到问题及时向相关领导小组汇报。
七、预案终止
预案的终止时间由故障现场技术人员根据现场的实际进展情况,在与用户单位有关部门协调后相关领导小组决定。
八、结果上报
预案中止后,相关预案参与人员将整个事件过程中所有收发信息、领导批示、事故调查报告、现场录像、图片等材料及时整理归档,并总结事件处理过程中的经验和教训,修改、完善事件应急预案。然后集中上报至相关领导小组。
1.2 系统故障应急处理流程图
机房应急预案
3.1 机房漏水应急预案
(1)发生机房漏水时,第一目击者应立即检测漏水影响范围,并及时报告相关领导小组。
(2)若空调系统出现渗漏水,值班人员应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,同时启动备用空调,必要情况下可其它方式(通风、冰块降温等)对服务器进行降温。
(3)若为墙体或窗户渗漏水,值班人员应立即采取有效措施确保机房安全,同时安排通知房屋产权方,及时清除积水,维修墙体或窗户,消除 渗漏水隐患。
3.2 设备发生被盗或人为损害事件应急预案
(1)发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告相关领导小组,同时保护好现场。
(2)相关领导小组接报后,通知用户保卫部门、相关领导,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。
(3)值班人员应当积极配合公安部门进行调查,并将有关情况向相关领导小组汇报。(4)相关领导小组安排相关技术人员及时恢复系统正常运行,并对事件进行调查。值班人员应在调查结束后三日内书面报告相关领导小组。
3.3 机房长时间停电应急预案
(1)接到长时间停电通知后,值班人员应及时通过办公系统、电话等发布相关信息,部署应对具体措施,要求相关保障人员在停电前及时就位,检查业务系统、保存数据。
(2)停电时间过长的,应准备充足燃油,并准备租用电力公司发电车协助,保证系统正常运转。3.4 通信网络故障应急预案
(1)发生通信线路中断、路由故障、流量异常、业务系统故障后,操作员应及时通知本单位相关系统管理员,经初步判断后及时上报值班人员和相关领导小组。
(2)值班人员接报告后,应及时查清通信网络故障位置,隔离故障区域,并将事态及时报告相关领导小组,通知相关通信网络运营商查清原因;同时及时组织相关技术人员检测故障区域,逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。
(3)事态或后果严重的,应及时向相关领导汇报。
(4)应急处置结束后,值班人员应将故障分析报告,在调查结束后三日内书面报告相关领导小组。
3.5 不良信息和网络病毒事件应急预案
(1)发现不良信息或网络病毒时,信息系统管理员应立即断开网线,终止不良信息或网络病毒传播,并报告相关系统维护人员和相关领导小组。
(2)值班人员应根据相关领导小组指令,采取隔离网络等措施,及时杀毒或清除不良信息,并追查不良信息来源。
(3)事态或后果严重的,应向总公司相关领导汇报。
(4)处置结束后 ,值班人员应将事发经过、造成影响、处置结果在调查工作结束后三日内书面报告相关领导小组。
3.6 服务器软件系统故障应急预案
(1)发生服务器软件系统故障后,值班人员应立即组织启动备份服务器系统,由备份服务器接管业务应用,并及时报告相关领导小组;同时安排相关责任人将故障服务器脱离网络,保存系统状态不变,取出系统镜像备份磁盘,保持原始数据。
(2)值班人员应根据相关领导小组的指令,在确认安全的情况下,重新启动故障服务器系统;重启系统成功,则检查数据丢失情况,利用备份数据恢复;若重启失败,立即联系相关厂商和上级单位,请求技术支援,作好技术处理。(3)事态或后果严重的,总公司相关领导汇报。
(4)处置结束后,值班人员应将事发经过、处置结果等在调查工作结束后三日内报告相关领导小组。
3.7 黑客攻击事件应急预案
(1)当发现网络被非法入侵、业务内容被篡改,应用服务器上的数据被非法拷贝、修改、删除,或通过入侵检测系统发现有黑客正在进行攻击时,使用者或管理者应断开网络,并立即报告相关领导小组。
(2)接报告后,相关领导小组应立即指令相关技术人员核实情况,关闭服务器或系统,修改防火墙和路由器的过滤规则,封锁或删除被攻破的登陆帐号,阻断可疑用户进入网络的通道。
(3)值班人员应及时清理系统,恢复数据、程序,恢复系统和网络正常;情况严重的,应向总公司相关领导汇报,并请求支援。
(4)处置结束后 ,值班人员应将事发经过、处置结果等在调查工作结束后三日内报告相关领导小组。
3.8 核心设备硬件故障应急预案
(1)发生核心设备硬件故障后,值班人员应及时报告相关领导小组,并组织查找、确定故障设备及故障原因,进行先期处置。
(2)若故障设备在短时间内无法修复值班人员应启动备份设备,保持系统正常运行;将故障设备脱离网络,进行故障排除工作。
(3)值班人员故障排除后,在网络空闲时期,替换备用设备;若故障仍然存在,立即联系相关厂商,认真填写设备故障报告单备查。
(4)事态或后果严重的,应向总公司相关领导汇报。
3.9 业务数据损坏应急预案
(1)发生业务数据损坏时,值班人员应及时报告相关领导小组,检查、备份业务系统当前数据。(2)值班人员负责调用备份服务器备份数据,若备份数据损坏,则调用磁带机中历史备份数据,若磁带机数据仍不可用,则调用异地备份数据。
(3)业务数据损坏事件超过 X小时后,维护小组应及时报告相关领导,及时通知业务部门以其它方式开展业务。
(4)值班人员应待业务数据系统恢复后,检查历史数据和当前数据的差别,由相关系统业务员补录数据;重新备份数据,并写出故障分析报告,在调查工作结束后三日内报告相关领导。
3.10 雷击事故应急预案
(1)遇雷暴天气或接上级部门雷暴气象预警,值班人员应及时报告相关领导,经请示同意后关闭部分服务器,切断电源,暂停内部计算机部分网络工作。
(2)雷暴天气结束后,值班人员报经相关领导小组同意,及时开通服务器,恢复停用的计算机网络工作,对设备和数据进行检查。
(3)因雷击造成损失的,值班人员应会同相关部门进行核实、报损,并在调查工作结束后三日内书面报告相关领导小组。必要时,应向总公司相关领导汇报。
四、机房动力系统应急处理方案
在机房动力发生异常情况时,动力系统通常可自动切换由备用电池提供机房设备的动力,在发生重大事故或自然灾害而无法短时间内正常恢复机房动力的情况下,启动机房动力系统应急处理流程,采用应急油机发电,确保用户单位网点通信网络能够安全、高效和可靠地运行。具体流程见下图: 监控到机房动力异常告警 通知维护站赴现场,监视动力系统电压下降情况 停电时间超过备用电池的合适支撑时间? 否 是 通知相关部门协助排查动力系统故障 超过蓄电池允许放电电压,立即启动油机发电 动力恢复 关闭油机供电开关 关闭电源柜油机开关 关闭/拆除油机 市电供电/蓄电池充电正常 消障
当发生长时间停电的动力系统故障时,抢修人员在机房现场实时测试记录备用电池的放电情况,电池放电容量超过40%时,如果动力系统还没有恢复正常供电,就用油机发电为机房提供动力。
动力系统恢复后立即对电池进行均充。一天内发生多次停电,放电容量在50%以下,均充转浮充后,浮充时间不少于24小时。一次停电放电容量在50%~80%时,均充转浮充后,浮充时间不少于48小时。