第一篇:机房断电应急措施
机房断电应急方案
第一条:机房意外停电后,首先确定停电的范围以及受影响的设备范围。
第二条:确认停电的范围为本公司或本机房,应立即联系工机科电话汇报。估算电力可能恢复的时间,并通知直接上级。
第三条:如果确认停电的时间在1个小时内,可以在UPS正常供电的时间内,等到电力恢复。如果不能确认在2个小时内恢复供电,需及时到达现场。做好各设备的电源停电准备。在UPS供电达1.5个小时后,严格按操作手册停掉存储和各应用服务器的电源,最后停核心交换机和路由期。等待电力恢复,电力恢复供电后转第七条执行。如果确认停电的范围仅在于本机房电源故障,立即汇报给机房电源维护负责人。
第四条:机房维护负责人将掉电的电源柜总空开和分空开的状态处于下电状态。并向直接领导汇报,马上联系相关厂家,如有可能请厂家立即到现场支持。第五条:将掉电的所有的设备电源状态处于下电状态,以防止电源柜加电对设备的冲击。
第六条:等各厂家和相关的人员到齐后,商议设备恢复时因注意的事项,并形成相关文档。
第七条:电力室恢复供电后,先不要急于给电源柜加电,等待10—20 分钟后,再开始给电源柜加电,以防止供电不稳或再次掉电。
第八条:供电正常后,确定设备处于下电状态后,打开电力柜的总控开。第九条:根据设备加电顺序,启动分项空开。第十条:设备加电顺序,网络交换类设备正常后再给磁盘阵列柜加电,存储状态检查正常后,启动主机(以上各设备务必按操作手册的启动顺序上电)。第十一条:设备启动正常后,开始启动数据库。第十二条:数据库启动正常后,开始启动中间件服务器。第十三条:中间件服务器正常后,启动应用程序。
第十四条:机房设备进行全面点检,确认所有设备运行和服务正常。
第二篇:通讯机房供电系统应急措施
通讯机房供电系统应急措施
一、编制目的
为保障我矿通讯机房各系统安全可靠运行,有效预防、控制和处理机房供电系统各类事故,维护煤矿安全生产秩序的正常进行,根据科领导加强应急管理工作的意见要求,结合通讯机房供电系统实际,特制定本应急措施
二、机房供电系统介绍:
1、机房供电电源采用双路市电,一路来自选煤厂变电所,一路来自单宿西箱变,电压均为380V。
2、机房设置配电柜一台,两路市电接入,内设电源自动切换开关,机房设备、空调系统、照明系统等负载开关均接入该配电柜。
3、机房配备两套UPS后备电源系统:
一套为爱默生模块电源(型号PS48400-2D/50),外接600AH蓄电池两组,供程控交换机和调度交换机后备电源使用,在市电停电或检修的情况下,最大工作时间为12小时。
一套为爱默生UPS电源(型号UH31-0200L),外接100AH蓄电池一组,供人员定位系统、工业环网系统、应急广播系统、办公网络系统等服务器的后备电源使用,在市电停电或检修的情况下,最大工作时间为6小时。
三、应急组织构成与职责
1、组织构成组 长:科长
副组长:通讯副科长
成 员:通讯班全体成员
2、组织职责:
① 发生停电时,立即查看机房交换机、服务器等设备是否受到影响;
② 第一时间向调度室和相关领导汇报,进行合理的风险评估; ③ 按照应急指挥人员安排和应急措施步骤迅速实施操作; ④ 收集和整理在应急反应过程中所获得的信息,及时反馈给指挥人员,整理应急反应资料并进行归档留存。
四、应急措施
1、机房意外停电后,首先确定停电的范围以及受影响的设备范围。
2、确认为双路市电同时停电时,应立即向调度室汇报并通知相关领导,联系电力部门确认停电时间。
3、如果确认停电时间是在后备电源正常供电范围以内,在UPS系统正常工作的情况下,可以等待电力恢复。
4、如果市电不能在后备电源工作时间内恢复供电,应立即通知设备相关负责人到达现场,做好设备的电源停电准备。
5、UPS电源系统启动工作后,专业维护人员应实时使用万用表等测量工具对蓄电池的电压、电流各项参数进行检查,以防后备电源运行不稳定对机房设备造成损害。
6、在UPS电源供电剩余30%容量后,市电仍不能恢复供电,应立即检查原有机房各类设备、服务器等数据备份是否完整,及时更新留存做好停机准备。
7、在UPS电源供电剩余10%容量后,市电仍不能恢复供电,为保证蓄电池使用寿命,根据蓄电池维护相关规定,应关闭机房所有用电设备,停止UPS系统供电,等待电力恢复。特殊情况下,为保证重要数据留存,经申请有关领导批准后,可以将电池容量使用放尽。
8、机房设备关闭以后,应将所有设备电源开关处于关闭状态,以防止配电柜突然加电对设备造成电流冲击。
9、电力室恢复供电后,不能立即启动机房用电设备,应等待10分钟后,再陆续启动,以防止供电不稳或再次掉电。
10、当机房交换机、服务器等设备启动运行后,应仔细观察设备运行状态是否正常,数据加载是否正常。检查确认UPS系统是否转换为交流稳压和浮充状态,测量蓄电池的电压、电流等各项参数是否正常,确保没有任何异常之后,认真做好应急处理记录,方可离开现场。
第三篇:通风机房掉电司机应急措施
通风机房意外掉电应急措施
正常情况下,通风机房是由一个回路供电,另一个回路热备用,联络柜断路器处于合闸状态,当供电回路出现故障意外掉电时,若掉电的高压柜上综保显示过流二段跳闸,可以试送一次,若显示过流一段跳闸或者不明原因跳闸,严禁试送电。其中一人要立即汇报区值班,同时另一人按照操作规程将供电回路倒至另一路进线,开启停运风机,具体操作步骤如下:
一、单回路掉电
1、风机工频运行
(1)合备用回路进线柜断路器并拉出故障进线柜断路器;(2)合风机房10KV联络柜断路器;
(3)按操作规程启动停运风机,先启动稀油站,再先后启动后级电机和前级电机。
2、风机变频运行
(1)合备用回路进线柜断路器并拉出故障进线柜断路器;(2)合风机房10KV联络柜断路器;(3)合变频电源柜断路器;
(4)按操作规程启动停运风机,先启动稀油站,再通过上位机或变频器触摸屏启动两级电机,启动电机前要注意设定的启动频率。
二、双回路掉电
(1)若通风机房内两个回路均掉电,要立即查看高压柜上显示的故障类型,再按照此应急措施恢复供电并汇报区值班室。(2)若掉电原因是由35KV变电所引起,要立即汇报安全生产调度中心和区值班,同时联系35KV变电所,等待变电所供电后再按照此应急措施恢复原来的供电方式。
第四篇:分行29、9.30机房断电事故调查报告
分行9.29/9.30中心机房断电事故
调查报告
省分行信息技术管理部:
2011年9月29日12点50分及2011年9月30日8点10分,分行中心机房(以下简称机房)接连发生两次断电事故,造成郴州分行全辖所有业务分别中断45分钟、14分钟。经调查,确定如下调查结果:
1、机房UPS系统为一主一备供电模式,其中UPS1(主机)异常,在主路输入停止,电池放电完毕后自动切换旁路失败,导致UPS2(备机)供电无法送至负载;
2、UPS电池损坏,其中UPS1电池几乎完全失去功能,在输入熔断器烧坏后无法支持UPS继续供电;
3、机房存在鼠患,在UPS输入配电柜开关上发现老鼠尸体;
4、机房强电布线非常不规范,从机房配电柜至供电开关间布线凌乱;
5、9月29日断电发生时,给机房供电的两路市电其中一路变压器掉了一相电,同时UPS1烧坏一个输入熔断器;
6、9月30日断电系东方万象工程师在未获得我行人员许可的情况下对UPS1进行放电操作,导致与9月29日同样原因的掉电事故。现将具体调查情况报告如下:
一、事故现场调查情况 1、9月29日中午12:51分,技术员发现机房断电,网络通讯中断,同时发现UPS设备出现告警,UPS1整流器、逆变器指示灯为红色,旁路与输出指示灯均为绿色。UPS2整流器、逆变器、输出指示灯均亮绿灯。立即通过电话与UPS维保商东方万象技术员联系,在维保商技术员的指导下,手动关停主机Q1(主路输入)、Q4(旁路输入)、Q5(输出),开启Q3(维修旁路),负载由UPS2提供电源,供电恢复。
技术员后来发现由电业局提供的国家电网机房专线输入变压器跌落保险掉了一相。2、9月29日19:00,UPS维保商东方万象从武汉抵达现场检修UPS主机,断开UPS1电池开关,发现主输入熔断器损坏,其它元器件无异常,用导线临时替换熔断器(已损坏的),按顺序闭合Q1、Q4、电池开关、启动逆变,在Q5(此时为断开状态)输入端测得正常电压,设备运行正常。
9月30日凌晨4时左右,UPS维保商东方万象工程师周劲松携带熔断器配件。3、9月30日8:10分,东方万象工程师姜国清、周劲松关UPS1电池开关、关Q1、Q4,更换保险,合Q1、Q4,测得电池浮充电压404V,合电池开关,测得逆变后端电压正常。合Q5,看显示面板旁路电压正常,断Q3,启动逆变,负载切换到主机,全部恢复正常工作模式,4、随后,东方万象工程师姜国清、周劲松在未征求同意的情况下,擅自做UPS1放电测试,断开Q1,观察电池电压,发现电池电压瞬间由406V掉至362V,欲合上Q1时发现负载已经掉电,于是立即断开Q5,闭合Q3,发现负载仍然没电。郴州分行技术人员发现UPS输出配电柜三个施耐德20A单相空气开关跳闸(分别为网络机房、服务器机房、操作间供电开关),复位后机房负载恢复正常。
此时机房状态为:UPS1的Q1、Q4、Q5开关断开,Q3开关闭合,UPS2正常,机房负载由UPS2通过UPS1的维修旁路供给。
二、事故原因调查情况
2011年9月30日24点,管理部工程师梁承山与东方万象负责人曾志雄抵达,进行事故原因调查。10月1日凌晨1点至4点,在主持下,对29日、30日发生的UPS故障现象及处理过程进行了仔细的回顾与分析。根据掌握的情况,在向省分行信息技术管理部汇报后,确定于10月1日晚对故障UPS进行全面检修及故障排查。10月1日下午,经由省分行向总行申请了故障排查的窗口时间。
10月1日22:00,梁开始对设备进行故障排查检修,过程如下: 1、22:00,测量三个跳闸的空气开关输出电流分别为:20A、13.5A、10:21A,开关下端接头较松。判断机房负载即将达到空气开关容量上限,在电网出现波动时容易发生跳闸现象。
2、在UPS输入配电柜备机输入开关处发现死亡老鼠一只(取出后发现老鼠全身完全干枯),UPS输出配电柜输出开关及电缆上发现有其他老鼠死后留下的油污。
3、检查跳闸空开后端没有发现UPS电源插座接非计算机设备。
4、闭合UPS1的Q4开关,测UPS1的Q5(输出)开关输入端电压为399V,401V,399V,50HZ(此时UPS1的Q1(主路输入)、Q5(输出)是断开的,Q4(旁路输入)、Q3(维修旁路)、电池开关是闭合的)。判断UPS1的静态旁路是导通的。
5、闭合UPS1的Q1开关,启动逆变后,逆变正常,测Q5输入端电压为382V,383V,382V,50HZ。判断UPS1的逆变正常。
6、23:00点报告省分行运行中心,主动关停网络设备、前臵机。
7、断开UPS输入配电柜上的UPS1输入开关M1,观察电池在低负载(3A)情况下电压下降非常明显,之后断开UPS1的电池开关,UPS1显示面板显示UPS1已经自动切换旁路,旁路输出电压为399、399、399V,经实际测量Q5输入端电压为12.45V、12.53V、12.85V(感应电压,实际供电没有通过静态旁路送至Q5)。此时再测量Q4输入端电压为 402V、403V、397V,输出端电压为399V、402V、400V。证明UPS2供电正常,并已经到达UPS1的Q4,但是并没有通过UPS1D 静态旁路到达Q5。判断UPS1自动切换旁路存在故障。
8、将供电恢复正常模式:备机为正常开机状态,将主机Q1、Q4、Q3、Q5断开,停机后按正常流程开机,此时机房供电模式恢复为正常状态,测量UPS1的Q5输出端电压为382.2V、382.6V、382.2V。判断UPS1逆变输出正常。
9、断开UPS输入配电柜上的UPS1输入开关M1,断开电池开关(完全模拟事发时现场现象),UPS1面板显示“电源1超限,UPS内部故障,负载切换故障(只显示一次,再次查看即无此条报警)”,查看UPS1电压状态显示:电源2电压394V 397V 392V 负载电压394V 397V 392V,实际测得Q5输出端电压为6V、7V、8V,Q4输入端电压为402V、402V、402V,输出端电压为402V、402V、402V。此时UPS1 的整流器指示灯、逆变器指示灯为红色,旁路指示灯与输出指示灯为绿色,同时三个施耐德20A的空气开关跳闸。再次验证UPS1的自动切旁路功能存在故障。
10、再次重复步骤9,得出同样结果,此时可以确认UPS1的自动切旁路功能存在故障。
11、将供电恢复正常模式:备机为正常开机状态,将主机Q1、Q4、Q3、Q5断开,停机后按正常流程开机,此时机房供电模式恢复为正常状态。
12、断开UPS2的Q1开关(时间12:13),电池开始放电,随后断开UPS2电池开关,UPS2显示自动切换为旁路,实际测得UPS2的Q5输出电压401V 401V 397V。判断UPS2自动切换旁路正常。13、10月2日凌晨1:00,恢复正常供电模式,然后断开UPS1的Q1开关、电池开关、Q5开关、Q4开关,闭合Q3开关,将供电模式恢复为UPS2的逆变输出通过UPS1的维修旁路给机房供电。此时负载恢复供电。
14、启动网络设备、前臵机、测试网络正常、前臵机通讯控件正常。
经过以上操作测试,确定是由于UPS1主机内部存在故障,导致UPS1自动切换旁路异常,UPS2供电无法通过UPS1静态旁路向负载输出,最终导致机房设备断电。
三、应急处臵方案
由于郴州分行中心机房使用的UPS年限过长,全面维修所需的配件难以在短时间内备齐,维保商东方万象公司无法确定对UPS1进行全面维修的时间。为降低郴州分行中心机房的动力风险,经省分行信息技术部领导的批准,省分行信息技术管理部梁承山工程师、东方万象工程师、郴州分行信息技术部共同确定了将郴州分行中心机房UPS主备机互换的应急处理方案,由于UPS1的逆变输出是正常的,将UPS主备机互换,可以达到UPS设备备份的应急目的,临时提高机房供电安全系数。应急处理方案于2011年10月3日凌晨2时至6时实施。
(1)10月3日02:00开始,关闭所有负载,断开负载的输入开关。
(2)断开UPS2的输出开关Q5,断开Q4,断开电池开关和Q1。断开UPS1的维修开关Q3。
(3)拆开UPS1与UPS2的输入输出接线的前挡板。(4)拆除UPS1输出开关Q5输出端导线连接头,标记为“UPS总输出”。
(5)拆除UPS2的主输入Q1至静态旁路Q2输入端的连接线,用该导线将UPS1的主输入端Q1与静态旁路Q2输入端按相同相序连接。
(6)将UPS1静态旁路Q4输入端导线连接头拆除,按相同相序连接至UPS1输出Q5输出端。
(7)将UPS2输出开关Q5输出端导线连接头拆除,按相同相序连接至UPS2静态旁路Q4输入端。
(8)将标记为“UPS总输出”的导线连接头按拆除前相同相序与UPS2Q5输出端连接。
(9)将三个跳闸的施耐德20A单项空气开关更换为施耐德32A单项空气开关。
转换后示意图为:
确认改接正确后。合上UPS1与UPS2的输入输出接线的前面挡板,按照正常开机程序分别开启现UPS1与UPS2,完成UPS1与UPS2的转换工作。
全部转换工作需在10月3日清晨6时前完成。
2、应急方案的实施过程
10月3日凌晨2点整,在向省分行运行中心汇报后,严格按实施方案逐步实施。
3、应急方案实施后的结果
10月3日04:40,应急方案实施完毕。现场进行UPS1、UPS2性能测试过程如下:(1)断开UPS2市电输入配电柜开关M2,再断开电池开关,测量UPS2自动旁路转换正常,负载由UPS1作为备机通过UPS2的静态旁路输出给负载;
(2)恢复UPS2正常状态,此时UPS2作为主机正常供电,UPS1成功成为UPS2的备机。
(3)开启网络设备、前臵机。经现场测试: 特此报告。
二O一一年十月三日
第五篇:机房应急预案
应急处置方案
第一节 总 则
1、保证人员和财产的安全为前提的原则:在由于火灾或电力问题造成的主机故障,在解决故障前,应以保证人员的生命安全和财产的安全为前提,然后进行故障的解决。
2、最快时间恢复业务的原则:本着先想尽一切方法,尽快恢复业务的原则来处理故障,如在有备用设备的情况下,主设备产生了故障,应先尽快将应用切换到备用机上,使业务能够运行,再对故障设备进行诊断和维修。
3、故障应急人员高度负责的原则:当故障应急人员在节假日接到故障通知时,本着高度负责的态度,应迅速接手处理障碍,如远程无法处理解决,应迅速赶到故障设备所在地,进行现场处理,处理故障的同时应及时向领导汇报。应急人员不可互相推卸责任,如因特殊情况,确实无法处理障碍,部门领导必须安排好其他人员处理。
4、尽可能全面的保留故障现场的原则:当故障发生后,应急人员应尽可能全面的备份出能够反映故障现象的各种日志、记录、受损文件等,便于业务恢复后,对故障的分析、解决,杜绝故障的再次发生。
应急方案的目标:保证预付卡运营系统连续安全稳定地运行。
第二节 应急领导小组
应急领导小组成员:
组 长: 副组长: 成 员:
第三节 电源系统故障应急处理
定期检查信息中心机房电源设备的运行状况,当发生下列突发事件时,按以下方案进行处置:
当中心机房发生市电供电突然停电或远程报警电源异常时。首先确认是否为正常停电及预计停电时间。检查不间断电源的电池可供电时间,需在不间断电源供电时效内关闭所有服务器及网络设备。
联系工程部查看停电原因,尽快恢复供电,并将情况报告相关领导
工程部联系电话:
第四节 空调系统故障应急处理
定期对空调的运行情况进行检查,如有报警信息,应及时查找故障原因,对于不能自行排除的问题,应及时与设备提供商进行联系。
当中心机房主空调因故障无法制冷,致使机房内环境温度超过摄氏40度时,打开机房房门,并关闭所有服务器及网络设备。对于无法自行处置的空调系统异常情况,及时与设备提供商联系,并报告公司领导。空调问题联系人:
第五节 中心机房自动消防系统应急处理
当中心机房发生火警时,按以下方案进行处置:
1.上班工作时间发生火警,听到自动消防系统发出的声光报警后,中心机房附近办公室人员应及时紧急撤离,避免气体自动消防系统启动后,消防气体对附近人员造成人身伤害。确认火警后,立刻拨打119报警,并说明尽量使用气体灭火器进行灭火,减少电子设备的损坏。
2.发生火警后,信息中心相关人员应马上赶赴现场,并向有关领导报告事故情况。同时立即联系联通等相关公司,及时评估事故损失情况,研讨尽快恢复信息系统正常运行的最佳方案。安保消防中控电话:
第六节 设备、网络系统故障应急处理
设备、网络应用系统故障应由发现人通知技术部,技术部门立即检查故障,进行初步故障定位,解决;
1.网络设备、服务器、储存设备均有备份,当设备存在硬件问题时,可随时把业务切换到备份主机上,保证业务正常运行; 2.应用系统每更新一次则做一次远程备份,在远程主机上分别备份旧的应用系统和更新后的应用系统,以当天的更新日期命名; 3.对磁盘柜上的数据库文件有定时任务,每天凌晨4:00会把数据库里的数据文件倒出到远程备份主机上,以确保磁盘柜出现硬件故障的时候,数据文件不丢失;对于网络、应用系统出现硬件方面的故障,比较严重的问题,对业务的正常运行造成较大的影响,立即向有关领导报告。
4、网络中有监控服务器,运用Cacti v10最新的版本,监控网络所有设备(路由器,防火墙,交换机以及服务器设备);对设备本身的硬件检测、外部入侵检测、外部攻击等多种对系统不利因素以发送mail的形式报警;相关人员收到报警信息,分析收到的log日志以做出相应的处理。
5、每周周五对网络设备进行日志及配置文件采集,对数据库数据文件定期下载,和远程备份;在本地电脑上保存最近的配置文件,以便在发生毁灭性的灾难时,用来重组。
对简单故障,运维人员应迅速排除故障,解决问题并记录。如果需要更换设备,应上报有关领导,经批准后马上更换故障设备,尽快恢复网络、应用系统运行。运维部门判断无法及时修理时,应立即通知相关的系统运行服务提供商,在最短的时间内安排修理或更换系统。
如发现属外部线路的问题,应与线路服务提供商联系,敦促对方尽快恢复故障线路。
启用备份线路、设备、系统,迅速恢复相关的应用。
联通联系电话:
第七节 黑客入侵的应急处理
发现网络上有黑客攻击行为,任何人员都有义务向技术部门报告。技术部立即启动应急响应,切断受攻击计算机与网络的连接,停止一切操作、保护现场,并上报有关领导。
对于黑客攻击,由计算中心组织应急响应专家小组查找入侵踪迹,分析入侵方式和原因。由安全管理员根据对入侵事件的分析,组织相关人员对内部网计算机整改,防止黑客用同样的手段再次入侵其他系统。安全管理员检查确定无安全隐患后,才可将受攻击计算机重新连接网络,或启用备份计算机来恢复应用。
安全管理员应做好记录,保护现场,进行日志收集等工作。如果能追查到攻击者的相关信息,可以对其发出警告,必要时可以采取进一步的行动,乃至采取法律手段。根据破坏程度,经有关领导同意后,上报公安部门。
若系统已被黑客破坏,无法恢复,应将受黑客攻击的计算机上的重要数据备份到其他存储介质,确保计算机内重要的数据不丢失。如果数据无法恢复,经有关领导同意后,可与国家指定的部门联系,由他们来协助恢复,为保证数据信息安全,需在安全管理部门作记录。
第八节 生产系统、数据库故障处理
生产系统出现故障,技术部做出应急处理
1.因软件设计缺陷、设计漏洞等引起的故障,通知公司研发部门在2小时内查明原因,解决问题。
2.数据库出现故障,运维人员应在2小时内查清故障原因,其他相关部门应积极配合,解决问题。
3.如出现数据丢失情况,确认不能自行恢复后,启用备份恢复数据,24小时内恢复运营。
本方案自发布之日起施行