第一篇:平谷区教育城域网中心机房市电故障及维护应急预案
平谷区教育城域网中心机房 市电故障及维护应急预案
一、机房意外停电后,首先确定停电的范围以及受影响的设备范围。
二、确认停电的范围为本楼或片区,应立即打电话向后勤管理部门汇报。估算电力可能恢复的时间,并通知网络中心相关人员及领导。
供电局值班电话:95598
三、操作步骤:
1.如果确认停电的时间是在UPS后备时间50%内(如后备时间为2小时,停电时间在1小时安全值内),可以在UPS正常供电的时间内,等到电力恢复。
2.如果不能确认在2个小时内恢复供电,立即汇报给机房电源维护负责人和中心机房各设备的负责人到达现场。做好各设备的电源停电准备。
(1)使用UPS供电,由于不知市电何时能恢复供电(或停电时间大于2小时),应严格按操作手册停掉不重要的大屏显示设备、监控设备、存储和各应用服务器的电源,只保证核心交换机和路由器的正常运行。
(2)使用UPS供电达到2小时,还不知市电何时能恢复供电,此时需关闭全部网络设备,再关闭UPS的输出。
3.如果配备了发电机,在UPS供电达到1小时后,市电还不能 恢复供电,并且机房服务器、核心交换机等重要设备不能断电情况下,应立刻调配发电机随时做供电,切保机房重量设备正常运行。等待电力恢复,电力恢复供电后转第七条执行。如果确认停电的范围仅在于本机房电源故障,立即汇报给机房电源维护负责人。
四、机房维护负责人将掉电的电源柜总空开和分空开的状态处于下电状态。并向主管领导汇报,等待市电重新供电。
五、将掉电的所有的设备电源状态处于下电状态,以防止电源柜加电对设备的冲击。
六、在等待市电供电的时候,相关机房管理维护人员共同研究商议设备恢复时操作步骤及注意的事项,并形成相关操作文档。
七、市电恢复供电后,先不要急于给UPS加电,等待10—20分钟后,再开始给UPS加电,以防止供电不稳或再次掉电。
八、供电正常后,确定设备处于下电状态后,打开电力柜的总开关,并给UPS加电,打开UPS输出开关。
九、根据设备加电顺序,启动分项空开。
十、设备加电顺序: 1.IP交换机和SAN交换机; 2.交换设备正常后再给存储加电;
3.存储状态检查正常后,启动主机(以上各设备务必按操作手册的启动顺序上电)。
十一、设备启动正常后,开始启动数据库。
十二、数据库启动正常后,开始启动中间件服务器。
十三、中间件服务器正常后,启动应用程序。
十四、其它:
1.四、五、六点操作只适应于机房没有重要服务器、交换机等设备情况下,如果机房有重要设备不允许断电下,第一把UPS后备时间延长,第二给机房配台发电机组。
2.UPS主机及电池组要定期检测保养,发现电池电压下降情况应及时更换。
3.UPS在运行中显示板由绿灯转为红灯并且有告警声响,按下告警消声键后观察会不会再次出现告警声,如果未再出现告警声说明报警为假报警,如果还出现报警声音要及时通知设备商处理。附:
一、PCM ONL 33系列不断电电源供应系统(UPS)主要操作
(一)UPS启动: 1.配电柜送市电;
2.合S1(保险丝辅助开关); 3.合S3(输入市电);
4.接上步间隔10秒钟合S4(保险); 5.合S5(输出);
6.关闭S1(保险丝辅助开关);
7.控制面板:开启UPS,先按下“ON”,再按下“Enter”进行确定。
(二)UPS关闭:
1.关闭网络设备、服务器等用电设备; 2.断开S3(市电); 3.断开S5(输出);
4.断开S1(保险丝辅助开关); 5.断开S4(保险); 6.配电柜断开市电开关;
7.控制面板:关闭UPS,先按下“OFF”,再按下“Enter”进行确定。8.关闭时间:
(1)市电停电,不知何供电,需关闭UPS;
(2)网络设备调整长时间停用(2小时以上),需关闭UPS。
(三)UPS放电:
1.断开S3(市电),使用电池组供电;开始放电电压DC=392V左右。2.待充电压DC降到360V再恢复市电供电; 3.接上步合S3(输入市电)。4.放电时间:
(1)如果市电停电比较频繁,可以不进行放电操作;
(2)如果市电长时间不停电,则四个月左右进入一次放电操作。
(四)客服联系方式:
1.北京承乾伟业电子科技有限公司
2.章方强(***)付玉(***)焦慎连(***)
二.JB-QB_Ld128EN(M)火灾报警控制器(联动型)主要操作
(一)报警主要显示:
1.报警器上:主电工作(Power)、全局手动(Manual)、消音指示(Quiet)为绿灯;
2.报警器上:公共故障(Common Failure)、备电故障(Battery Failure)为桔黄色灯;
3.打印机输出:日期、时间及主要故障
4.警铃声持续不断,直至按下“消间指示”按钮,可以消除铃声。
(二)报警器内使用畜电池:
1.畜电池型号:WA-12M14AC(12V14AH/20HR); 2.建议:控制箱内的畜电池每月进行一次放电操作:
方法是:关闭市电,启用电池,使用电池约半小时再重新启市电,对电池进行充电。3.畜电池维护工程师:
林玉春(***)
(三)消防系统安全检查内容:
1.钢瓶内安全气压为2.0~4.2(即绿色区域内)即为安全可以使用,当指针指向红色区域时,应该重新加气才可使用。2.钢瓶气体喷射有三种控制途径:
(1)最南边的手动阀控制,延时30秒,可以按下停止阀以停止喷射;(2)按下中间的控制箱内的启动阀,也可延时30秒,可以按下停止阀以停止喷射,此控制箱有手动、自动两个锁,现在置于自动处,没有钥匙,林工建议置于手动处;
(3)系统自动控制即右边的控制箱,现在均设置为手动状态,以防止误报行为的发生。3.检查时间要求:
每学期至少检查一次,及时更换畜电池以及色带。
(四)机房换气系统: 1.空调:
(1)空调均为立式柜机,室外机在南阳台内;
(2)主要工作模式-大金、爱默生工业机房专用空调,可连续工作;(3)当大金、爱默生空调出现问题时,使用海尔空调,待其修好后,仍使用大金、爱默生工业机房专用空调 2.新风系统:
(1)开关位于配电柜左侧,四联开关,分别为开、关、低、高;(2)新风系统出气窗在南墙上部顶棚内。3.消防排汽系统:
(1)开关位于门口左侧,与照明开关并列,左边是开启消防排汽系统,右边为关闭消防排汽系统;
(2)消防排汽系统排汽风机在南墙靠近消防汽瓶处。4.办公区空调:
(1)空调挂机位于中心机房北部外间西墙;(2)空调室外机在北楼道内。
三、中心机房综合布线系统简介:
(一)强电部分:(详见下面附图)
1.中心机房设备用电是市电五线三相380伏接入,自北楼道顶部进入中心机房,再经墙体内下至地面,经防静电地板下的线槽进入配电柜;再到UPS系统,然后返回配电柜,最终向各机柜供电。每个机柜配两个地插座,在配电柜内用两个防漏电开关控制,外间办公室 也提供两个地插座。
2.中心机房内的空调供电不经过UPS系统,由市电直接供电; 3.消防排汽系统风杨也由市电直接供电;
(二)弱电部分:
1.1号机柜为城域网核心机房安全监测系统设备(拼接器、视频录像机、环境监测主机、保垒机、展示机)。
2.2号机柜上面是北京数字学校存放的两台服务器,下面是教委网站服务器(两台)及存储服务器。
3.3号机柜六台服务器(卡巴斯基、环境监测虚拟机、备用服务器、FTP服务器、中学网络电子阅卷服务器、小学网络电子阅卷服务器)及一台存储服务器。
4.4号机柜六台服务器(VMware服务器、环境监测服务主机、备用服务器、RIIL服务器、备用服务器、备用服务器)及一台备用存储服务器。
5.5号机柜上面是网络电子阅卷系统的两人个网关及策略交换机(H3C S5500)服务器汇聚交换机(H3C S7510E),全部服务器的网线均汇聚到此机柜的配线架。
6.光纤接入在6号机柜,并由此连接网络设备,下面是各室网络信息点的配线架。
7.7号机柜上面是北京教育信息网的接入设备为(CISCO s6506),中间为城域网备份核心交换机(H3C S7506E),最下面为信息中心办公及多媒体教室的汇聚交换机(H3C s5600)。8.8号机柜内为城域网核心交换机(H3C S12508)及安全设备(流控-RG-EG 2000xe、防火墙-SANGFORAF-6020、负载均衡-SANGFORAD-6000),及电子巡考系统接入交换机(H3C S5800)。
9.9号机柜备用(为资源平台系统备用)。
10.10号机柜为教委OA协同办公系统服务器(两台)和校产服务器(一台)。
11.0号机柜内为中国电信接入设备专用。
12.中心机房内全部网络设备的硬件地址均在58.131.66.0/24网段,详见配线架IP地址使用、分配列表;
13.中心机房外间办公室地板下有电源插座和信息插座以供使用。
14.拼接屏的电源接在下面防静电地板下,拿开地板可见。
第二篇:中心机房应急预案
中心机房应急预案
一、系统故障应急流程
1.1 系统故障应急流程说明
一、故障发生
值班人员可从以下途径得知故障的发生: 1)值班人员通过报警系统告警发现故障 2)值班人员通过远程数据监测发现故障 3)值班人员通过维护巡检发现故障 4)系统用户发现故障,报给呼叫值班人员
二、报障受理
值班人员发现系统故障发生后,立即响应,根据级别进行应急处理,并向相关领导报告系统故障情况。
三、信息研判
值班人员根据了解到的系统故障情况进行分析判断,以确定采用一般故障处理流程还是立即启动系统突发故障应急处理预案。
四、预案启动
如需启动应急预案,则立刻通知相关领导小组,由相关领导小组启动应急预案,对系统突发故障应急事件进行全面管控处理。
五、资源确认
系统突发故障应急预案启动后,首先是根据现场突发故障实际状况、紧急程度、技术难度、备品备件等情况对相关资源(主要是参与人员)依据经验进行调度和确认,主要有以下资源:
本单位相关技术支持人员 授权第三方公司技术支持人员; 故障设备相关厂家技术支持人员; 聘请的技术专家
六、预案执行
按照既定的预案进行突发事件处理和故障抢修,如遇到问题及时向相关领导小组汇报。
七、预案终止
预案的终止时间由故障现场技术人员根据现场的实际进展情况,在与用户单位有关部门协调后相关领导小组决定。
八、结果上报
预案中止后,相关预案参与人员将整个事件过程中所有收发信息、领导批示、事故调查报告、现场录像、图片等材料及时整理归档,并总结事件处理过程中的经验和教训,修改、完善事件应急预案。然后集中上报至相关领导小组。
1.2 系统故障应急处理流程图
机房应急预案
3.1 机房漏水应急预案
(1)发生机房漏水时,第一目击者应立即检测漏水影响范围,并及时报告相关领导小组。
(2)若空调系统出现渗漏水,值班人员应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,同时启动备用空调,必要情况下可其它方式(通风、冰块降温等)对服务器进行降温。
(3)若为墙体或窗户渗漏水,值班人员应立即采取有效措施确保机房安全,同时安排通知房屋产权方,及时清除积水,维修墙体或窗户,消除 渗漏水隐患。
3.2 设备发生被盗或人为损害事件应急预案
(1)发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告相关领导小组,同时保护好现场。
(2)相关领导小组接报后,通知用户保卫部门、相关领导,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。
(3)值班人员应当积极配合公安部门进行调查,并将有关情况向相关领导小组汇报。(4)相关领导小组安排相关技术人员及时恢复系统正常运行,并对事件进行调查。值班人员应在调查结束后三日内书面报告相关领导小组。
3.3 机房长时间停电应急预案
(1)接到长时间停电通知后,值班人员应及时通过办公系统、电话等发布相关信息,部署应对具体措施,要求相关保障人员在停电前及时就位,检查业务系统、保存数据。
(2)停电时间过长的,应准备充足燃油,并准备租用电力公司发电车协助,保证系统正常运转。3.4 通信网络故障应急预案
(1)发生通信线路中断、路由故障、流量异常、业务系统故障后,操作员应及时通知本单位相关系统管理员,经初步判断后及时上报值班人员和相关领导小组。
(2)值班人员接报告后,应及时查清通信网络故障位置,隔离故障区域,并将事态及时报告相关领导小组,通知相关通信网络运营商查清原因;同时及时组织相关技术人员检测故障区域,逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。
(3)事态或后果严重的,应及时向相关领导汇报。
(4)应急处置结束后,值班人员应将故障分析报告,在调查结束后三日内书面报告相关领导小组。
3.5 不良信息和网络病毒事件应急预案
(1)发现不良信息或网络病毒时,信息系统管理员应立即断开网线,终止不良信息或网络病毒传播,并报告相关系统维护人员和相关领导小组。
(2)值班人员应根据相关领导小组指令,采取隔离网络等措施,及时杀毒或清除不良信息,并追查不良信息来源。
(3)事态或后果严重的,应向总公司相关领导汇报。
(4)处置结束后 ,值班人员应将事发经过、造成影响、处置结果在调查工作结束后三日内书面报告相关领导小组。
3.6 服务器软件系统故障应急预案
(1)发生服务器软件系统故障后,值班人员应立即组织启动备份服务器系统,由备份服务器接管业务应用,并及时报告相关领导小组;同时安排相关责任人将故障服务器脱离网络,保存系统状态不变,取出系统镜像备份磁盘,保持原始数据。
(2)值班人员应根据相关领导小组的指令,在确认安全的情况下,重新启动故障服务器系统;重启系统成功,则检查数据丢失情况,利用备份数据恢复;若重启失败,立即联系相关厂商和上级单位,请求技术支援,作好技术处理。(3)事态或后果严重的,总公司相关领导汇报。
(4)处置结束后,值班人员应将事发经过、处置结果等在调查工作结束后三日内报告相关领导小组。
3.7 黑客攻击事件应急预案
(1)当发现网络被非法入侵、业务内容被篡改,应用服务器上的数据被非法拷贝、修改、删除,或通过入侵检测系统发现有黑客正在进行攻击时,使用者或管理者应断开网络,并立即报告相关领导小组。
(2)接报告后,相关领导小组应立即指令相关技术人员核实情况,关闭服务器或系统,修改防火墙和路由器的过滤规则,封锁或删除被攻破的登陆帐号,阻断可疑用户进入网络的通道。
(3)值班人员应及时清理系统,恢复数据、程序,恢复系统和网络正常;情况严重的,应向总公司相关领导汇报,并请求支援。
(4)处置结束后 ,值班人员应将事发经过、处置结果等在调查工作结束后三日内报告相关领导小组。
3.8 核心设备硬件故障应急预案
(1)发生核心设备硬件故障后,值班人员应及时报告相关领导小组,并组织查找、确定故障设备及故障原因,进行先期处置。
(2)若故障设备在短时间内无法修复值班人员应启动备份设备,保持系统正常运行;将故障设备脱离网络,进行故障排除工作。
(3)值班人员故障排除后,在网络空闲时期,替换备用设备;若故障仍然存在,立即联系相关厂商,认真填写设备故障报告单备查。
(4)事态或后果严重的,应向总公司相关领导汇报。
3.9 业务数据损坏应急预案
(1)发生业务数据损坏时,值班人员应及时报告相关领导小组,检查、备份业务系统当前数据。(2)值班人员负责调用备份服务器备份数据,若备份数据损坏,则调用磁带机中历史备份数据,若磁带机数据仍不可用,则调用异地备份数据。
(3)业务数据损坏事件超过 X小时后,维护小组应及时报告相关领导,及时通知业务部门以其它方式开展业务。
(4)值班人员应待业务数据系统恢复后,检查历史数据和当前数据的差别,由相关系统业务员补录数据;重新备份数据,并写出故障分析报告,在调查工作结束后三日内报告相关领导。
3.10 雷击事故应急预案
(1)遇雷暴天气或接上级部门雷暴气象预警,值班人员应及时报告相关领导,经请示同意后关闭部分服务器,切断电源,暂停内部计算机部分网络工作。
(2)雷暴天气结束后,值班人员报经相关领导小组同意,及时开通服务器,恢复停用的计算机网络工作,对设备和数据进行检查。
(3)因雷击造成损失的,值班人员应会同相关部门进行核实、报损,并在调查工作结束后三日内书面报告相关领导小组。必要时,应向总公司相关领导汇报。
四、机房动力系统应急处理方案
在机房动力发生异常情况时,动力系统通常可自动切换由备用电池提供机房设备的动力,在发生重大事故或自然灾害而无法短时间内正常恢复机房动力的情况下,启动机房动力系统应急处理流程,采用应急油机发电,确保用户单位网点通信网络能够安全、高效和可靠地运行。具体流程见下图: 监控到机房动力异常告警 通知维护站赴现场,监视动力系统电压下降情况 停电时间超过备用电池的合适支撑时间? 否 是 通知相关部门协助排查动力系统故障 超过蓄电池允许放电电压,立即启动油机发电 动力恢复 关闭油机供电开关 关闭电源柜油机开关 关闭/拆除油机 市电供电/蓄电池充电正常 消障
当发生长时间停电的动力系统故障时,抢修人员在机房现场实时测试记录备用电池的放电情况,电池放电容量超过40%时,如果动力系统还没有恢复正常供电,就用油机发电为机房提供动力。
动力系统恢复后立即对电池进行均充。一天内发生多次停电,放电容量在50%以下,均充转浮充后,浮充时间不少于24小时。一次停电放电容量在50%~80%时,均充转浮充后,浮充时间不少于48小时。
第三篇:中心机房火灾应急预案
为规范本酒店网络中心机房设备管理,提高处理酒店网络突发事件的能力,形成反应迅速的应急工作机制,确保重要网络设备和服务器硬件安全以及运行安全和数据安全,最大限度地减少突发事件造成的危害,特制定《网络中心机房应急预案及管理办法》。
篇一:中心机房管理办法
第一条 机房内禁止明火禁止吸烟,机房内的所有设备需要定期维护并做巡检记录、根据机房实际情况进行清扫工作。
第二条 机房网络设备维护由网络管理员进行,如发现机器故障应及时排除故障,在遇到硬件三包范围内的故障时,应及时联系供应公司上门或将机器送供应公司维修;
第三条 酒店员工必须严格遵守有关机房、设备及系统运行管理规定,不得在机房内从事与系统管理、运行维护、系统安装和调试等无关的工作;
第四条 做好防火、防雨、防湿、防盗工作,注意用电安全;机房内的环境要每周检查温度、湿度、电力系统、是否满足机房相关的标准要求。
第五条 机房内的交换机和服务器系酒店运营的关键设备,任何人不得自行配置或更改其系统参数。
第六条 要做好机房的安全工作,对服务器的各种帐户、密码严格保密。
第七条 应及时做好数据的备份工作,保证在系统发生故障时,数据能够快速、安全的恢复。所有备份数据不得更改,并要求做到本地和异地分别备份保存。
第八条 为了确保本酒店网络正常运行,每日对机房内的设备进行巡视,主要着重于服务器及网络设备运行正常与否。
1、对机房里的温度进行调节,如室内温度过高,调节空调对机房进行有效的通风。
2、查看交换机与防火墙及接入设备的工作状态,如发生异常,对其进行及时有效的维护。
3、监测网络运行状况。
第九条 除本酒店网络管理员外,公司其他人员因工作需要进入机房的,需网络管理员陪同下进入机房。
第十条 严禁带外单位人员或无关人员进入机房,确因工作需要,如:系统故障诊断和处理,设备维修维护、系统或设备安装等进入机房,必须由网络管理员陪同进入,配合项目的实施。
第十一条 进入机房的设备应在进入机房前拆除外包装,以保证机房环境的清洁和安
第十二条 严禁携带易燃、易爆、易腐蚀等危险性物品进入机房。
第十三条 机房内提供的UPS电源只允许为主机、服务器、网络及存储等核心设备供电,严禁安插其他设备,增加UPS电源供电负荷。
第十四条 严禁擅自切断供电系统,确因工作需要断电时,首先应做好相应准备工作,经部门领导批准,然后给所有部门发放断电或断网通知,最后方可实施。
第十五条 机房内安装用电设备或有用电需求的项目时,必须经过专业人员或设备提供商的安装工程师进行现场勘查,经确认在满足或符合要求后工程才能实施。
篇二:中心机房突发事件应急预案
第一条 机房突发事件包括网络设备或服务器故障、自然灾害(水、火、电等)造成的物理破坏、人为失误造成的安全事件等等。针对突发事件的预防措施如下: 建立安全、可靠、稳定运行的机房环境,防火、防盗、防雷电、防水、防静电、防尘;建立备份电源系统;加强防火、防盗意识。
第二条 机房漏水应急预案如下:
1、发生机房漏水时,第一目击者应立即通知机房管理人员。
2、若空调系统出现渗漏水,机房管理人员应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,必要情况下可临时用电扇对服务器进行降温。
3、若为墙体或窗户渗漏水,机房管理人员应立即采取有效措施确保机房安全,同时安排通知工程人员及时清除积水,维修墙体或窗户,消除渗漏水隐患。
第三条 机房火灾应急预案如下:
1、完善机房环境,确保机房放置灭火器;禁止携带易燃易爆物品进入机房。
2、机房管理人员应熟悉机房内部消防安全操作和规则,了解消防设备操作原理,掌握消防应急处理步骤、措施和要领,懂得灭火的方法,会扑救初起火源。
3、一旦发生火灾,迅速切断机房电源,避免灾情的扩散,并迅速和保安部联系必要时立即报火警。
第四条 机房停电应急预案如下:
1、接到停电通知后,应及时通过办公系统、电话等发布相关信息,部署应对具体措施,要求在停电前停止业务、保存数据。
2、机房管理人员每日检查UPS电源的状态,确保在突发停电时,UPS电源能自动供应服务器正常工作15分钟以上,保证员工工作的数据及时保存。
第五条 通信网络故障应急预案如下:
1、发生通信线路中断、流量异常等故障后,发现状况的员工或部门领导应及时通知网络管理员。
2、网络管理员了解情况后,迅速组织检测故障区域,并作相关故障处理,逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。
第六条 服务器故障应急预案如下:
1、机房管理人员每日检查机房内各服务器状态。
2、定期备份数据服务器数据。并将备份资料拷贝到移动设备。服务器出现严重硬件故障时启用备用服务器以保障正常运转。
第四篇:ACC中央机房空调故障应急预案
ACC中央机房空调故障应急预案
一、目的
为有效避免ACC机房因空调停电造成ACC服务器非正常关机,同时降低由于非正常关机对ACC主数据库的影响,特制定此预案。
二、适用范围
本预案适用于南京地铁大厦四楼ACC主机房(429房间)发生空调停机后,机房温度超过标准温度的情况。
三、具体流程 1.先期处置
清分监控维护工班发现ACC主机房空调故障或ACC主机房的无线温度报警器报警后,立即采取以下措施:
(1)检查空调运行状况,并对空调故障进行尝试性修复,并且通知空调厂家(24小时:***)。(2)打开主机房大门,在主机房内放置电风扇辅助散热。(3)在机柜内放入温湿度计,监控机柜温度。(4)电话告知部门领导及相关工程师。
(5)电话通知ACC承包商赶到现场进行技术援助。2.应急响应及措施
清分监控维护工班在应急人员到达前,注意以下问题:
(1)继续尝试修复空调。
(2)关注机柜内温湿度计的温度变化。
一小时后,空调厂家、ACC承包商和部门相关工程师赶到现 场后立即展开行动:
(1)空调厂家进行空调故障抢修。
(2)ACC承包商对ACC主机房内的设备进行检查,做好温度过高需要关机前的准备工作。
(3)部门相关工程师做好现场协调和指挥工作。
当机房内温度达到35度时,部门相关工程师立即电话部门领导申请主机房内所有设备正常进行关机(如温度在应急人员未到位或在发现机房空调故障时已达到35度,由清分监控维护工班立即电话部门领导及系统管理工程师申请主机房内所有设备正常进行关机),经领导同意后,采取以下措施:
(1)将数据接入服务器上的FTP服务和实时报文传输服务停止,同时电话告知票务中心ACC已经中断与所有线路的连接。(2)按以下顺序进行关机操作:首先关闭所有的PC服务器,然后关闭所有的磁盘阵列,再关闭所有的小型机和磁带库,最后关闭所有的网络设备。
3.故障修复及后期处置
空调故障修复后,室内温度降至正常温度后,清分监控维护工班需要完成以下后期工作:
(1)将主机房内的温湿度计和电风扇拿出主机房。
(2)电话告知部门领导空调故障已经修复,机房温度正常,同时向部门领导申请主机房所有设备开机。ACC承包商需要完成以下工作:(1)做好开机前的检查工作。
(2)按正常开机顺序开机,开机顺序为:首先开启所有的网络设备,然后开启所有的小型机和磁带库,再开启所有磁盘阵列,最后开启所有的PC服务器。
(3)将数据接入服务器上的FTP服务和实时报文传输服务开启。
空调厂家完成最后一次空调检查工作。
清分监控维护工班对ACC系统的数据传输情况、客流监视、设 备监视等情况进行检查,如有问题,立即交由ACC承包商处理。
最后,清分监控维护工班电话电话告知票务中心ACC已经恢复 与所有线路的连接,然后由清分监控维护工班工班长做一份故障分析报告,主要包括事情经过、原因分析、应急处理过程分析和预防建议等方面内容,于次日交部门领导和部门相关工程师。
第五篇:IDC中心机房预防措施及应急预案
IDC机房维保预防措施及应急预案
IDC数据中心机房的安全无疑是整个计算机信息系统安全的前提,如果数据中心机房存在这样那样的不安全因素,从而导致发生数据中心机房事故,则整个信息系统的安全也就不可能实现。
随着网络信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突发事件的处理能力将是我们目前面临的一项重要任务。为确保系统及机房安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置”的原则,本着建立一个有效处置突发事件,建立统一指挥、职责明确运转有序、反应迅速处置有力的机房安全体系的目标,将正在发生或已发生事故的损害程度减轻到最低。
1、维保预防措施
1、建立健全机房维保技术人员管理制度
1.1在正常工作日内,信息技术人员负责对机房进行监控,主要职责是:巡视网络设备及系统的运行情况,发生异常情况及时处理,消除故障隐患。
1.2周末、节假日及重大会议期间技术人员轮流值班,负责处理有关异常情况。
2、应提高对机房可靠性、可用性、安全性等方面的认识,既要重视信息系统安全,又要重视机房的运行维护管理,重视对计算机硬件、软件及网络设备的维护。要树立大局意识和忧患意识,对机房设施安全的重要性给予足够的重视。
3、应重点加强管理制度的执行。管理制度包括预防维护流程和紧急情况处理预案两个方面。要制定相应的管理制度,包括机房管理岗位制度、机房操作规程等,以明确岗位职责。为应对机房中可能会发生的紧急情况,如火灾、断电、数据丢失、设备失灵等,应按各种紧急情况分列处置措施,还要对预案进行演练。
4、应不断提高机房管理人员的技术水平。机房设施非常复杂,涉及很多专业和系统,维护人员只有通过不断的总结以往出现的各种问题进行后续学习和培训,提高技术水平,才能避免更多的相同的问题及异常情况甚至事故的发生。
5.应加强供配电、照明等电源子系统的监测。同时应重点对温度、湿度、灰尘、有害气体等进行评估和监测。还要加强静电防护、干扰源分析及保护、雷击
防护、电磁干扰、振动控制,防火、防水等工作。
5、应加强对进入机房人员的管理。工作人员行为、素质等因素均可能对机房安全造成影响,因此,除管理制度约束外,门禁和视频监视等物理安全策略均可有效提高机房安全水平。
7、应定期对机房设施进行安全评估。最好每年聘请第三方机构进行安全评估,专业评估机构拥有专家力量,能够比较安全地对所有的设备进行操作,不会因为误操作引起机房故障。
8、机房内严格采取防雷、防火、防尘、防静电等措施以及机房24小时监控等措施。
9、认真做好数据备份工作,定期做一次数据库完全备份,每月检查服务器运行和备份情况。
10、对机房的主要网络设备(路由器、主干交换机等)进行工作时间内全程监控,发现异常情况应及时进行处理,确保整个网络的正常运行。
2、应急处置措施
2.1 机房漏水应急预案
(1)发生机房漏水时,第一目击者应立即通知运维服务小组,并及时报告监控系统突发故障应急领导小组。
(2)若空调系统出现渗漏水,运维服务小组负责人应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,同时启动备用空调,必要情况下可临时用备用空调对服务器进行降温。
(3)若为墙体或机房门渗漏水,运维服务小组负责人应立即采取有效措施确保机房安全,及时清除积水,维修墙体或门窗,消除渗漏水隐患。2.2 设备发生被盗或人为损害事件应急预案
(1)发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告系统突发故障应急领导小组,同时保护好现场。
(2)系统突发故障应急领导小组接报后,通知用户保卫部门、相关领导,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。
(3)事发单位和当事人应当积极配合公安部门进行调查,并将有关情况向系统突发故障应急领导小组汇报。
(4)系统突发故障应急领导小组安排运维服务小组、事发单位及时恢复系统正常运行,并对事件进行调查。运维服务小组和事发单位应在调查结束后一日内书面报告系统突发故障应急领导小组。事态或后果严重的,应向相关领导汇报。2.3 机房长时间停电应急预案
(1)定期检查机房供电设备的运行状况和电路线缆器材情况,当发生下列突发事件时,按照以下方案进行处置:
(2)当机房发生市电供电突然停电或是电源异常时。首先应和后勤部门联系确认正常停电以及预计停电时间。检查不间断电源的电池可供电时间,确保设备正常运行,如遇到突然断电,应及时将空调等不在UPS电源供电范围内的设备及时断电,预防突然来电时瞬间电流过大导致设备损坏等现象。
(3)当确定停电时间超出机房UPS承载范围后,首先确定停电的范围以及受影响的设备范围。并及时通知各部门做好停电应急准备。然后通知机房电源维护人和设备的负责人到达现场,做好各设备的电源停电准备。在UPS供电电量仅剩10%之后,严格按操作手册停掉各服务器的电源,最后停核心交换机和路由器,等待电力恢复。
(4)当确定停电原因是在本身供电系统范围内,立即汇报给负责领导,并及时联系相关维护人员达到现场检修。对于恢复时间无法预计的,要通知后勤部门做好柴油机发电及移动电源车供电准备
(5)恢复供电后,严格按照操作程序逐步恢复机房设备和UPS的供电,以防瞬间电流过大造成设备损坏。
2.4 通信网络故障应急预案
(1)发生通信线路中断、路由故障、流量异常、域名系统故障后,操作员应及时通知本单位信息系统管理员,经初步判断后及时上报运维服务小组和系统突发故障应急领导小组。
(2)运维服务小组接报告后,应及时查清通信网络故障位置,隔离故障区
域,并将事态及时报告系统突发故障应急领导小组,通知相关通信网络运营商查清原因;同时及时组织相关技术人员检测故障区域,逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。
(3)事态或后果严重的,应向应急指挥办公室和相关领导汇报。(4)应急处置结束后,运维服务小组应将故障分析报告,在调查结束后一日内书面报告系统突发故障应急领导小组。2.5网络病毒事件应急预案
(1)发现不良信息或网络病毒时,信息系统管理员应立即断开网线,终止不良信息或网络病毒传播,并报告指挥调度中心运维服务小组和系统突发故障应急领导小组。
(2)运维服务小组应根据系统突发故障应急领导小组指令,采取隔离网络等措施,及时杀毒或清除不良信息,并追查不良信息来源。
(3)事态或后果严重的,应向监控中心办公室和相关领导汇报。(4)处置结束后 ,运维服务小组应将事发经过、造成影响、处置结果在调查工作结束后一日内书面报告系统突发故障应急领导小组。2.6 服务器软件系统故障应急预案
(1)发生服务器软件系统故障后,运维服务小组负责人应立即组织启动备份服务器系统,由备份服务器接管业务应用,并及时报告系统突发故障应急领导小组;同时安排相关责任人将故障服务器脱离网络,保存系统状态不变,取出系统镜像备份磁盘,保持原始数据。
(2)运维服务小组应根据系统突发故障应急领导小组的指令,在确认安全的情况下,重新启动故障服务器系统;重启系统成功,则检查数据丢失情况,利用备份数据恢复;若重启失败,立即联系相关厂商和上级单位,请求技术支援,作好技术处理。
(3)事态或后果严重的,应向监控中心应急指挥办公室和相关领导汇报。(4)处置结束后,运维服务小组应将事发经过、处置结果等在调查工作结束后一日内报告系统突发故障应急领导小组。
2.7 黑客攻击事件应急预案
(1)当发现网络被非法入侵、网页内容被篡改,应用服务器上的数据被非法拷贝、修改、删除,或通过入侵检测系统发现有黑客正在进行攻击时,使用者或管理者应断开网络,并立即报告系统突发故障应急领导小组。
(2)接报告后,系统突发故障应急领导小组应立即指令运维服务小组核实情况,关闭服务器或系统,修改防火墙和路由器的过滤规则,封锁或删除被攻破的登陆帐号,阻断可疑用户进入网络的通道。
(3)运维服务小组应及时清理系统,恢复数据、程序,恢复系统和网络正常;情况严重的,应向监控中心应急指挥办公室和相关领导汇报,并请求支援。
(4)处置结束后 ,运维服务小组应将事发经过、处置结果等在调查工作结束后一日内报告系统突发故障应急领导小组。2.8 核心设备硬件故障应急预案
(1)发生核心设备硬件故障后,运维服务小组应及时报告系统突发故障应急领导小组,并组织查找、确定故障设备及故障原因,进行先期处置。
(2)若故障设备在短时间内无法修复运维服务小组应启动备份设备,保持系统正常运行;将故障设备脱离网络,进行故障排除工作。
(3)运维服务小组故障排除后,在网络空闲时期,替换备用设备;若故障仍然存在,立即联系相关厂商,认真填写设备故障报告单备查。
(4)事态或后果严重的,应向监控中心应急指挥办公室和相关领导汇报。2.9 业务数据损坏应急预案
(1)发生业务数据损坏 时,运维服务小组应及时报告系统突发故障应急领导小组,检查、备份业务系统当前数据。
(2)运维服务小组负责调用备份服务器备份数据,若备份数据损坏,则调用磁带机中历史备份数据,若磁带机数据仍不可用,则调用异地备份数据。
(3)业务数据损坏事件超过 2小时后,运维服务小组应及时报告系统突发故障应急领导小组,及时通知业务部门以手工方式开展业务。
(4)运维服务小组应待业务数据系统恢复后,检查历史数据和当前数据的差别,由相关系统业务员补录数据;重新备份数据,并在工作结束后一日内报告系统突发故障应急领导小组。2.10 雷击事故应急预案
(1)遇雷暴天气或接上级部门雷暴气象预警,运维服务小组应及时报告系统突发故障应急领导小组,经请示同意后关闭部分服务器,切断电源,暂停内部计算机部分网络工作。
(2)雷暴天气结束后,运维服务小组报经系统突发故障应急领导小组同意,及时开通服务器,恢复内部计算机网络工作,对设备和数据进行检查。
(3)因雷击造成损失的,运维服务小组应会同相关部门进行核实、报损,并在调查工作结束后一日内书面报告系统突发故障应急领导小组。必要时,应向监控中心应急指挥办公室和相关领导汇报。2.11 空调设备故障应急预案
若机房专用空调损坏,应第一时间启用机房备用空调,并通知厂家上门进行维修,并及时报告相关领导请示,获得授权后按机房设备关闭顺序关闭各类设备。2.12 火灾事故应急预案
(1)一旦机房发生火灾,应遵照下列原则:首先确保人员安全;其次保护关键设备、数据安全;三是保护一般设备安全;
(2)人员疏散的程序是:机房工作人员立即按响火警警报,并通过119电话向公安消防请求支援,所有人员戴上防毒面具,所有不参与灭火的人员按照预先确定的线路,迅速从机房中撤出;
(3)人员灭火的程序是:首先切断所有电源,启动自动喷淋系统或使用灭火器,灭火值班人员戴好防毒面具,从指定位置取出泡沫灭火器进行灭火。2.13 电源设备故障应急预案
机房目前使用UPS系统,在紧急情况发生时,应按如下步骤进行关机:(1)确认所有负载均已安全关机。
(2)关闭UPS负载电源。
(3)将UPS的系统启用开关切换到off 的状态。(4)将电池连接断路器切换到off的位置。