第一篇:陕西BSC容灾备份及无线专业红橙黄_蓝应急预案现_场演练总结报告
陕西BSC容灾备份及无线网红橙黄蓝应急预案现场
演练总结报告
一、检查组成员
组长:王粟(集团公司网络部网络监控处)无线专业专家:王玉国(浙江公司网络优化中心)传输专业专家:张晓琳(辽宁公司网络管理中心)
二、BSC容灾备份演练
演练时间:2011年7月13日00:00-4:30 抽查网元:陕西西安BSC102 网元信息:西安BSC102覆盖西安市长安区大学城区域,下挂基站16个,均为被容灾基站,载波345套,其中VVIP基站3个,VIP基站3个,普通容灾基站10个。被容灾基站主要覆盖财经学院和培华学院等话务密集的区域,符合集团关于被容灾基站选择原则的要求。演练内容:西安BSC102出现故障宕机,按照该BSC既定的容灾备份方案,紧急将其下辖的被容灾基站割接至西安BSC151下。演练过程:
00:00,现场演练检查组长通知监控人员西安BSC102发生“宕机”故障,陕西公司网管中心监控组值班长将该演练故障按照省内重大故障级别上报,并通知应急人员到场。
0:25,网络部、网管中心主管领导到场、西安分公司应急人员到现场,省内正式启动容灾备份应急倒换方案。
0:25,开始进行BSC102网管数据备份输出,并开始目标BSC网管 数据制作和交换侧数据制作;同时,依照VVIP-VIP-普通基站顺序进行传输跳线布放。
0:55,利用机房应急跳线完成预定应急电路割接。 1:03,首个VIP基站激活。 1:20,全部VIP及VVIP基站激活。
1:30,开始VIP及VVIP基站下的拨打测试;经验证,语音及数据业务均正常。
2:20,另外10个普通基站激活成功。
2:25,开始普通基站下的DT及CQT拨打测试,经验证,语音及数据业务均正常。
2:55,启动被容灾基站的倒回操作。
4:30,完成所有被容灾基站的倒回操作,业务验证正常。演练小结:
按照既定的“容灾备份”现场演练检查方案,检查组在审核完陕西公司的BSC容灾备份应急预案后,首先对BSC核心机房进行了检查,机房内具备一定比例的应急跳线,应急DDF端口有醒目标识,符合检查办法中的相关要求。
演练当晚在规定时限内完成了VIP及普通被容灾基站的应急割接,从BSC模拟宕机到被容灾基站完全割接至容灾BSC,共割接基站16个,历时1小时55分钟,其中VVIP、VIP基站6个,历时55分钟;并于4点30分前完成了被容灾基站及业务的正常倒回。演练共历时4小时30分,基本实现了BSC容灾备份的演练目标。存在问题:
1、陕西公司未配备专用容灾BSC设备
陕西现有的容灾备份方案是基于现网运行BSC的互备份,没有专用的独立容灾BSC设备。由于现网业务负荷变动较为频繁,现网有限的端口、传输等资源也需要经常随之调整,目前很难完全满足集团BSC100%容灾的要求。
2、阿尔卡特设备数据装载时间过长
根据统计,阿尔卡特设备割接目标BSC平均单站数据装载时间约为5分钟左右,同其他厂家设备相比历时明显较长。本次抽取的BSC下挂被容灾基站数相对较少,若BSC下挂的被容灾基站数量较多,将影响业务恢复时长。经验总结:
1、在基于现网的BSC容灾时,鉴于阿尔卡特设备的特性,容灾BSC之间的相互对应关系可考虑归属同一OMC-R,割接时尽量减少BSC不必要进程、OMC-R不必要进程、减少LAC变更,避免切换关系混乱对网络造成不稳定因素,缩短割接时长。
2、在每个容灾BSC机房内均应部署用于容灾的机架或空间来存储足够的容灾光缆、端口和跳线、尾纤、备板等物资,以便于有效节约割接实施时间跨度,减小网络阻断时间。
3、在基于现网的容灾割接前要注意做好备份PRC,对原始数据进行备份,认真核对端口及传输链路,不要随意删除改动被容灾BSC的基站硬件,防止恢复后配臵出现问题。后续建议:
1、建议陕西公司网络部协调计划部部署BSC实体容灾设备,达到BSC100%容灾需求。
2、建议陕西公司与本省所有无线设备厂商共同研究BSC整体容灾方案,并在条件具备时进行实战演练,确保网络业务及时恢复。
3、结合2011年上半年BSC宕机重大故障的实际情况,强烈建议总部网络部适时向全网推动独立BSC整体容灾割接方案。附:本次容灾割接测试情况
BSC102容灾割接测试报告.docx
三、无线网红橙黄蓝应急预案演练
演练时间:2011年7月14日0:00-2:30 抽查网元:西安BSC213
网元信息:西安BSC213主要覆盖长安区大学城部分区域,下挂基站15个,载波308套,其中VIP基站1个,符合网络部应急通信处关于抽查网元的要求。
演练内容:西安BSC213出现LAC寻呼负荷过高的告警,省公司判断符合本省无线网红橙黄蓝应急预案中的何种等级,启动相应预案并进行现网操作。演练过程:
00:00,检查组现场通知:陕西西安BSC213(卡特设备)LAC寻呼负荷达到满负荷的85%,要求按“红橙黄蓝应急预案”启动预案,并进行现网操作。
00:05,陕西网管中心监控班组按照本省无线网红橙黄蓝预案中预警级别判断该情况符合蓝色级别,按照流程进行上报。陕西公司高话务疏导小组设备组专家确定启动蓝色预案,通知相应应急人员到达现场。
00:20,应急人员紧急到达现场,通过预案指令操作,对高负荷设备及时快速进行疏导;同时监控班组将BSC相关情况对业务可能产生的影响情况按照既定的口径向客服部门公布。 00:35,应急措施实施完毕,并实时监控指标变化情况。 01:05,检查组现场通知:陕西西安BSC213(卡特设备)LAC寻呼负荷在启动蓝色预案后仍继续升高,达到100%负荷,要求陕西公司按“红橙黄蓝应急预案”进一步处理。
01:08,陕西网管中心监控班组按照陕西公司红橙黄蓝预案中预警级别判断该情况符合橙色级别,按照流程进行上报。陕西公司高话务疏导小组组长确定将原先蓝色预案升级为橙色预案。 01:20,按照预案,对BSC下挂基站按5-3级的次序对基站载波进行闭锁,密切观察,并准备好闭站操作;同时监控班组将BSC相关情况对业务可能产生的影响情况按照既定的口径向客服部门公布。
01:40,应急措施实施完毕,BSC LAC寻呼负荷降至70%以下,观察逐步稳定。
01:55,监控组报告话务应急小组,经检查组确认,高话务应急小 组领导确定组织逐步实施倒回。
02:30,应急人员完成全部倒回,观察业务量正常,指标正常。演练小结:
按照既定的“红橙黄蓝”应急预案的现场演练检查方案,检查组在审核完陕西公司的无线网“红橙黄蓝”应急预案后,模拟现网BSC高负荷情况,检查了陕西公司无线网“红橙黄蓝”应急预案的实地演练情况。
演练显示,针对核心网元高负荷,陕西公司预案等级判断准确,预案启动及时、应急操作较为完备、信息发布迅速;从演练开始至预案及操作全部倒回,共历时2小时30分钟,达到了演练的目的。问题及建议:
1、陕西公司无线网“红橙黄蓝”应急预案的触发条件是BSC的CP负荷超门限或者LAC寻呼负荷超门限两个条件,且各自门限不一,在紧急状态下,监控及维护人员可能混淆或出现信息传达不一致的情况。
建议陕西公司后续考虑将上述两个触发条件压缩为一个对设备影响更为直接的触发条件。
2、主动监控系统作为总部及各省监控类似可能需要启动“红橙黄蓝”应急预案对应网络问题的重要手段,其中阿尔卡特的BSC设备暂无法配臵CP负荷,陕西的监控人员目前仅能通过厂家设备的OMC-R等手段实施监控,对监控人员技能要求相对较高;
建议总部推动阿尔卡特厂家支持在主动监控系统中配臵“BSC设备的CP负荷”这一性能指标字段。
3、根据主动监控系统之前关于BSC 的数据需求规范,并无具体的LAC寻呼负荷值,陕西公司监控人员通过将寻呼负荷门限及不同厂家设备可支持的最大寻呼次数的绝对值换算成启动“红橙黄蓝”预案时各自级别对应的寻呼次数来作为基线值;
鉴于当前设备替换及升版相对频繁,对信息更新要求较高,建议总部推动相关处室要求网管厂家修改数据需求规范,统一配臵“BSC的LAC寻呼负荷”这一性能指标字段。