第一篇:代维故障处理规范
代维故障处理规范
为保证代维单位及时高效地处理故障,结合公司实际制定本规范。
一、故障分类
按照目前代维公司维护的界面分工,需要代维处理的故障主要分为基站设备故障(主要为动力配套设备)、基站停电故障、光缆线路故障(按线路级别分干线、本地网、接入网)、室内分布系统。
二、故障通知程序
1、基站设备故障
基站设备故障由网管中心值班人员通过监控系统发现通知基站代维管理员,并做好故障派单记录,基站代维管理员接到通知后应立即通知代维公司专业接口人,并做好故障记录督促代维公司在规定时间内修复障碍,代维公司未能在规定时间内修复障碍的,基站代维管理员应立即通知动力代维中心主任和部门分管经理。
2、基站停电故障
基站停电由网管中心值班人员通过动力环境监控系统发现通知基站代维管理员,并做好故障派单记录,基站代维管理员接到通知后应立即通知代维公司专业接口人,并做好故障记录督促代维公司在规定时间内修复障碍,代维公司未能在规定时间内修复障碍的,基站代维管理员应立即通知动力代维中心主任和部门分管经理。
3、光缆线路故障
干线光缆线路故障(含本地网骨干网线路)网管中心值班人员通知线路代维管理人员,同时通知传输中心值班工程师和传输中心主任,线路代维管理人员接到通知后应立即通知代维公司专业接口人,并向部门分管领导汇报,代维公司未能在规定时间内修复障碍的,网管中心值班人员应立即部门经理和公司分管领导。
本地网线路故障(本地网骨干网除外)网管中心值班人员通知线路代维管理人员,同时通知传输中心值班工程师和传输中心主任,线路代维管理人员接到通知后应立即通知代维公司专业接口人,并做好故障记录督促代维公司在规定时间内修复障碍,代维公司未能在规定时间内修复障碍的,线路代维管理员应立即通知动力代维中心主任和部门分管经理。
接入网线路故障由客响中心112故障专业人员和网管中心值班人员谁先发现谁通知客响中心值班工程师或县分装维人员,客响中心值班工程师(或县分装维人员)判断为线路故障应立即通知线路代维管理人员(网管中心值班人员若能直接判断线路故障可直接通知线路代维管理人员,并告知客响中心值班工程师),线路代维管理人员接到通知后应立即通知代维公司专业接口人,并做好故障记录督促代维公司在规定时间内修复障碍,代维公司未能在规定时间内修复障碍的,线路代维管理员应立即通知动力代维中心主任和部门分管经理。
4、室内分布系统
室内分布系统故障由网管中心值班人员通过监控系统发现通知基站代维管理员和无线中心主任,并做好故障派单记录,基站代维管理员接到通知后应立即通知代维公司专业接口人,并做好故障记录督促代维公司在规定时间内修复障碍,代维公司未能在规定时间内修复障碍的,基站代维管理员应立即通知动力代维中心主任和部门分管经理,网管中心值班人员应通知部门无线分管经理。
三、故障处理记录
1、对于基站设备和停电故障,代维单位每周汇总一次提交基站代维管理人员,对涉及到的抢修材料应做好台账登记。
2、对于线路故障,应在处理故障结束后24小时内提交故障处理记录。
四、故障处理支撑
对于已经交由代维单位处理的故障如不能及时抢通修复,运行维护部相应专业需派人到场进行指导和督促。对于影响业务的故障如代维单位不能在规定的抢修时限内完成,基站或线路代维管理人员应与相关专业工程师到场协助抢修。
五、故障归口及上报
所有涉及代维故障需第一时间通知到代维管理中心基站或线路代维管理人员,各专业工程师及县分工维中心工程师不得擅自调动代维人员,紧急情况下可先通知代维抢修人员后向代维管理中心报备。所有代维公司处理的故障由动力代维中心督促代维公司提交故障处理记录后向质量管理中心进行上报。
二○一二年一月十七日
第二篇:代维集团专线故障处理流程优化
集团专线流程
整体流程:监控派单>代维提单>联系用户>上门>故障定位>故障处理>代维回单>监控回单 流程各环节关键时间点:
1、代维提单(催单:系统不支持,人工抽查)
代维公司10分钟内提单。如该线路未验收或发现为对方工单,需在20分钟内反馈未验收情况及将工单派对方。
2、联系用户(催单:系统支持,每单必跟)
代维公司30分钟内联系用户,若未联系到用户,需上报故障管理人员,同时在工单中阶段回复(工单中回复联系哪个客户及联系方式)。
3、代维上门(催单:系统支持,每单必跟)
金牌1小时内;银牌4小时内;普通8小时内,如遇客户端距离较远等原因无法在规定时间内到达,需在故障历时1小时时向客户说明原因,并在工单上阶段回复,每家代维当上级故障少于两件时,本级故障需按金牌故障标准1小时内上门。
4、故障定位(催单及上报:系统支持,每单必跟)
金牌2小时内;银牌5小时内;普通9小时内未定位故障原因,需上升故障管理人员,内容需包含详细处理过程及相关数据(另有文件描述),故障管理人员走EOMS技术支援工单,由故障管理人员跟进该故障定位情况。所有现场情况均需在规定时间内阶段性回复SUPPORT工单。
5、故障处理(催单及上报:系统支持,每单必跟)
金牌2.5小时内;银牌6小时内;普通10小时内未完成故障处理,需上升故障管理人员,由故障管理人员督促故障处理进度;金牌3小时、银牌7小时、普通11小时未完成故障处理,由故障管理人员上报相关部门三级经理;金牌4小时、银牌8小时、普通12小时未完成故障处理,由故障管理人员上报相关部门领导;故障处理过程中,现场维护人员应每1小时给客户反馈一次故障处理进度,并在工单中阶段回复。如因特殊原因,故障不能及时处理完的,应给客户进行说明,并上报故障管理人员备档。
6、工单回复(催单:系统不支持,人工抽查)
工单回复必须符合前期制定的“集团专线工单回复标准”。
7、故障分析会:当故障导致用户意见大且上升到集客部或领导的,第二个工作日内,牵头集客部、各相关专业及公司专家,召开专题故障分析会,其余有必要召开会议的(我中心认为的),三个工作日牵头召开专题故障分析会,所有专题会。
第三篇:基站故障处理规范
基站故障处理规范
为保证基站在故障出现后能够及时处理,全面提升网络用户的感知度及降低基站覆盖投诉问题,特制定相关故障处理规范:
一、基站停电
1、在接到基站停电工单后,先核对基站动力环境监控系统是否上报停电告警,若停电需记录告警时间。
2、确认基站停电后,核对供电线路(供电所/变电所)是否停电,确认是故障停电和计划停电,停电时长。
3、确认基站停电信息后核对基站蓄电池容量及负载大小,在确认蓄电池后备时间后合理安排发电,并知会兰州移动代维管理人员,说明发电原因。
二、基站发电
1、根据路程合理安排发电时间,到达基站后先用万用表测量供电端子是否有电,如有电检查从变压器到基站供电线路是否断,如机房第一端子有电,按照流程检查空开及设备,并排除故障。
2、如测量无电,按照流程先将第一受电端子断开(倒闸箱先将闸刀与市电端子断开)。
3、启动油机,连接线缆至基站发电端子位臵(油机输出连线断开),将油机输出空开合上,用万用表测量电压是否正常,零地电压是否正常,测试正常后将油机输出关闭,并连接线缆(先接零线,在接火线,连接线缆确认无误后送电,在基站侧/倒闸箱闸刀下桩头,测零地电压(1-40V电压属于正常范围),交流端子上有220V/380V电压后送电到基站。
4、电流较大基站,先对模块限流,确保在送电后基站负载的正常输出。
5、发电后检查设备的各类指示灯是否正常,模块输出电流是否正常,确认无误后向兰州分公司代维管理员说明发电时间。
6、发电期间现场需留守维护人员,并不定时间检查油机空开是否跳脱或模块保护,出现后应及时处理,严禁在发电期间导致的基站停电问题的出现。
7、基站市电恢复供电后,(按照发电流程的逆顺进行操作,拆除线缆时先拆火线在拆零线)恢复基站模块,检查设备无告警后,做好发电登记及故障处理登记,并向兰州分公司代维管理员说明来电时间后,撤离现场。
8、发电期间严禁出现有市电的情况下发电,如出现此类问题,如出现此类问题将严肃处理。
三、基站传输故障
1、在接到故障工单后,确认基站告警内容,并做好相关仪器仪表的准备。
2、分析故障告警原因,如出现误码或滑误码告警,不得私自断开基站的2M,用2M表进行现网挂表测试,查看滑误码/误码累计情况,根据累计情况处理设备故障及2M故障。
3、基站2M传输故障出现在交换局侧,相关负责人联系兰州分公司代维管理员一同协调进行处理。
4、传输出现下挂基站退服后,先判断是否是基站停电引起(考虑是否蓄电池劣化造成),并准备油机赶赴现场,到达现场后测量电压是否正常,确认是停电造成,因先发电抢修,如市电正常,检查光缆是否正常,SDH设备是否正常,如基站(SDH)设备正常,第一时间向兰州分公司代维管理员说明情况,并消除故障(转派)历时。
5、本站出现传输故障,检查基站2M头是否连接无误,(要求2M对应基站小区标签明显一致),2M头焊接是否正常,如2M头有问题,必须重新焊接,同时与监控中心做好相关环断测试工作。(严禁出现本站2M故障2次以上重复出现)
6、在基站日常维护发现2M线尾纤出现破损及老化应及时更换,防止因老化问题造成的基站退服。
四、基站驻波比故障
1、接到故障工单后,先分析故障原因,携带驻波比测试仪、胶泥、胶带及相关跳线到基站进行测试。
2、驻波比故障可分为天馈故障和载波故障(根据工单分析)天馈系统分馈线连接松动、馈线进水和天线故障等,载波引起根据工单更换载波。
3、在处理驻波比故障时,到达基站后严禁基站DXU复位,并连接OMT拷取基站L OG,一月内连续2次出现驻波比故障,属于重复故障。
4、如馈线和天线出现故障,及时予以更换,并向兰州分公司代维管理员说明情况。
五、基站设备硬件故障
1、基站硬件出现故障出现问题后,因根据故障工单描述进行处理。
2、到达现场后首先连接OMT进行基站告警读取,并考取基站LOG,根据基站告警进行相关处理,严禁基站DXU复位。
3、对故障无法判断的应该与监控中心联系,采取倒换小区或槽位进行判断
4、更换后设备在3天内移交兰州分公司代维维护人员进行2次确认返修。
5、基站故障处理后第一时间与监控中心进行消单,未消单造成故障延时,兰州分公司按故障工单时限考核。
6、出现3个基站以上同时退服故障,超时故障和一个月连续2次以上故障(第2次以故障工单发单时间为准),在24小时内向兰州分公司代维管理员上报故障处理报告。
兰州移动分公司网络运行维护中心 2010年5月26日
第四篇:代维考核规范
代维考核规范(试行)
目录
第一章 总则...................................................................................................错误!未定义书签。第二章 代维考核管理职责............................................................................错误!未定义书签。第三章 代维考核方式....................................................................................................................3 第四章 代维考核内容....................................................................................................................3 4.1 月度考核...............................................................................................错误!未定义书签。
基础管理.......................................................................................错误!未定义书签。维护质量.......................................................................................错误!未定义书签。现场检查.......................................................................................错误!未定义书签。扣分项...........................................................................................错误!未定义书签。加分项...........................................................................................错误!未定义书签。现场检查-管理检查.....................................................................错误!未定义书签。现场检查-现场站点抽查.............................................................错误!未定义书签。月度考核成绩平均...............................................................错误!未定义书签。加分项...........................................................................................错误!未定义书签。扣分项...........................................................................................错误!未定义书签。4.1.1 4.1.2 4.1.3 4.1.4 4.1.5 4.2 4.2.1 4.2.2 4.2.3 4.2.4 4.2.5 代维考核.......................................................................................错误!未定义书签。
第五章 代维考核流程....................................................................................错误!未定义书签。第六章 代维考核结果管理............................................................................................................8
6.1 6.2 6.3 代维月度考核结果的应用...............................................................错误!未定义书签。代维考核结果的应用...............................................................错误!未定义书签。交接考核要求.....................................................................................................................9
第一章 代维考核方式
第一条 以单站为基础,以区域为核心,实施对代维的考核,根据考核结果按单站结算代维费用。
第二条 代维考核采取月度考核和考核相结合的方式,月度考核是对代维公司考核的基础数据,以区域经理为主体(地市公司参与)实施考核,作为代维费用支付的依据;考核是对代维公司服务情况的综合考核,各月考核结果应作为综合考核的重要依据,以省公司为主体(区域经理、地市公司参与)实施考核,作为代维公司准入、退出以及份额调整、后续招标评比的依据。
第三条 月度考核分为区域考核和单站考核两个部分。将单站月代维费分为各50%两个部分,区域考核结果统一作为该区域每个站点50%代维费支付的依据;单站考核结果作为该考核站点另50%代维费支付的依据。
第四条 代维考核项目包括基础管理、维护质量、现场检查、扣分项和加分项五个部分,其中基础管理是代维工作管理的基础,维护质量是代维考核的重点,现场检查是代维工作的保证,扣分项是对代维生产中的安全问题进行考核扣分,加分项是对代维工作做出突出贡献的进行加分奖励。考核中的月度考核均值是该代维公司在该区域日常工作能力的体现。
第五条 考核方式如下:
第二章 代维考核内容
第六条 月度基础管理应包括资源配置、质量内控措施、巡检管理、移交管理、资料管理、故障控制、站点维系、备品备件管理、应急通信保障等方面。
1、资源配置是代维工作开展的前提,应包括人员数量、人员资质和车辆、仪表、工具等。人员配备上要求配有与代维设备规模相适应的技术人员和技术管理人员,对于需要取得专业资格认证(如电工证、登高证等)后才可以进行的代维项目,必须由通过专业资格认证的人员开展。应对所需配备的仪器、仪表、车辆、工具等硬件数量和质量进行明确和要求。人员变更要及时通知甲方,新增人员经过甲方组织的考试认证后方可纳入维护人员队伍。代维公司必须做好代维人员稳定工作,铁塔公司应对代维人员流失率进行考核。
2、质量内控机制措施:代维公司应建立完善的规章制度和工作流程,各级维护驻点制度流程上墙。需建立内部质量检查机制,定期开展内部质量检查,做好考核、检查中发现问题的及时整改;需建立隐患事项上报机制,对日常巡检中发现的隐患问题及时上报,并根据职责权限做好隐患事项的汇总、分析、整改和跟踪;每月召开代维质量分析会议,查找短板,予以改进。
3、巡检管理:应定期编制维护作业计划,并提交铁塔公司审核;及时提供符合要求的数据和检测分析报告;遇到计划需要变更时及时向铁塔公司提交计划变更申请。
4、隐患管理:代维现场存在的各类网络隐患必须及时上报、处理,同时代维公司还应按要求做好隐患问题的管理,对考核、检查中存在的问题进行及时整改改进。
5、移交管理:地市分公司维护单位负责工程交维验收工作,做好工程质量验收,记录和确认遗留问题供工程施工方进行限期整改,验收通过后移交代维公司纳入日常维护。代维公司必须建立交维设备(站点)维护档案(维护档案包括:技术资料与初始测试记录等)。
6、资料管理:应做好技术资料和维护原始纪录数据的管理,并做好归类存档。按要求做好各类报表和报告的编制和上报工作。
7、故障控制:应做好维护工作中的故障控制工作,避免故障的重复出现,做好故障分析总结。
8、站点维系:按铁塔公司要求做好电费、房屋租赁费代缴工作,并做好站点分级和敏感站点维系,不出现拆站、搬站情况。
9、备品备件:应做好备品备件管理工作,包括仓库管理、台账管理、故障件和废品材料管理等。
10、应急通信保障:代维应急通信保障应统一纳入到铁塔公司防汛、防震、突发公共事件、节假日和重大活动等应急预案体系,并按要求配备相关资源。抢险救灾和应急保障队伍要服从统一指挥和调度。
11、其他项目:原则上分数占比不超过10%,考核项目由地市公司结合自身
实际,明确内容和标准。
第七条 月度区域维护质量按区域内站址平均从系统提取数据,公平、公正的体现代维公司在该区域整体考核指标完成情况,包括平均站址断电退服时长、平均上站配合及时率、断电退服率等指标。
第八条 月度单站维护质量按单站从系统提取数据,公平、公正的体现代维公司某一站点考核指标完成情况,包括断站退服时长、断电退服次数、上站配合及时率等指标。
第九条 月度现场检查分别由区域经理、地市公司单独组织开展。第十条 现场检查结果分别应用于月度区域考核和月度单站考核。应用于月度区域考核时,区域经理、地市公司检查结果,按照问题站址累加计算得分;应用于月度单站考核时,区域经理、地市公司按单站检查结果计算得分。
第十一条 区域经理月度现场检查必须对所有代维业务量按照一定比例开展现场抽查,抽查的比例不得低于该专业代维规模的3%;抽查需涵盖当地所有开展代维业务的代维公司,同一区域有多家代维公司代维的,每家代维公司抽查的比例不得低于1.5%。
第十二条 地市公司建立抽查制度,不定期对各代维公司维护工作情况及各区域经理代维管理工作情况进行检查,发现代维公司维护工作开展不力或存在问题的,将检查发现的问题在考核中予以体现;发现区域经理代维管理、考核、稽核工作不到位的,将依据相关管理办法予以考核。
第十三条 扣分项主要包括安全生产事故和其它影响到中国铁塔的事件。扣分条件包括但不限于下述情况:代维公司在代维工作过程中未遵照安全生产条例规范操作,发生安全生产事故的;发生人员伤亡安全责任事故的;发生严重违约行为的;因代维公司原因导致重大网络故障的;因代维公司维护不当导致的大面积投诉;因代维公司原因发生媒体曝光事件、影响到我公司的劳资纠纷的;发生代维人员偷盗通信设备的;代维公司人为阻挠考核人员进行现场检查或者采取欺骗、作弊等手段误导考核结果致使代维考核工作无法正常开展的。
第十四条 对于积极开展创新工作,其经验被省公司采纳或在全省推广的,或在应急通信保障方面做出重要贡献的,受到省公司通报表扬的,或参加总部或省公司组织的技术竞赛,获得名次的,或承担省市公司专项工作和课题成绩突出的代维公司,应酌情给予加分,对优秀的代维公司应给予增加维护份额、年终评优等奖励。加分条件由各省公司进行细化,但必须在年初面向全省代维公司公布实施细则。
第十五条 代维公司现场检查-管理检查涉及资质和制度检查,包括代维公司资质、组织机构、制度建设与落实、人员管理、自主项目等方面。
1.代维公司资质:指代维公司的总体运维能力,包括注册资金、经营资质、业务能力等方面需满足要求。
2.组织架构:代维公司代维工作的组织架构健全并有效落地,包括组织架构完善、部门职责设置合理、岗位职责明晰等方面。
3.制度建设与落实:代维公司应建立健全各种管理制度并有效执行,包括管理制度、作业流程、质量和安全管理、内部技术支撑、创新工作等方面的制度的制定落实。
4.人员管理:代维公司应有有效的代维管理人员和代维生产人员的管理手段,包括劳动合同、人员考评体系、人员薪酬福利体系等,在考核时,能够提供有效的代维人员收入证明;代维公司应建立人员技术提升体系,保证代维人员在配置数量、人员素质等方面满足代维生产要求,人员流失率满足代维资质年审考核要求。
5.自主项目:分数占比10%,考核项目由区公司结合自身实际,明确内容和标准。
第十六条 现场检查由区公司组织开展。
第十七条 现场检查以地市为单位开展,对所有代维业务量按照一定比例开展现场抽查,抽查的比例不得低于该专业代维规模的3%;抽查需涵盖当地所有开展代维业务的代维公司,同一区域有多家代维公司代维的,每家代维公司抽查的比例不得低于1.5%。
第十八条 现场检查以地市为单位,对所有代维业务量开展现场抽查。
现场站点抽查可以省公司检查或地市交叉检查的形式开展;抽查需涵盖当地所有开展代维业务的代维公司,每家代维公司每个专业抽查不得少于2个站点;塔桅代维业务以检查为主,可聘请第三方检查,抽查的比例不得低于塔桅代维规模的3%,同一区域有多家代维公司的,每家代维公司抽查的比例不得低于1.5%。
第三章 代维考核结果管理
第十九条 在代维合同中与代维公司对考核结果进行合同约定,把考核结果与代维费用核算和结算、代维份额分配、准入资格等相挂钩。
第二十条 月度考核结果作为代维费用支付的依据,各地市将考核结果及时上报省公司;考核作为代维公司准入、退出以及份额调整、后续招标评比的依据,各省将考核结果及时上报总部。
第二十一条 出现以下情况,区公司应要求代维公司立即落实整改,整改时间为3个月,整改期间代维费按9折计算,如整改达不到要求的,区公司可直接终止该代维公司在该地市的代维合同。对于代维公司在区内全部退出的,应上报总部备案,并将取消该代维公司两年内(由合同终止日起)在区内承担代维工作的资格。
1)对代维人员因违反有关操作维护规范造成重大安全事故(人员伤亡、严重设备损坏、重大网络故障)的。
2)3)代维公司在合同期一年内任一专业累计有3个月考核不合格的。代维公司在资源配置投入要求中规定的各项条款弄虚作假的,或在合同期一年内累计有3个月公司资质或资源配置(驻点、人员、仪器仪表、车辆)数量达不到合同要求的。
4)代维公司在维护区域内的相关网络指标一直无改善或处于较差水平的,有半数考核月份的考核成绩与同专业其他代维公司得分差距在10分以上的。
5)6)将代维合同所列各项内容全部或部分转包给任何第三方的。干扰正常代维考核的。
代维费用与月度考核结果挂钩,挂钩方式如下: 第二十二条
单站总代维费用=单站得分费用+区域得分费用
1、单站得分费用:
该站月度考核得分≥95分,本月应支付该站代维费用=月代维单价×50%; 该站月度考核得分<60分,扣罚当该站月代维单价的50%;
60≤该站月度考核得分<95分,本月应支付代维费用=月代维单价×〔60%
+(考核得分-60)/35×40%)〕×50%。
2、区域得分费用:
区域月度考核得分≥95分,本月应支付该站代维费用=月代维单价×50%; 区域月度考核得分<60分,扣罚当该站月代维单价的50%;
60≤区域月度考核得分<95分,本月应支付代维费用=月代维单价×〔60%+(考核得分-60)/35×40%)〕×50%。
第二十三条 第二十四条 代维费用原则上每月度与代维公司结算一次。
对于考核不合格的代维公司,将中止合约,并取消该代维公司本次招标期及下次招标期在当地承担代维工作的资格,同时上报总部备案。
第二十五条 对于合同期内由于代维考核结果未达到要求导致的代维合同终止的情况,由区公司发起代维公司退出流程执行替换。
第二十六条 在代维合同期结束时,暂停支付最后一个季度的代维费,用作“代维交接工作保证金”,代维交接确认完毕1个月后,再向代维公司进行核算并支付。
第二十七条 合同终止前的30-60天为交接期。
6.1
第二十八条
交接考核要求
原代维公司未按照最终交接时间完成交接工作的,扣减“代维交接工作保证金”的20%。
第二十九条 原代维公司原因导致铁塔公司或客户设备资产、仪器仪表、备件、手持终端、维护材料、发电设施等缺失损坏,按原值赔偿或按原材料质量补全所缺材料,同时,出现一次,扣减“代维交接工作保证金”的2%。
第三十条 交接期间由于原代维公司原因造成第三方人员伤亡、财产损失的,由原代维公司承担全部责任,同时,出现一次,扣减“代维交接工作保证金”的20%。
第三十一条 由于原代维公司偷盗、人为破坏导致基站中断的,原代维公司应负责修复增补并承担有关费用,同时,出现一次,扣减“代维交接工作保证金”的20%。
第三十二条 如交接期间原代维公司与新代维公司发生推诿扯皮等不配合现象,如属原代维公司原因,铁塔公司将根据责任情况扣减1%-5%“代维交接工作保证金”。
第三十三条 如被铁塔公司发现有意留存与铁塔公司或客户相关的资料、图纸等或外泄的,原代维公司承担全部责任有关费用,同时,出现一次,扣减“代维交接工作保证金”的5%。
第三十四条 如为新代维公司原因造成如上问题,按照上述扣款比例扣除新代维公司合同期内第一个月的月度代维款。
第五篇:运维故障处理思路
事件/故障处理应该要有什么思路 导读:
在讲解事件、故障处理思路前,我先讲一个故障场景(以呼叫中心系统作为一例子):
业务人员反映呼叫中心系统运行缓慢,部份电话在自助语言环节系统处理超时,话务转人工座席,人工座席出现爆线情况。
运维人员开始忙活了,查资源使用情况、查服务是否正常、查日志是否报错、查交易量还有没有„„时间不知不觉的在敲键盘、敲键盘、敲键盘中过去,但是原因还未定位。
经理过来了解情况:“系统恢复了吗?”、“故障影响是什么?”、“交易中断了吗?”„„
运维人员赶紧敲键盘,写sql,看交易量;敲键盘,写命令,看系统资源、情况„„
最终,定位到问题原因是其中一个功能没有控制返回数量,导致内存泄露。针对这个故障,业务希望运维能否更快的解决故障的恢复,经理希望制定优化呼叫中心故障处理流程,做了以下几件事:
1.优先故障处理过程的时间——”能通过鼠标完成的工作,不要用键盘“ 2.提前发现故障,加强监控——“技术早于业务发现问题,监控不仅是报警,还要协助故障定位”
3.完善故障应急方案——“应急方案是最新的、准确的、简单明了的” 4.长远目标:故障自愈——”能固化的操作自动化,能机器做的让机器做“ 下面将从故障常见的处理方法开始介绍,再从故障前的准备工作(完善监控、制定应急方案等方式)来解决经理提出的问题,并提出未来解决故障的想法。
1、常见的方法:
1)确定故障现象并初判问题影响
在处理故障前,运维人员首先要知道故障现象,故障现象直接决定故障应急方案的制定,这依赖于运维人员需要对应用系统的整体功能有一定的熟悉程度。确认了故障现象后,才能指导运维人员初判断故障影响。2)应急恢复
运维最基本的指标就是系统可用性,应急恢复的时效性是系统可用性的关键指标。
有了上述故障现象与影响的判断后,就可以制定故障应急操作,故障应急有很多,比如:
服务整体性能下降或异常,可以考虑重启服务; 应用做过变更,可以考虑是否需要回切变更; 资源不足,可以考虑应急扩容;
应用性能问题,可以考虑调整应用参数、日志参数; 数据库繁忙,可以考虑通过数据库快照分析,优化SQL; 应用功能设计有误,可以考虑紧急关闭功能菜单; 还有很多„„
另外,需要补充的是,在故障应急前,在有条件的情况需要保存当前系统场景,比如在杀进程前,可以先抓个CORE文件或数据库快照文件。
3)快速定位故障原因
是否为偶发性、是否可重现
故障现象是否可以重现,对于快速解决问题很重要,能重现说明总会有办法或工具帮助我们定位到问题原因,而且能重现的故障往往可能是服务异常、变更等工作导致的问题。
但,如果故障是偶发性的,是有极小概率出现的,则比较难排查,这依赖于系统是否有足够的故障期间的现场信息来决定是否可以定位到总是原因。
是否进行过相关变更
大部份故障是由于变更导致,确定故障现象后,如果有应的变更,有助于从变更角度出现分析是否是变更引起,进而快速定位故障并准备好回切等应急方案。
是否可缩小范围
一方面应用系统提倡解耦,一支交易会流经不同的应用系统及模块;另一方面,故障可能由于应用、系统软件、硬件、网络等环节的问题。在排查故障原因时应该避免全面性的排查,建议先把问题范围缩小到一定程序后再开始协调关联团队排查。
关联方配合分析问题 与第(3)点避免同时各关联团队同时无头绪的排查的同时,对于牵头方在缩小范围后需要开放的态度去请求关联方配合定位,而对于关联方则需要有积极配合的工作态度。
是否有足够的日志
定位故障原因,最常用的方法就是分析应用日志,对运维人员不仅需要知道业务功能对应哪个服务进程,还要知道这个服务进程对应的哪些应用日志,并具备一些简单的应用日志异常错误的判断能力。
是否有core或dump等文件
故障期间的系统现场很重要,这个在故障应急前建议在有条件的情况下留下系统现场的文件,比如COREDUMP,或TRACE采集信息等,备份好一些可能被覆盖的日志等。
上述是一般性的故障常见的方法,在重大故障或多方处理的故障出现时,往往小范围的排查不利于快速解决,需要启动紧急处理的流程,建议可以考虑以下沟通:
召集相关人员 描述故障现状
说明正常应用逻辑流程 陈述变更
排查进展,展示信息 领导决策
2、完善监控
1)从监控可视化上完善
完善的监控策略需要有统一的可视化操作界面,在制定完善的监控策略后,故障处理人员需要能够快速的看到相应的运行数据,比如:能够看到一段时间的趋势、故障期间的数据表现、性能分析的情况等等数据,且这些数据可以提前制定好策略直接推出分析结果给故障处理人员,这样就大大提高了故障的处理效率,以呼叫中心系统为例,需要提前配置好以下实时交易数据,以便故障定位:
-交易性能数据:平均交易耗时、系统内部模块交易耗时(IVR交易耗时、接口总线交易耗时)、关联系统交易耗时(核心交易耗时、工单系统交易耗时等)-重要交易指标数据:交易量、IVR交易量、话务量、座席通话率、核心交易笔数、工单等系统交易量
-交易异常情况数据:交易成功率、失败率、错误码最多交易-按服务器分析交易数据:按server统计各服务交易处理笔数,交易总耗时 有了以上交易数据,并通过监控按一定频率统计,运维人员在出现故障时,通过鼠标即点击即可看到故障什么时候开始,是系统内部有问题还是关联系统有问题,最突出的交易是哪一支,各服务器交易量是否均衡等情况。
2)从监控面上完善
监控最基本的工作就是实现对负载均衡设备、网络设备、服务器、存储设备、安全设备、数据库、中间件及应用软件等IT资源的全面监控管理。在应用软件类的监控工作中,不仅需要有服务进程、端口等监控,还需要有业务、交易层的监控。
全面性的应用监控可以让故障提前预警,并保存了影响应用运行环境的数据,以缩短故障处理时间。
3)从监控告警上完善
完善的监控策略需要有清晰的监控告警提示,值班人员要以根据监控告警即可作出简单的问题定位与应急处理方案。比如类似以下的监控短信:
22时,【理财应用系统】中【应用服务器LC_APPsvrA 10.2.111.111】的【前置应用模块】出现【应用端口:9080】不存在,该端口作用【提供理财应用处理(负载均衡部署)】,原因可能为【SERVER1服务异常停止】,监控系统己进行以下应急处理【自动执行端口进程启动】,该事件紧急程度【高】。管理员可以通过短信内容看到哪个系统、哪个应用、哪个模块出了什么问题,可能是什么原因,对业务有什么影响,是否需要马上处理(比如凌晨出现此预警是否可以延迟到次日处理)等信息。
4)从监控分析上完善
完善的监控策略不仅需要有实时的数据告警,也要有汇总数据的分析告警,实时数据分析的告警的重要性不用多说,对于汇总分析的数据则能发现潜在风险,同时也为分析疑难杂症提供帮忙。
5)从监控主动性上完善
监控不仅仅是报警,它还可以做得更多,只要我们想办法赋予它主动解决事件的规则,它便有为管理员处理故障的能力。
3、应急方案
提前制定好故障应急方案是很有必要的,但在日常工作过程中我们的应急方案遇到一些问题: 1)应急方案缺乏持续维护,缺乏演练,信息不及时、不准确; 2)应急方案过于追求大而全,导致不利于阅读与使用; 3)应急方案形式大于实际使用效果,方案针对性不强; 4)只关注应急方案的内容,但没有关注运维人员对方案的理解; 针对上述常见问题,我认为应急方案需要做到以下几点:
1)内容精&简
很多人可能会认为故障出现的形式各种各样,所以应急方案需要涉及到方方面面。但实际的故障处理过程中,我们可以发现其实我们的应急措施往往重复使用几个常用的步骤,所以我认为应急方案要有重点,如果一个应急方案可以应对平时故障处理80%的场景,那这个应急手册应该是合格的。过于追求影响应用系统方方面面的内容,会导致这个方案可读性变差,最终变更一个应付检查的文档。以下是我觉得应用系统应急方案应该有的内容:(1)系统级:
能知道当前应用系统在整个交易中的角色,当前系统出现问题或上下游出现问题时,可以知道如何配合上下游分析问题,比如:上下游系统如何通讯,通讯是否有唯一的关键字等。
另外,系统级里还涉及一些基本应急操作,比如扩容、系统及网络参数调整等。(2)服务级:
能知道这个服务影响什么业务,服务涉及的日志、程序、配置文件在哪里,如何检查服务是否正常,如何重启服务,如何调整应用级参数等。(3)交易级:
能知道如何查到某支或某类交易出现了问题,是大面积、局部,还是偶发性问题,能用数据说明交易影响的情况,能定位到交易报错的信息。这里最常用的方法就是数据库查询或工具的使用。
知道最重要的交易如何检查是否正常,重要的定时任务的应急处理方案,比如开业、换日、对账的时间要求及应急措施。(4)辅助工具的使用:
有时候,需要借助一些工具或自动化工具辅助分析并应急,这时需要有辅助工具如何使用的方法。(5)沟通方案:
沟通方案涉及通讯录,包括上下游系统、第三方单位、业务部门等渠道。(6)其它:
上述5点内容如何都完备,相信这个应急手册己可以解决80%的故障恢复工作。
2)应急方案是一项持续的工作
有了应急方案,如何让运维人员持续去更新是难点。我认为要解决这个难点,需要先让运维人员经常使用这个手册。如果一个手册没有场景可以用,那就需要管理者为运维人员创造机会去使用这个手册,比如应急演练。
3)关注运维人员对应用关键信息的认识
前两点关注了手册,最后一点我觉得有必要关注使用这个手册的人。有些运维人员认为应用运维人员没有能力去把应用系统本身的内容了解得很透彻,所以应用运维人员在故障处理过程中的地位很尴尬,运维人员掌握操作权,但却不知道应该操作什么。
对此,我认同应用运维人员不需要掌握应用系统的业务功能,但我觉得就对应用系统本身来讲应用运维人员需要具备以下最基本的能力:(1)知道应用系统这个是干什么的,基本的业务是什么;(2)知道应用架构部署、上下游系统逻辑关系;
(3)知道应用下的服务的作用、端口、服务级的应急处理,日志等数据信息如何找到并简单定位。
(4)知道应用系统重要的时间点及任务,比如开业、停业、换日、定时任务的时间点以及如何判断这些任务是否正确(5)知道最重要的几支交易的流程;(6)知道常见数据库表结构,并能使用。
4、智能化事件处理
处理方法如下图(详细的智能化涉及监控、规则引擎、配置工具、CMDB、应用配置库等模块协同工作,具体介绍后续分析)