第一篇:IT运维管理中可能存在的关键问题
IT运维管理中可能存在的关键问题
一、IT运维管理可能存在的问题
1.1 IT运维机制不完善,流程操作层面缺乏统一
没有建立起稳定、规范的IT运维机制。现有的IT运维流程的操作层面缺乏统一。如事件单提交之后,事件预判和优先级的设定缺少统一、规范的指导文档,仅以人员的主观经验或约定俗成的方式指导事件的处理过程。有识别但无规范,有处理但无管理,有人员但忙于救火,有工具但支持力度不足。因此,“轻规范、重维护”的IT运维现状容易造成因个体技能差异带来IT运维的不稳定,直接影响维护体系的效果。
1.2 经验不少,知识不多,过度依赖核心人员
在实际工作中积累的、有价值的经验仅存在于头脑之中,未能作为书面的知识记录规范地保存下来。经验始终仅能在小范围内得到传播和继承,无法在更大的范围内体现其价值。这样导致了无论是事件性质的识别、优先级的界定,还是疑难问题的分析诊断,均汇总至少数核心人员进行处理。这样不仅增加了少数核心人员的工作量,也容易产生工作流程的“瓶颈”,降低运维团队整体的事件及问题处理效率。
1.3 IT运维的绩效考核机制尚不完善
主观的绩效考核难执行,客观的绩效考核难制定,模糊的绩效考核难见效。目前在绩效考核方面虽然采用填写工作表的方式对不同岗位的工作时间进行收集、评测和考核,在一定程度上体现了IT运维人员的工作量情况,但还是很难全面准确的反映IT运维人员真实的工作绩效表现。因此,IT运维人员绩效考核机制需要进一步完善,帮助组织构建奖惩分明的文化和环境,推动IT运维团队的良性持续的发展。
1.4 IT基础架构管理工具欠缺
基于门户、财务管理、采购管理、人事管理、文件服务等构成了公司的核心业务系统。这些复杂的核心系统保证了整体业务的顺畅运行。但作为支撑核心系统运行的IT基础架构,目前仅有H3C的网络监控和基于Landesk的桌面管理系统。现有的IT管理工具偏重于技术层面的故障发现及预警,对于发现的事件虽有相应的管理流程汇报,但仍未找到合适的工具为其提供全面、安全、稳定的运行支持。
1.5 缺乏有效、完善的CMDB(配置项管理数据库)
目前运行维护室仅有对关键应用系统相关IT设备设施的初步梳理,虽然在一定程度上收集了部分配置项信息,但是当前仅限于关键业务的、缺乏工具支持的、简单的CMDB建设很难满足今后全面实施信息化的需求。CMDB的建设是一个长期而艰巨的任务,不仅需要更详细的配置项属性数据、更准确的相互关系信息,而且也需要一个科学有效的配置管理模式及工具予以支持。
1.6 缺少面向用户的IT服务报告 运行维护室对核心系统运行提供固定周期的IT 管理报告,如:系统运行报告、机房环境报告、备份报告、年度报告等等。但由于IT管理报告的内容多以技术语言提交且仅限部门内部和少数领导使用。作为外部用户的业务部门不仅无法接触,而且受专业所限难以理解,无法充分利用IT管理报告提供的信息。
在期望从成本中心向利润中心转型的过程中,运行维护室面向外部用户时不能再以技术语言提交IT管理报告,而应该提交符合一般用户阅读需要的IT服务报告,实现IT运维的“服务于用户,为用户所用”的目的。
二、加强IT运维管理的措施
2.1 建立统一的IT运维管理体系,完善并规范IT运维流程
参照ITIL最佳实践并结合公司的实际情况,将IT运维管理规范化为一系列标准流程,包括服务台、事件管理、问题管理、变更管理、发布管理、配置管理和服务级别管理等。然后通过IT服务管理工具将各个IT运维流程集中在同一个平台上进行管理。基于标准的流程体系和统一的管理平台,与IT运维相关的资源(包括部门、人员)得以有效整合,并采用相互识别的“相同语言”进行深入、充分的沟通,提高生产效率和信息传递的及时性。
2.2 建立基于IT运维管理流程的IT人员绩效管理和激励机制 根据公司全面实施信息化的要求,建议运行维护室组建具备完善的专业知识和管理能力的IT运维管理团队。因此,建立与IT运维管理流程体系相符的人员绩效管理及激励机制显得尤为重要。建立量化KPI,对包括服务效率及服务质量等多方面进行业绩考核。通过IT运维管理系统平台,对IT运维人员的工作进行数量和质量上的记录、统计和分析。在基于ITIL流程明确IT人员岗位职责的基础上,定义关键考核指标并通过IT运维管理系统收集数据,进行整理、分析产生绩效报告,最终实现IT绩效管理的信息化。
2.3 提供面向客户的IT服务报告,为业务部门和IT运维管理提供决策依据
参考ITIL及ISO20000的最佳实践,可建立专门的工作流程对IT服务报告及IT运维服务管理信息作进一步的完善。实现向客户或业务部门以“客户化的语言”提供约定的服务信息,同时也能为内部IT运维提供有价值的管理信息。如:某个时间段内那些方面的故障出现的数量最多;那些方面的故障解决的效率最高或最低;IT维护人员的工作负荷统计;问题分布在哪些系统或设备等。这些服务信息统计,能帮助IT运维管理和决策部门进行决策和趋势分析,从而做到对IT系统中的各类问题和相应的服务状况进行全面掌握和了解。
2.4 支持经验和知识的共享化
提供丰富知识库和完善管理。用户通过知识库,如FAQ、关键词检索等,可以初步搜寻解决方法,这样问题就会以最小的资源开销和最快的处理效率得以解决;IT维护人员通过知识库及时、准确地选择解决最优方案,可解决大部分常规问题;资深运维人员、专家,可以根据故障发生的频度,把经过实践证明正确的解决方案形成知识库,供其他运维人员使用;另外,相关应用系统的业务处理人员可以通过共享的知识库或实践指导库,提交或者获取相关业务处理的知识。
2.5 建立并完善CMDB
实现用户、资产、以往问题的历史记录等可查询、可追溯IT运维管理系统通过组建CMDB对用户信息、资产信息进行记录和维护,并把每个事件/问题与用户以及发生故障的资产对应起来,形成历史记录以便查询和借鉴。如:某个用户报告某路由器通讯故障,维护人员就可以根据资产编号查询到该路由器以往的故障状况。如该路由器出现过多次故障,并且都是线路质量较差,维护人员则可以根据这一依据向有关部门提出线路维护申请。
2.6 推行服务级别管理,提高客户对IT运维的服务满意度
在“内部市场化”的要求下,最终用户的服务满意与否将成为IT运维质量的考评尺度。为此,推行服务级别管理有利于明确用户/客户的业务需求并使之规范化、标准化。因为只有在服务双方都认可的服务范围内提供合乎需求的IT服务才能最终获得用户/客户满意的评价。比如:故障的响应时间约定、备品备件的替换原则、约定的设备巡检日期等。通过服务级别管理不仅可以提供清晰、规范的IT运维服务,根据服务级别管理的流程可以对服务的结果进行持续改进。
三、结束语
加强IT运维管理,及时发现问题及解决问题,从根本上提高IT运维效率和效果,实现IT运维知识规范化、模板化,提高客户满意度,并提升运维服务的核心竞争力。
第二篇:变电运维管理中存在的危险点及改善对策
变电运维管理中存在的危险点及改善对策
[摘 要]本文阐述了强化变电运维管理工作的必要性,分析了变电运维管理中存在的危险点,提出了加强变电运维管理工作的改善对策。
[关键词]变电运维管理;必要性;危险点;改善对策
中图分类号:TM732 文献标识码:A 文章编号:1009-914X(2017)02-0353-01
随着电力体制改革的不断深入,供电企业对变电运维管理工作提出了更高更新的要求,变电运维管理工作逐渐由传统方式向现代化、由粗放式向精细化方向发展。目前,变电运维管理中存在的危险点阻碍了企业的长周期稳定发展。因此,科学排除变电运维管理中危险点,确保变电站的安全高效运行很有必要的。
1、强化变电运维管理工作的必要性
变电设备是变电站的核心设备。变电运维管理水平的提高,决定整个变电运维安全状况,加强变电设备运维工作,有助于强化变电运维人员的专业素质,提高变电运维工作人员主动性。为了确保变电站的长期稳定、安全运行,加强对变电设备的维护与管理已成为供电企业的重要内容之一。目前,供电企业有必要加强对对变电系统中变电设备的检测与监控,要求技术人员必须全天候、全方位进行监控巡视,以便在第一时间发现变电设备运行过程中潜在的安全隐患,从而根据隐患问题采取相应的解决措施,有效降低变电设备安全事件的发生。当变电设备发生故障及异常运行时,容易造成整个电网无法正常运行,不仅会对电网的供电质量造成影响,还会使供电企业的运行成本不断增加。随着现代科学技术的不断进步,积极应用先进的技术,强化变电运维管理有利于提高变电设备的健康水平及用户供电质量。因此,供电企业必须要充分认识对变电设备运行维护工作的重要性,才能切实做好变电设备的日常维护及管理工作,从而确保变电站的安全高效运行,推进供电企业的健康持续发展。
2、变电运维管理中存在的危险点
2.1 自然环境因素带来的危险点。在变电设备的正常运行中,一旦天气发生了异常,就会导致变电系统运行出现一系列的故障。在特殊天气情况下,变电设备存在以下危险点。①大风时,引线有可能剧烈摆动,上面有挂落物,周围有可能被刮起的杂物。②雨天时,变电设备断路器各部存在电晕、放电及闪络现象,接点有冒气现象。③雾天时,变电设备断路器各部有电晕、放电及闪络等现象。④下雪时,变电设备断路器各接头积雪有明显溶化,有冰柱及放电、闪络等现象。⑤某变电设备过负荷运行时,易发生运行中母线和刀闸过热现象,从而影响变电设备的健康水平。
2.2 直流回路操作导致的危险点。在变电运维技术管理中,直流回流操作作为一种常见项目,也存在一定的危险,若操作不当很容易使自动装置运行受影响,继而引起一些不必要的事故。在变电设备直流回路操作中,人为误操作、误碰或保护误动会导致直流母线短路、高频整流充电装置的充电模块组运行中跳闸、直流系统永久性接地故障、直流系统瞬间或间断性接地故障、直流馈线熔断器熔断(直流馈线空气开关跳闸)、直流母线电压过高或过低等异常事故,从而降低变电站直流系统的供电可靠性。
2.3 母线倒闸操作造成的危险点。母线倒闸操作的不规范性及不合理性,易造成变电站停电事故的发生,甚至影响变电设备的正常运行及操作人员的人身安全。在变电值班人员危险点防范意识薄弱情况下,很容易误入带电间隔,并进行不规范操作时,易发生误分(误合)母线断路器、带负荷拉(合)母线隔离开关、带电挂(合)接地线(开关)、带接地线(开关)合母线断路器(隔离开关)等恶性误操作事故。同时,母线设备的安全自动装置及继电保护压板的误投退、空载母线充电时电压互感器的操作程序错误会带来母线电压消失及谐振现象的发生。
2.4 变压器倒闸操作发生的危险点。变压器在变电站中占据着最为重要的位置,对其危险点进行排查具有重要的意义。若在变压器操作中发生失误,有可能严重影响变电站的供电质量及安全可靠性。在变压器的倒闸操作中存在以下危险点:①在对空载变压器进行切合的过程中会产生过电压,这会对自身的绝缘性能造成损伤。②空载电压的不断增大会对变压器的绝缘性能带来永久性损害。同时,在变压器绝缘受到破坏的情况下,极易对工作人员人身安全带来较大的危险。
3、加强变电运维管理工作的改善对策
3.1 完善变电运维监督管理制度。为了有效的避免变电运维的危险,需要完善变电运维监督管理制度,并确保变电运维管理制度能够得到规范的落实和执行。在变电运维工作进行的过程中,落实安全生产责任制,细分各部门的职责,并成立制度落实监督小组,针对制度的落实情况进行监督,确保制度在执行的过程中能够发挥出积极的作用。同时对每项工作内容都要进行量化和细化,明确每个操作事项,严格遵照安全生产准则,不断提高变电运维安全生产水平。
3.2 强化变电设备的巡视检查。在变电运维工作中,针对不同的自然环境、气候对设备的影响,重视日常及重点巡视检查工作。例如在大风环境下,检查线路是否发生松动、断股,周边环境是否有飘浮物存在,是否有异物搭落在设备上,对设备运行的安全性以及稳定性造成影响。雷雨季节,要对避雷器和避雷针的完好情况进行检查。冰雪天气下,要对设备电晕及放电、爬弧现象进行检查,检查设备绝缘是否有损坏的情况。在巡视检查中,发现问题及时处理,有效避免变电设备异常事故的发生。
3.3 提高变电运维人员的综合素质。在变电站日常运维管理工作中,增强变电运维人员的安全意识,充分发挥他们的积极性、创造性和主动性,科学规范倒闸操作程序,全面提高运维人员的综合素质,使他们在思想和行动上都能够朝着良性方向发展。通过加强运维人员的培训,不但要在专业技能上满足工作要求,而且进一步提高专业理论水平,从而更好地胜任本职工作,以积极的态度与行为来开展管理工作。同时,强化职工间的业务沟通及技术交流,探讨和分享工作经验,使他们能够在学习沟通中互相促进并提升运维人员自身各方面的能力。
3.4 推进变电运维一体化工作。为了能够进一步促进变电运维一体化的实现,需要对业务进行整合,对人员进行重组,确保现有业务能够有序开展,为电网运行的安全提供重要保障。在实践中,供电企业高标准严要求每个运维人员,按照工作推进实施方案的要求,改变原有传统的工作模式,对检修人员进行专业的、系统的技能培训和现场操作,并逐步融合变电运维、检修人员实现各运维工作站统一负责实施设备巡视、倒闸操作、带电检测、维护性检修等业务,并为此提升变电运维的工作效率,实现运维检修一体化。
3.5 加大变电设备技术革新力度。在变电设备运维工作中,面?ι璞父?高性能的要求,供电企业应加强设备检测技术,不断加大设备反事故改造、技术改造力度,重点改进设备薄弱环节,定时开展设备检测活动,科学规范运维工作程序。针对变电设备红外热像精密检测、带电维护、保护差流检查、通道检查、压板检查等工作,运维人员有必要应用先进的设备维修用具,使用安全的设备维修用具,采取先进的设备维修工作方法,从而全面掌握设备状况,减少工作人员的工作强度,保障变电设备安全运行。
4、结束语
良好的变电运维管理工作有利于提高供电服务质量及综合经济效益,从而推动企业长远发展。在变电运维实际工作中,供电企业应更加关注设备的细节和隐患,认真分析变电运维管理工作中的危险点,开发更多维护技术,建立更多更全面的维护方案,加强科学合理的变电运维监督,降低各危险点对电网运行造成的影响,提高变电设备健康水平。
参考文献
[1] 李云启.关于变电运维中危险点控制的分析[J].科技视界,2012(30)
[2] 仝海梅.变电运维管理中危险点及控制探讨[J].科技风,2014(22)
第三篇:运维管理定义
运维管理(IT Operations Management)帮助企业建立快速响应并适应企业业务环境及业务发展的IT运维模式,实现基于ITIL的流程框架、运维自动化。
核心思想随着国内企业业务信息化的深入, IT运维部门所负责的IT设备及软件的运行维护工作变得越来越复杂,技术难度也越来越高。传统的IT工具和流程集中在技术上,而不是业务目标上。业务服务管理(Business Service Management)使IT能轻松满足业务的需求,转变企业的环境,使业务部门和IT部门领导者能够拥有统一的语言,通过统一的界面面对挑战,理解新变化所带来的影响。
BSM主要强调从业务的视角来看待企业的IT运维,从而最大化发挥IT对企业业务的推动作用,这就IT运维的核心思想。
着眼点IT系统的业务服务管理主要着眼点
一、确立以业务价值为核心,业务驱动管理的管理思想面向业务要首先在IT管理的战略层面上建立“业务驱动”的IT治理和管理思想,使得业务部门的目标和IT运维的目标一致,都是为了企业整体战略目标的实现,把对业务的支撑能力和管理实效,作为评价IT系统效用和IT部门工作的首要指标。只有这样,才能在全企业范围内建立“技术服务于业务发展”的意识和文化,是真正实现IT与业务融合,共同为企业的战略目标服务。
二、建立关键业务服务模型今天的业务部门对应用程序的依赖性比过去更强了。应用程序软件可以实现关键业务流程的自动化 —自动化既包括付款、资金转账、下订单和订单履行。由于应用程序故障或性能问题可能导致严重的业务影响,因此业务部门迫切需要 IT 部门在发生问题时提供更高的应用程序服务级别和更快的问题解决方案。所以,必须结合企业战略和目前业务运营情况,辨识企业业务服务,特别是关键业务应用。为这些核心业务系统服务,建立和企业未来发展愿景、目前IT架构、管理模式等相适应的业务服务模型,能够清晰地描述业务与IT之间的关联关系和IT服务的关键目标。
三、管理信息共享目前,出于对IT资源专业化、精细化管理的要求,企业部署了诸多的监控管理工具,如网络监控、系统监控、数据库监控工具等。一般来说,这些监控工具往往来自于不同的厂商,彼此之间缺乏信息共享的手段。而一个具体的业务是由网络、主机、应用本身所组成,管理信息无法共享,这就造成了当一个故障出现时,无法通过系统直接自动分析并定位故障点,加大了IT故障的分析难度,降低了解决问题的效率。业务服务管理可以有效整合企业已经构建的众多IT监控系统,将分散的IT管理信息集中到一个单点的管理平台中,从而可以快速进行故障定位。
四、根源问题定位随着企业业务的快速发展,IT环境越来越复杂,IT组件越来越多,同时各组件之间的关联关系也更加纷乱和复杂。业务服务管理能够提供有效的根源问题定位能力,它着眼于企业的核心业务系统,通过集中与业务相关的IT信息,根据业务逻辑和IT组件之间的关联关系进行建模,企业可以在业务模型中的任何一点进行快速的根源问题分析和定位,大大提高了解决问题的速度和准确度。
五、故障影响范围评估当我们发现IT故障时,我们不仅应该关注故障本身,更应该考虑该故障对业务系统的影响。通过建立业务服务影响拓扑,可以快速的了解企业的关键性业务及业务故障时的影响范围,通过了解企业具体的业务环境,优先处理关键故障点。
第四篇:项目运维管理
龙岗区项目运维管理
1、设备应用
1、负责对所有设备的应用操作,每季度提交每个设备的配置和存储应用情况报告、网络拓扑报告、IP分配报告,并负责对龙岗区城管局的相关工作人员进行培训;
2、对新应用的设备需求,驻场工作人员应及时提交设备配置现状及设备规划报告,以便该应用能及时实施;
3、掌握设备的运行情况,就保修期、存储空间等及时进行提醒;
4、建立相关系统软件各种故障的恢复流程及应急措施;
2、环节与设备
1、定期对机房供配电、空调、温湿度控制等设施进行检查记录
2、做好机房人员的出入、服务器的开机或关机等工作进行记录;
3、根据维护合同附件资产清单,建立服务器及网络设备的档案,形成不易破坏的醒目标识,并定期更新相关内容;
4、对资产清单所列的各种设备、线路等,做好检查维护工作,发现故障,及时报告,并安排服务联系或维修,对维修情况提交书面报告;
5、形成每日巡视制度,对机房中相关设备的告警显示、空调、UPS等实际状态进行记录。
3、监控和安全
1、通过IT资源监控系统,对通信线路、主机、网络设备和应用软件的运行状况、网络流量、用户行为等进行监测和报警,形成记录、妥善保存并按重要性级别,定期书面报告;
2、针对网络运行日志、网络监控记录的日常维护和报警信息分析和处理工作,提出优化建议及方案;
3、定期对网络系统进行漏洞扫描,对发现的网络系统安全漏洞进行及时的修补
4、定期检查违反规定上网或其他违反网络安全策略的行为,书面报告;
5、指派专人进行核心服务器的工作压力监控,针对业务的增长定期生成主服务器的工作压力报表,并且预估业务增长对服务器压力的影响提出合理化建议;
6、指派专人进行核心数据库的工作压力监控,定期生成报告,并就改进提出合理化建议。
4、操作系统安全
1、根据甲方业务需求和系统安全分析结果,确定系统的访问控制策略;
2、定期进行漏洞扫描,对发现的系统安全漏洞及时进行修补;
3、及时安装系统的最新补丁程序,在安装前,首先报告同意,且在测试环境中测试通过,并对重要文件进行备份后,方可实施系统补丁程序的安装;
4、所有对系统进行的维护,均需详细记录操作日志,包括重要的日常操作、运行维护记录、参数的设置和修改等内容,严禁进行未经授权的操作;
5、备份与恢复
1、根据印制中心实际应用情况、根据生产相关数据的连接关系、根据应用的业务特点和软硬件资源,制定详细的系统数据备份计划,确定合理的系统备份策略。定期备份重要业务信息、系统数据及软件系统等;
2、应根据数据的重要性和数据对系统运行的影响,执行数据的备份,每月提交数据备份报告,必要时实施数据恢复;
3、按照控制数据备份和恢复过程的程序,对备份过程进行记录,所有文件和记录应妥善保存;
4、定期进行备份介质的维护、更新、替换、轮转,保证备份介质可靠有效,针对重要备份介质进行双机房异地轮转;
第五篇:IT运维管理
IT运维管理
目录
定义
IT运维管理包含内容
运维员三大法则
在网络的基础设施建设完成之后,整个网络处于运行状态,IT部门采用相关的管理方法,对运行环境(包括物理网络,软硬件环境等)、业务系统等进行维护管理,我们把这种IT管理的工作简称为IT运维管理。
IT运维管理包含内容
IT运维是IT管理的核心和重点部分,也是内容最多、最繁杂的部分,主要用于IT部门内部日常运营管理,涉及的对象分成两大部分,即IT业务系统和运维人员。其管理内容又可细分为七个子系统:
第一、设备管理:对网络设备、服务器设备、操作系统运行状况进行监控,对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,如邮件系统、DNS、Web等的监控与管理;
第二、数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和恢复;第三、业务管理:包含对企业自身核心业务系统运行情况的监控与管理,对于业务的管理,主要关注该业务系统的CSF(关键成功因素Critical Success Factors)和KPI(关键绩效指标Key Performance Indicators);
第四、目录/内容管理:该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理;
第五、资源资产管理:管理企业中各IT系统的资源资产情况,这些资源资产可以是物理存在的,也可以是逻辑存在的,并能够与企业的财务部门进行数据交互;
第六、信息安全管理:该部分包含了许多方面的内容,目前信息安全管理主要依据的国际标准是ISO17799,该标准涵盖了信息安全管理的十大控制方面,36个控制目标和127中控制方式,如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等;
第七、日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段IT运行维护管理的每一个子系统中都包含着十分丰富的内容,实现完善的IT运维管理是企业提高经营水平和服务水平的关键。
运维员三大法则
【此法则适用GPL协议,欢迎各位自由发挥】第一法则,运维员不得危害服务器的安全运行,偷窥篡改服务上的数据,或袖手旁观服务器受到入侵;第二法则,运维员必须保护自己,除非违背第一法则;第三法则,运维员必须服从运维经理的命令,除非违背第一和第二法则。