第一篇:银行IT运维管理的三点和四化经验浅谈
银行IT运维管理的三点和四化经验浅谈
A银行以”服务至上、科技先行”的原则,大力推动科技部门和信息系统的建设,并注重强化运维体系建设,提升系统服务水平,保证关键应用的可用性。
在A银行科技部门强化运维体系建设的过程分中,A银行运维中心总经理提出了A银行IT运维服务管理的三点和四化指导原则,积极的推动A银行IT服务管理从被动的基础的IT运维工作到主动的高阶段的IT服务管理。
做好运维的三个关键点就是监管文件明确给以指引的: 运维流程管理、监控及一体化管理、应急管理
加强运维流程管理。进一步完善运维管理流程,健全运维管理制度和标准,重点加强事件管理、问题管理、变更管理、配置管理等关键管理流程和数据管理、机房管理等制度标准建设与执行力。加强管理流程整合,完善信息交互机制,形成闭环管理。强化事件分级制度,建立有效的事件升级及响应机制;加强事件后续分析与处理,不断优化管理流程;建立变更分类标准和变更分级审批流程,完善变更窗口管理制度,有效降低变更对生产运行的负面影响;制定配置参数移植、修改、备份、存储、更新、销毁等方面的管理制度,控制配置操作引发的风险。完善数据存储、使用、传输以及备份管理,进一步制定标准、规范,重点强化客户信息和经营分析数据等敏感数据访问控制、清理、销毁以及数据变形使用管理;进一步加强机房人员、供电、空调、防火管理。
加大集中监控及一体化管理力度。健全生产系统软硬件、网络及应用系统性能监测指标体系,优化监控策略;在实现对系统、设备、网络、基础环境等监控基础上,重点加强对核心应用系统和电子银行渠道监控;构建统一监控平台,统一管理和展现各种监控资源,实现集中告警方式,全面、及时掌握系统整体运行状态,快速定位故障、缩短处理时间;加大对总分行监控系统整合力度,提高总行对分行生产系统监管能力,进一步完善监控、响应、处理、报告、反馈和跟踪机制,实现全行范围基础设施和主要应用系统生产运行情况的全面监控,提高运行管理的全面控制能力。提高运维管理自动化水平,整合操作、维护、监控、响应、处理等管理流程,推进企业级总控中心(ECC)建设,促进运维管理一体化。
加强应急处置,提高协作能力。应急管理包括故障应急处理、高可用冗余建设、灾难恢复计划DRP或业务连续性计划BCP等几方面。
建立健全应对重大事件(突发事件)的预警、报告、决策、指挥、响应及退出等环节的应急处置机制。制定监测指标,实时监测业务运行状态,及时发现异常情况,及时预警;建立清晰的报告流程,明确报告路线;建立应急指挥、决策体系,统筹协调,高效决策,保证指挥流程畅通;制定应急处置响应流程,加强关键岗位人员配置。
建立应急预案一体化管理体系,建立涵盖总体预案、专项预案等预案框架;统筹预案管理,加强预案之间的衔接与配套;建立有效的预案维护机制,涵盖预案制定、评审、发布、变更和回收过程;制定预案编制规范,保证预案编制质量;强化预案后评价与持续改进机制,保证预案有效性。
根据风险战略与业务连续性目标,制定灾难备份体系建设策略与实施路线;以业务有效恢复为目标,逐步加强灾备体系建设;逐步加大数据、系统、基础设施等各类资源的保护范围以及恢复能力;逐步推进分支机构灾难备份建设,提高电子银行渠道灾难恢复能力,推进外联交易、支付、清算等重要渠道灾难备份建设。
探索灾难备份体系建设模式,加强架构设计,应用技术创新,加强数据中心集约化、标准化、流程化管理;深入研究数据中心“双活”、“多活”建设模式,提高数据中心之间相互备份、切换和接管能力。
同时银行和E8合作把运维绩效考核KPI及SLA又融合进ITIL运维流程管理系统,达到以KPI引导,转化被动的基础的IT运维工作到主动的高阶段的IT服务管理。
有了上面的三个关键点,做好运维的工作还需要“实现四化”:“合规化、透明化、标准化、系统化”。实现这个四化后,才会有更好的方法和更好的基础去做好运维工作
1、合规化从监管以及管理高层与风险管理迫切压力需求的角度来说特别重要;内容是“做好信息安全及应急管理”,需要管理流程与安全及应急管理控制手段结合,如ITIL变更审批流程与堡垒机权限控制系统的结合。如ITIL事件升级到重大事件,再升级到灾难等升级流程及应急流程管理,包括灾备恢复演练的流程。基于以上事例领导认为“应急管理的一部分也是可以利用一些流程化管理实现的”
2、系统化就是利用IT运维管理平台,这种IT服务管理系统将各种IT管理流程、运维管理经验、IT服务管理思想系统化,并能不断优化,扩展。
3、“透明化”就是运维的管理要对内对下透明,对上对外透明,则实现方法是”健全运维绩效考核评价机制以及SLA,服务级别协议与服务报告管理”这几点。
“透明化”这一点其中有一点奥妙。银行郭总指出,指标只是其中表象的一部分,关键是如何融合进工作流程中,让每个人都知道KPI,并实时了解掌握自己的当前绩效,真正发挥出的KPI导向作用:好用、易用、有用。做好从时效、质量、满意度等考虑的事件、问题、变更管理的基础工作,包括以SLA、系统可用率考核的重大事件或故障、系统容量、性能管理等工作,做好基础、接口与系统化,才能将 “透明化”有了实现的基础,能使得运维部门有压力和动力从IT运维 转向做IT服务管理,变被动运维向主动服务转变,然后从对内、对下的透明化,转向SLA做到对外、对上的透明化。、”标准化”A银行以银监会的监管要求为基准并结合IT服务管理的最佳实践ITIL制定本行的IT服务管理标准。
A银行信息科技部运维中心根据IT服务管理的三点和四化指导原则,积极推进IT运维服务管理平台的建设,把IT服务管理的理念和最佳实践融合进IT运维服务管理平台,真正的推动A银行的IT运维管理转变为IT服务管理。
第二篇:IT运维经验小结
IT运维经验小结
工作上事情太多,难免繁琐,难免被人抱怨,被人投诉。仔细想想,需要改进的地方的确很多。
毕业四年多了,从最基础的windows局域网维护,后来学习active directory,isa,exchange。后来去考CCNA,想从事网络方面的工作,发现CCIE实在是难学,需要太多的时间和精力,当然费用也不低,于是去考了MCITP。回想起来,的确走了不少弯路。来到新公司一年多了,事情比以前更多,系统开发、服务器维护,网络架构规划,这些东西都要一个人来做,的确很磨练人。
简单说一下IT运维人员常犯的几个毛病,总结如下:
1.态度不好。IT运维人员通常每天都会遇到大量同样的问题,可能一次俩次大家都能够微笑的面对,次数多了,就开始不厌烦了,开始出现轻慢,甚至不想处理的情况。
应对办法:设身处地的想一想,把自己的同事当成自己的客户,客户就是上帝,得罪了客户,你还要不要在公司继续干下去?记住,微笑是传染病。
2.抱怨用户太傻。本人自己以及很多IT朋友都有过抱怨,说公司某某同事那个笨啊,显示器没有开居然说电脑黑屏,更有甚者,所有问题的责任都推到IT人员身上。
应对办法:我们必须明白一点,企业信息化是一个长期的过程,就算让所有同事学会简单的IT知识,也是需要时间的。作为IT运维人员,我们必须采取有效的手段和方式,一方面加强对用户的服务,另一方面加强IT培训。比方说,我们可以制订IT管理制度,发布常见问题处理手册,方便用户查阅。这里重点说明一点,IT培训必须对新员工和老员工的不同之处作不同的应对。新员工相对来说比较爱学习,容易接受公司新文化,我们可以在其入职的时候,通过邮件或者书面形式发送公司IT制度和相关资料,让其学习;老员工则需要以服务为主,使其学习为辅。
这里尤其要注意一点,不论在什么情况,千万不可跟同事产生冲突。
3.不及时反映问题进度。某IT运维人员就遇到这样一件事情,在公司做得一直不错,突然有一天,公司一老总说邮箱满了,无法接收邮件,让其处理。这位朋友正好出差,可能事情比较多,打电话给邮件管理员后,就把这事给忘记了。第二天,这位老总就打电话过来,说处理问题不及时,也不给回复。无法接收邮件,导致重要客户邮件没有收到,严重影响公司业务。结果就投诉到IT部门老大上面,年底晋升的时候,可想结果如何了。
应对方法:IT运维人员在处理同事及客户出现的问题时,一定要分清问题的重要性,划分不同的等级。公司重要领导交待的事情,一定要加急处理,如不能马上解决,一定要在2-4小时内汇报问题处理进度。一些日常问题,若不能及时解决,也应该告知用户处理好所需的时间,好让用户有心里准备。这个时间也需要把握好,不能太紧也不能太长,时间太紧,对自己没好处,太长的话用户会抱怨处理问题速度过慢。
4.关于工作与职业的问题。很多分不清楚,究竟什么是工作,什么是职业。如果仅仅是把工作当作一种工作去做,可能我们会比较被动的接受;如果当成一种职业,把事情认为是自己的分内之事,自己有义务去做好。怀着这样的心态,我想我们在运维中的很多事情都能迎刃而解了。还是那句话,保持微笑,多想想,又可能帮助同事或客户解决问题了,又可以体现自己的价值了,多好啊!
5.关于如何处理好技术学习与人际关系。IT运维人员在追求技术上的进展时,与处理好人际关系,表面上看是俩码事,实际上却会发生冲突。很明显的例子就是,此事太过简单,不值得我动手,我教用户解决就行,或者直接发一本册子给他让其自行解决。这又回到了上面的问题,态度问题。记住,态度很重要。如果想长期在这一行做下去,很多时候,决定自己命运的,可能并不是技术多么高深,更重要的却是人际关系。我们可能无法满足所有同事或者客户的需求,但是在不违背原则的情况下,尽可能的满足他人的需求。多行善,少树敌,对自己有益无害。
最后要说一点是,放下自己的面子,行事不可过于清高。常微笑,少抱怨,少熬夜,及时睡眠有益于身心健康。个人一点小小总结,难免有失偏颇,欢迎大家发表意见。
第三篇:银行IT运维职责
最佳答案检举IT运维是IT管理的核心和重点部分,也是内容最多、最繁杂的部分,该阶段主要用于IT部门内部日常运营管理,涉及的对象分成两大部分,即IT业务系统和运维人员,该阶段的管理内容又可细分为七个子系统:
■ 设备管理:对网络设备、服务器备、操作系统运行状况进行监控
应用/服务管理:对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,如邮件系统、DNS、Web等的监控与管理
■ 数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和恢复
■ 业务管理:包含对企业自身核心业务系统运行情况的监控与管理,对于业务的管理,主要关注该业务系统的CSF(关键成功因素Critical Success Factors)和KPI(关键绩效指标Key Performance Indicators)
■ 目录/内容管理:该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理
■ 资源资产管理:管理企业中各IT系统的资源资产情况,这些资源资产可以是物理存在的,也可以是逻辑存在的,并能够与企业的财务部门进行数据交互
■ 信息安全管理:该部分包含了许多方面的内容,目前信息安全管理主要依据的国际标准是ISO17799,该标准涵盖了信息安全管理的十大控制方面,36个控制目标和127中控制方式,如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等
■ 日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段IT运行维护管理的每一个子系统中都包含着十分丰富的内容,实现完善的IT运维管理是企业提高经营水平和服务水平的关键。运行/维护阶段与服务/支持阶段的分界线为前者是面向IT部门内部的管理,而后者是面向业务部门、企业中的其它人员或直接面向客户。
第四篇:银行IT运维管理的心得
银行IT运维管理的心得
银行运维的压力非常大
• • • 随着金融市场的开放,银行业的风险控制会面临挑战,风险管控优先级要放到最高。尤其是系统风险的的防范,要使用先进的方法论和工具,须做到精细化的风险管理。银行的科技部门压力很大,业务不断增长要求IT持续满足业务需求,系统多,耦合多。一个新系统的建设往往要设计多个系统,各个厂家之间无法协调,问题经常出现。现在银行的系统的建设非常困难。基本上所有需要的系统都了。但是可能不太好用。主要是系统升级,或者部分新的系统的建设。这些都涉及和其他很多部门,系统的关联。系统的上线也需要非常长的时间。• 公司内部共有约上百个系统。系统越来越多。工作越来越多。不象以前可以简单地上一个新的系统,几个月搞定,很有成就感。现在不仅没有,担心的事情,调节的事情一大堆。• 现在有很多公司给银行提供IT产品和服务,选择看似很多,但实际看来做好一个系统确实越来越难,希望各个厂家要充分理解客户和客户的需求,有创新的想法和做法提供到用户,而不是只是关注自己产品和服务本身,这样双方的合作才能可持续发展。• 开发商方面的人员变动非常快,营业和技术人员。刚刚熟悉了,找到了一个好的开发团队,转眼人不在了。现在上一个新的系统,不仅要确认这个公司如何,这个项目经理如何。如果这个公司或者这个项目经理不好,也不能用。• • 数据集成和治理:系统复杂而分散造成数据分散和标准各异,经常无法得出一份权威的报表,矛盾凸显。需要花大力气进行数据的管理。
业务部门不理解科技工作,科技人员不大懂业务,往往会造成沟通困难,项目实施进度缓慢。一个经验是让科技人员到不同的业务部门轮岗,让他们熟悉业务。做项目时,这个人就是部门协调人。• •
但是运维系统很难上
• • • • • IT部门主要应对业务部门的要求,开发了很多的系统
IT部门对于自己的系统的自动化,运维管理的投入和开发确是很少。
随着银行的业务系统的膨胀,复杂度的增大,IT系统的风险在加大。
IT部门的高层对风险的认识比较高,但是他们不清楚具体的对应方法。
IT部门的底层,各个部门的认识不统一
开发部门:着眼于开发 银监会要求银行提供不间断服务。在奥林匹克,万博等重大活动时要求行长签署保障书,军令状。
去年以来有几个重大事故,都是运维人员的失误造成。以下银行事故:
– 华夏银行,光大银行系统,民生银行系统事故。IT主管或被免职,或被警告
运维部门:希望能够对系统进行统一的管理维护,但对开发完毕的系统
没有修改的权利
具体操作人员:更多地关系自己的工作,对如何改进缺少想法
运维产品内容
• ITIL流程管理
运维管理流程控制,综合服务台。大中型银行需要。但是千万注意CMDB,这个东西真难搞,搞不好,一身问题。产品:BMC • 综合监控(各类银行)
相对比较容易理解:网络,硬件,中间件。
问题:应用的监控,需要开发。联动太深,以后对应用程序的变动又会有影响。只能是浅层次的结合。
产品:IBM Tivoli,BMC,日立 JP1 • 自动化(各类银行)
一般这个概念还不太为人知道,国外应该是日本银行做的比较好一些。国内做的相对比较早,比较好一点的是浦发银行。
内容:批量处理的统一自动调度,灾备切换流程自动化,各种手工作业的自动化。相对比较难以了解,但是很实用,可以一步拓展。其实就是流程化,但是和一般的流程不同,可以对系统自动进行操作。
问题:技术人员和开发厂商对这个概念还不太明确。产品:日立JP1,其他公司也有,但内容相对不太全面。
国内厂商:号称什么都可以对应,但是产品不规范,小的政府部门还可以,银行就算了。
第五篇:运维管理定义
运维管理(IT Operations Management)帮助企业建立快速响应并适应企业业务环境及业务发展的IT运维模式,实现基于ITIL的流程框架、运维自动化。
核心思想随着国内企业业务信息化的深入, IT运维部门所负责的IT设备及软件的运行维护工作变得越来越复杂,技术难度也越来越高。传统的IT工具和流程集中在技术上,而不是业务目标上。业务服务管理(Business Service Management)使IT能轻松满足业务的需求,转变企业的环境,使业务部门和IT部门领导者能够拥有统一的语言,通过统一的界面面对挑战,理解新变化所带来的影响。
BSM主要强调从业务的视角来看待企业的IT运维,从而最大化发挥IT对企业业务的推动作用,这就IT运维的核心思想。
着眼点IT系统的业务服务管理主要着眼点
一、确立以业务价值为核心,业务驱动管理的管理思想面向业务要首先在IT管理的战略层面上建立“业务驱动”的IT治理和管理思想,使得业务部门的目标和IT运维的目标一致,都是为了企业整体战略目标的实现,把对业务的支撑能力和管理实效,作为评价IT系统效用和IT部门工作的首要指标。只有这样,才能在全企业范围内建立“技术服务于业务发展”的意识和文化,是真正实现IT与业务融合,共同为企业的战略目标服务。
二、建立关键业务服务模型今天的业务部门对应用程序的依赖性比过去更强了。应用程序软件可以实现关键业务流程的自动化 —自动化既包括付款、资金转账、下订单和订单履行。由于应用程序故障或性能问题可能导致严重的业务影响,因此业务部门迫切需要 IT 部门在发生问题时提供更高的应用程序服务级别和更快的问题解决方案。所以,必须结合企业战略和目前业务运营情况,辨识企业业务服务,特别是关键业务应用。为这些核心业务系统服务,建立和企业未来发展愿景、目前IT架构、管理模式等相适应的业务服务模型,能够清晰地描述业务与IT之间的关联关系和IT服务的关键目标。
三、管理信息共享目前,出于对IT资源专业化、精细化管理的要求,企业部署了诸多的监控管理工具,如网络监控、系统监控、数据库监控工具等。一般来说,这些监控工具往往来自于不同的厂商,彼此之间缺乏信息共享的手段。而一个具体的业务是由网络、主机、应用本身所组成,管理信息无法共享,这就造成了当一个故障出现时,无法通过系统直接自动分析并定位故障点,加大了IT故障的分析难度,降低了解决问题的效率。业务服务管理可以有效整合企业已经构建的众多IT监控系统,将分散的IT管理信息集中到一个单点的管理平台中,从而可以快速进行故障定位。
四、根源问题定位随着企业业务的快速发展,IT环境越来越复杂,IT组件越来越多,同时各组件之间的关联关系也更加纷乱和复杂。业务服务管理能够提供有效的根源问题定位能力,它着眼于企业的核心业务系统,通过集中与业务相关的IT信息,根据业务逻辑和IT组件之间的关联关系进行建模,企业可以在业务模型中的任何一点进行快速的根源问题分析和定位,大大提高了解决问题的速度和准确度。
五、故障影响范围评估当我们发现IT故障时,我们不仅应该关注故障本身,更应该考虑该故障对业务系统的影响。通过建立业务服务影响拓扑,可以快速的了解企业的关键性业务及业务故障时的影响范围,通过了解企业具体的业务环境,优先处理关键故障点。