第一篇:做好IT运维管理基础工作的对策
做好IT运维管理基础工作的对策
一、做好运维的三个关键点是有监管文件明确给以指引的:运维流程管理、监控及一体化管理、应急管理;
其中个人认为应急管理包括故障应急处理、高可用冗余建设、灾难恢复计划DRP或业务连续性计划BCP等几方面。应急管理的一部分也是可以利用一些流程化管理的。同时融合运维绩效考核KPI及SLA进ITIL运维流程管理系统,以KPI引导,转化被动的基础的IT运维工作到主动的高阶段的IT服务管理。
二、做好运维的基础工作方法是“实现四化”:“合规化、透明化、标准化、系统化”。实现这个基础后,会有更好的方法和更好的基础去做好运维工作。
1、合规化从监管以及管理高层与风险管理迫切压力需求的角度来说特别重要;内容是“做好信息安全及应急管理”,需要管理流程与安全及应急管理控制手段结合,如ITIL变更审批流程与堡垒机权限控制系统的结合。如ITIL事件升级到重大事件,再升级到灾难等升级流程及应急流程管理,包括灾备恢复演练的流程。所以说“应急管理的一部分也是可以利用一些流程化管理实现的”
2、系统化就是利用这种管理系统将各种IT管理流程、运
维管理经验、IT服务管理思想系统化,并能不断优化,扩展。具体不讲了。
3、“透明化”就是运维的管理要对内对下透明,对上对外透明;
实现方法是” 健全运维绩效考核评价机制以及SLA,服务级别协议与服务报告管理”这几点。“透明化”这一点其中有一点奥妙。指标只是其中表象的一部分,关键是如何融合进工作流程中,让每个人都知道KPI,并实时了解掌握自己的当前绩效,真正发挥出的KPI导向作用:好用、易用、有用。做好从时效、质量、满意度等考虑的事件、问题、变更管理的基础工作,包括以SLA、系统可用率考核的重大事件或故障、系统容量、性能管理等工作,做好基础、接口与系统化,才能将 “透明化”有了实现的基础,能使得运维部门有压力和动力从IT运维 转向做IT服务管理,变被动运维向主动服务转变,然后从对内、对下的透明化,转向SLA做到对外、对上的透明化。
4、标准化就不提具体的了。
监管文件指引要求如下:
强化运维体系建设,提升系统服务水平
─ 加强运维流程管理。进一步完善运维管理流程,健全运维管理制度和标准,重点加强事件管理、问题管理、变更管理、配置管理等关键管理流程和数据管理、机房管理等制度标准建设与执行力。加强管理流程整合,完善信息交互机制,形成闭环管理。强化事件分级制度,建立有效的事件升级及响应机制;加强事件后续分析与处理,不断优化管理流程;建立变更分类标准和变更分级审批流程,完善变更窗口管理制度,有效降低变更对生产运行的负面影响;制定配置参数移植、修改、备份、存储、更新、销毁等方面的管理制度,控制配置操作引发的风险。完善数据存储、使用、传输以及备份管理,进一步制定标准、规范,重点强化客户信息和经营分析数据等敏感数据访问控制、清理、销毁以及数据变形使用管理;进一步加强机房人员、供电、空调、防火管理。
─ 加大集中监控及一体化管理力度。健全生产系统软硬件、网络及应用系统性能监测指标体系,优化监控策略;在实现对系统、设备、网络、基础环境等监控基础上,重点加强对核心应用系统和电子银行渠道监控;构建统一监控平台,统一管理和展现各种监控资源,实现集中告警方式,全面、及时掌握系统整体运行状态,快速定位故障、缩短处理时间;加大对总分行监控系统整合力度,提高总行对分行生产系统监管能力,进一步完善监控、响应、处理、报告、反馈和跟踪机制,实现全行范围基础设施和
主要应用系统生产运行情况的全面监控,提高运行管理的全面控制能力。提高运维管理自动化水平,整合操作、维护、监控、响应、处理等管理流程,推进企业级总控中心(ECC)建设,促进运维管理一体化。
─ 健全运维绩效考核评价机制。建立管理流程评价模型和量化标准,推进员工岗位绩效考核,制定系统运行关键绩效指标,建立生产运行绩效考核指标库;以系统可用率为基础指标,制定应用服务目录,建立生产运行量化绩效考核评价体系,推动提高运维服务水平
建立业务连续性管理体系,保障金融服务持续稳定 ─ 构建业务连续性管理框架,为业务持续运营奠定基础。将业务连续性管理纳入银行全面风险管理范畴,建立业务连续性管理组织架构,明确董事会、高级管理层、风险管理部门、业务部门、信息科技部门以及后勤保障等各部门职责,统筹推进业务连续性管理工作。明确业务连续性管理体系建设策略、管理流程、阶段性目标与实施路径,探索建立业务连续性全生命周期管理机制,将业务连续性管理嵌入到业务流程中;根据风险战略、政策,遵循“风险可控、成本可算”原则,制定业务分类分级保护策略,与业务活动的性质、规模和复杂度相适应;探索要素分析模型,深入开展业务影响分析,科学确定关键业务恢复次序与恢复时间要求,明确业务恢复目标;制定恢复策略与业务持续性计划,开展业务持续性管理有效性评估;建立动态的恢复指标管理制度,明确恢复指标归属管理部门,定期评估恢复指标的有效性。优化资源分配,制定容量规划,建立通道管理机制,提高运营支持响应能力。加大培训力度,加强文化建设,提高全员危机意识、风险意识。
─ 加强应急处置,提高协作能力。建立健全应对突发事件的预警、报告、决策、指挥、响应及退出等环节的应急处置机制。制定监测指标,实时监测业务运行状态,及时发现异常情况,及时预警;建立清晰的报告流程,明确报告路线;建立应急指挥、决策体系,统筹协调,高效决策,保证指挥流程畅通;制定应急处置响应流程,加强关键岗位人员配置。
建立应急预案一体化管理体系,建立涵盖总体预案、专项预案等预案框架;统筹预案管理,加强预案之间的衔接与配套;建立有效的预案维护机制,涵盖预案制定、评审、发布、变更和回收过程;制定预案编制规范,保证预案编制质量;强化预案后评价与持续改进机制,保证预案有效性。
推进与政府机构、公共事业机构、金融同业机构、银行服务机构等外部机构的应急协作机制,促进信息共享,加强战略合作,推进协调联动。
─ 完善灾备体系,提高灾难恢复能力。根据风险战略与业务连续性目标,制定灾难备份体系建设策略与实施路线;以业务有效恢复为目标,逐步加强灾备体系建设;逐步加大数据、系统、基础设施等各类资源的保护范围以及恢复能力;逐步推进分支机
构灾难备份建设,提高电子银行渠道灾难恢复能力,推进外联交易、支付、清算等重要渠道灾难备份建设。
探索灾难备份体系建设模式,加强架构设计,应用技术创新,加强数据中心集约化、标准化、流程化管理;深入研究数据中心“双活”、“多活”建设模式,提高数据中心之间相互备份、切换和接管能力。
─ 加强应急演练力度,保证应急灾备体系的有效性。加强应急演练,加大演练频度、扩大演练覆盖范围,采取计划性、非计划性等多种演练形式,有效验证应急响应及灾难恢复流程、决策机制、指挥体系、报告渠道、资源保障效果与能力,通过演练提高认知、完善技能。逐步推进以真实业务接管为目标的实战演练,逐步加大实战演练频度,全面提高应对重大突发事件能力。推进跨地域、跨机构、跨行业应急演练,加强合作、相互支持、共享经验,促进行业以致社会整体应急管理水平的提高。
第二篇:运维主要工作
运维主要工作:
(1)运维人员每天至少上午,下午现场巡视检查设备运行状态。
(2)每天值班的运维人员负责接听电话,负责每小时抄写各种记录表格一次。
(3)执行俩票三制制度。
(4)配合厂家完成检修任务。
(5)上级领导安排的其他工作。
(6)夜间值班,需要睡在主控室,所有设备报警声必须打开。
(7)配合站长进行应急处理。
(8)清理光伏区组件,避免因遮挡问题而导致发电量损失,表面因产生热斑而导致组件损坏与异常发热。
(9)每月最少一次在负荷最高时用热成像仪检查组件是否有热斑,每周检查一次电气设备是否存在温度异常升高的现场。
(10)恶劣天气后进行特殊巡检。站长的主要职责:
(1)是电站安全运行的第一责任人,对电站的安全运行负责。
(2)负责审查各种报表,负责检查两票。
(3)负责监督运维人员执行各项措施。
(4)负责对运维人员进行考核。
(5)负责对运维人员提供技术培训及技术支持。
(6)负责安排运维人员的工作任务。
(7)完成上级领导安排的其他工作。
(8)负责与电网方面进行联系,业务处理。维持电站与电网之间的关系。
(9)负责担任工作票签发人,工作负责人。
(10)重大操作时担任监护人。需要配置的物品与设备
录音电话一台,并将录音接入电脑,用于同调度联系。OMS电脑一台,用于同接收发送调度邮件。普通办公电脑一台(向电网咨询,如不需安装则不用安装OMS电脑)。灭火器若干,不能放置于开关柜室,干变室,二次继保室中,需单独配置灭火器箱。二次继保室必须使用二氧化碳灭火器。接地电阻测试仪一台。热成像仪一台。蓄电池充放电设备一台。各设备技术协议,图纸需全部配齐,不能缺少。组件配品配件若干,汇流箱内空开备品备件若干,浪涌保护器若干。变压器各种备品备件若干。工具包两个,内配置工具。电笔若干,万能表两个,钳形表两个,10KV验电器两个,并按照相关国家规定定期进行送检。10KV绝缘手套两副,绝缘鞋两双,并根据国家有关规定进行送检。灭火器也需根据国家规定定期进行送检,灌装。工具一套,包括各种型号的扳手,内六角扳手整套,呆扳手整套,梅花扳手整套,螺丝刀一字与十字若干,型号配全。接地线至少两组,并根据国家有关规定进行定期送检。绝缘梯两个。逆变器内各种小开关至少每台配置一个各种逆变器需要用到的型号。A4打印纸,A3打印纸。找厂家专门定制表格一份,用于填写记录表。软毛刷若干,可伸缩杆若干。塑料水桶数个。打印机一台,可打A3与A4纸。安全规程人手一本,县调度规程一本。公车一辆,必须可以拉货。五防钥匙需多要一台备品备件。紧急解锁钥匙三把,可折叠单人床一张或两张,人员要求附加原因解释。每个光伏区进口都需安装铁门,光伏区周围加装安全护栏,如公司感觉无需加装则可以不加装铁门与遮拦。安全标识牌若干,包括“高压危险”标识牌数个,“高压危险,禁止靠近”标识牌数个,“禁止合闸,线路有人工作”数个,“禁止合闸”标识牌数个,工程负责人与我进行交接相关工程图纸等交接。其他物品等商榷以后进行补充。强光可充电式手电数个。其他物品需根据运维实际情况进行补充。人员要求
运维工作的正常开展不算我需要四个人,尽量全是男的,从事过电工工作最好,是否是高压电工都行,普通人员也可,入职前进行体检,确保无传染病,在站内吃饭,最好是住在站内,如条件不允许可以就近安排住处,如附近无住宿条件,夜间值班便需两个人,轮流夜间值班可以睡主控室。是不是当地的都行,最好是有一个工程人员转运维人员。
个人要求
月薪6500,五险一金,可以按照国家最低标准交,但必须有,享受法定节假日三倍工资,每月休班7天,时间自己安排,有年终奖,工资每年调整增加一次,具体金额公司视发电量与电站安全运行情况决定,如不需我同电网进行关系维持则月薪6000,如再提供食宿月薪则5500,单独提供住宿月薪5700。同时公司可安排我外出参加各种相关培训,出差费用公司报销。有本电站运维人员的任免权与考核权。正值工作任务
担任工作负责人,工作许可人,工作班成员,专职监护人,负责填写工作票,并履行相关手续。审查副职填写的操作票并送与站长审查,填写工作票并送与站长审查执行巡视检查制度,监盘并按规定填写各项表格,站长不在时行驶站长权利,接听调度电话,重大操作时担任操作人,非重大操作时担任监护人。打扫全站卫生,上级领导安排的其他工作。副值班员工作任务
担任工作班成员,担任专职监护人,负责填写操作票送与正值审查。监盘并按相关规定进行填写各种表格,执行巡视检查制度,接听调度电话,在站长或正值的监护下进行倒闸操作。
其他事宜根据运维实际情况进行调整。
第三篇:如何高效规范的做好IT运维管理
如何高效、规范的做好IT运维管理
所谓 IT运维管理,是指单位 IT 部门采用相关的方法、手段、技术、制度、流程和文档 等,对IT 运行环境(如硬软件环境、网络环境等)、IT 业务系统和 IT 运维人员进行的综合管理。普通企事业单位的IT运维管理,存在着重操作、轻理论,重结果、轻总结的实际情况。根据相关统计,在日常的IT运维中。大约70%以上的故障是由业务人员首先发现的,而IT运维人员更多是担任救火队员的角色,表明了运维工作存在着大量的监测盲点,IT运维的工作处于相对被动的状态。这种传统的“见招拆招”式的IT运维管理方式已经不能满足企事业单位内部日趋扩大的信息化应用,而且在一定程度上也制约和影响了业务的开展。
IT管理和运维工作涵盖了各行业的各岗位中,如何提高工作效率,规避风险,更好的做好IT管理和运维工作,已经成为一个不断探索和研究的新兴课题。笔者认为,应从两个层面加强和完善IT管理和运维工作,可以改善IT运维工作的现状。
一、转变IT运维管理工作方式和理念
强调从技术型向管理型转变。各企事业单位的应用系统和网络系统已经成支撑业务正常运转的重要基础,保证应用系统和网络系统的正常运行和使用成为了IT运维工作的重中之重。IT运维部门的职能应当从传统的重服务轻管理,逐步转变为服务与管理并行,规范化与人性化相辅相成的模式,以适应现代化信息的工作模式。
二、建立完善的内部信息共享平台 从基础设施。应用系统和业务服务三个方面打造完善的信息共享和资源监控平台。能建立有效的信息资源库,减低对关键技术人员的依赖,为日常IT运维和 管理工作提供有效的保障:基础设施管理方面,对网络,应用系统软、硬件等资源进行细化管理,详细记录电子设备的出入库、维保、报废等环节。保证资源的有效 利用;应用系统管理方面,对于各类应用系统的备份,日常维护进行有效管理控制,保证所有应用系统数据的一致性、准确性、及时性、可用性和完整性,并根据实际需要不断进行改进、完善或更新;业务服务管理方面,尽可能的记录所有的事件要素,包括问题描述、解决方案、操作人员等等。使得部门对人员的考核有了量化的标准,同时这个过程也有助于知识积累,形成有效的知识库,可以极大地减少对关键人员的依赖,降低人员流失的风险。
三、清理、简化现有IT运维管理制度
形成适合企事业单位管理实际的制度体系。以建立完整、规范、有效的内部规章制度体系为目标,紧密联系工作实际,按照适用、可行、合法、有效的原则,对现有规章制度进行全面的自查和清理。按照IT运维管理工作的职能分工分层次、分步骤地对制订的各项内部管理制度规程进行分类清理,从制度内容的适用性、可行性、依据和效力的合法性、执行的有效性等方面进行了逐条审核,并结合实际工作,对上级部门制订的内部管理制度与当前实际工作不符的情况进行修订和完善。逐步摈弃传统的“人管人”的工作模式,形成以制度带动人,以制度带动工作的长效机制。
四、建立例行巡查和通报制度
IT运维部门的负责人和业务主管可通过内部信息共享这一平台,对业务进行有效的监督。一是定期对记录的相关事项进行巡查,审计已登记发生事项的规范性。二是对正在发生的事件实时跟踪,及时了解事件的进展状况。规范各个流程的操作,从源头避免业务差错的发生。三是建立采集问题,核实整改问题及问题通报三个环节的通报机制,以提升力IT运维管理的效率。
五、加强与内部审计部门的业务合作
内部控制审计对组织治理、风险管理、改善控制效率和效果等方面有很大的促进作用。IT运维部门可配合内部审计部门进行运维管理,将内部控制审计作为常态化审计类型,通过这种方式,突出内控特点,运用规范的审计方法和评价体系,注重从控制、风险、管理等宏观层面查找问题、提出建议,以达到促进IT运维管理工作,完善内控和加强管理的目的。
六、通过内部审计部门,加强督导、整改等工作的实效
在IT运维管理工作的过程中,不仅要发现问题解决问题,更重要的是要形成完善的IT运维管理工作规范和流程。在这点上,可以通过内部审计部门对企事业单位内部进一步规范制度、程序和方法,形成对风险进行事前防范、事中控制、事后监督和纠正的动态过程和机制,强化重要业务环节的风险控制。加大检查力度,切实有效地推进督导、整改工作,建立内控管理的长效机制。
七、加强与内部审计部门的沟通交流和人员培训,培养复合型管理人员 定期组织IT运维人员和内部审计人员进行学习交流,探讨内控管理中存在的问题,交流内控管理的心得体会,充分发挥IT运维的技术优势和内控的管理优势,通过良好的内部沟通机制和完善的信息共享平台,建立内部控制体系运行网络和内部控制管理组织体系。
第四篇:运维管理定义
运维管理(IT Operations Management)帮助企业建立快速响应并适应企业业务环境及业务发展的IT运维模式,实现基于ITIL的流程框架、运维自动化。
核心思想随着国内企业业务信息化的深入, IT运维部门所负责的IT设备及软件的运行维护工作变得越来越复杂,技术难度也越来越高。传统的IT工具和流程集中在技术上,而不是业务目标上。业务服务管理(Business Service Management)使IT能轻松满足业务的需求,转变企业的环境,使业务部门和IT部门领导者能够拥有统一的语言,通过统一的界面面对挑战,理解新变化所带来的影响。
BSM主要强调从业务的视角来看待企业的IT运维,从而最大化发挥IT对企业业务的推动作用,这就IT运维的核心思想。
着眼点IT系统的业务服务管理主要着眼点
一、确立以业务价值为核心,业务驱动管理的管理思想面向业务要首先在IT管理的战略层面上建立“业务驱动”的IT治理和管理思想,使得业务部门的目标和IT运维的目标一致,都是为了企业整体战略目标的实现,把对业务的支撑能力和管理实效,作为评价IT系统效用和IT部门工作的首要指标。只有这样,才能在全企业范围内建立“技术服务于业务发展”的意识和文化,是真正实现IT与业务融合,共同为企业的战略目标服务。
二、建立关键业务服务模型今天的业务部门对应用程序的依赖性比过去更强了。应用程序软件可以实现关键业务流程的自动化 —自动化既包括付款、资金转账、下订单和订单履行。由于应用程序故障或性能问题可能导致严重的业务影响,因此业务部门迫切需要 IT 部门在发生问题时提供更高的应用程序服务级别和更快的问题解决方案。所以,必须结合企业战略和目前业务运营情况,辨识企业业务服务,特别是关键业务应用。为这些核心业务系统服务,建立和企业未来发展愿景、目前IT架构、管理模式等相适应的业务服务模型,能够清晰地描述业务与IT之间的关联关系和IT服务的关键目标。
三、管理信息共享目前,出于对IT资源专业化、精细化管理的要求,企业部署了诸多的监控管理工具,如网络监控、系统监控、数据库监控工具等。一般来说,这些监控工具往往来自于不同的厂商,彼此之间缺乏信息共享的手段。而一个具体的业务是由网络、主机、应用本身所组成,管理信息无法共享,这就造成了当一个故障出现时,无法通过系统直接自动分析并定位故障点,加大了IT故障的分析难度,降低了解决问题的效率。业务服务管理可以有效整合企业已经构建的众多IT监控系统,将分散的IT管理信息集中到一个单点的管理平台中,从而可以快速进行故障定位。
四、根源问题定位随着企业业务的快速发展,IT环境越来越复杂,IT组件越来越多,同时各组件之间的关联关系也更加纷乱和复杂。业务服务管理能够提供有效的根源问题定位能力,它着眼于企业的核心业务系统,通过集中与业务相关的IT信息,根据业务逻辑和IT组件之间的关联关系进行建模,企业可以在业务模型中的任何一点进行快速的根源问题分析和定位,大大提高了解决问题的速度和准确度。
五、故障影响范围评估当我们发现IT故障时,我们不仅应该关注故障本身,更应该考虑该故障对业务系统的影响。通过建立业务服务影响拓扑,可以快速的了解企业的关键性业务及业务故障时的影响范围,通过了解企业具体的业务环境,优先处理关键故障点。
第五篇:项目运维管理
龙岗区项目运维管理
1、设备应用
1、负责对所有设备的应用操作,每季度提交每个设备的配置和存储应用情况报告、网络拓扑报告、IP分配报告,并负责对龙岗区城管局的相关工作人员进行培训;
2、对新应用的设备需求,驻场工作人员应及时提交设备配置现状及设备规划报告,以便该应用能及时实施;
3、掌握设备的运行情况,就保修期、存储空间等及时进行提醒;
4、建立相关系统软件各种故障的恢复流程及应急措施;
2、环节与设备
1、定期对机房供配电、空调、温湿度控制等设施进行检查记录
2、做好机房人员的出入、服务器的开机或关机等工作进行记录;
3、根据维护合同附件资产清单,建立服务器及网络设备的档案,形成不易破坏的醒目标识,并定期更新相关内容;
4、对资产清单所列的各种设备、线路等,做好检查维护工作,发现故障,及时报告,并安排服务联系或维修,对维修情况提交书面报告;
5、形成每日巡视制度,对机房中相关设备的告警显示、空调、UPS等实际状态进行记录。
3、监控和安全
1、通过IT资源监控系统,对通信线路、主机、网络设备和应用软件的运行状况、网络流量、用户行为等进行监测和报警,形成记录、妥善保存并按重要性级别,定期书面报告;
2、针对网络运行日志、网络监控记录的日常维护和报警信息分析和处理工作,提出优化建议及方案;
3、定期对网络系统进行漏洞扫描,对发现的网络系统安全漏洞进行及时的修补
4、定期检查违反规定上网或其他违反网络安全策略的行为,书面报告;
5、指派专人进行核心服务器的工作压力监控,针对业务的增长定期生成主服务器的工作压力报表,并且预估业务增长对服务器压力的影响提出合理化建议;
6、指派专人进行核心数据库的工作压力监控,定期生成报告,并就改进提出合理化建议。
4、操作系统安全
1、根据甲方业务需求和系统安全分析结果,确定系统的访问控制策略;
2、定期进行漏洞扫描,对发现的系统安全漏洞及时进行修补;
3、及时安装系统的最新补丁程序,在安装前,首先报告同意,且在测试环境中测试通过,并对重要文件进行备份后,方可实施系统补丁程序的安装;
4、所有对系统进行的维护,均需详细记录操作日志,包括重要的日常操作、运行维护记录、参数的设置和修改等内容,严禁进行未经授权的操作;
5、备份与恢复
1、根据印制中心实际应用情况、根据生产相关数据的连接关系、根据应用的业务特点和软硬件资源,制定详细的系统数据备份计划,确定合理的系统备份策略。定期备份重要业务信息、系统数据及软件系统等;
2、应根据数据的重要性和数据对系统运行的影响,执行数据的备份,每月提交数据备份报告,必要时实施数据恢复;
3、按照控制数据备份和恢复过程的程序,对备份过程进行记录,所有文件和记录应妥善保存;
4、定期进行备份介质的维护、更新、替换、轮转,保证备份介质可靠有效,针对重要备份介质进行双机房异地轮转;