第一篇:电力通信运维管理系统设计与实现管窥
电力通信运维管理系统设计与实现管窥
【摘 要】随着我国通信技术的迅猛发展,逐渐有了越来越大的通信行业的发展规模,也会增大覆盖的范围。另外,在实际的生产活动当中有了越来越复杂以及庞大的需要交换的信息和数据,这已经在很大程度上超出了传统方式能够处理的实际范围。将通信技术引入到现代化的生产活动当中,能够有效促进信息的交换,进而提高数据处理的效率。在这样的形式之下,应该设计并开发出基于通信技术业务流程的一个管理系统,该系统应该有效保证企业当中信息交换的准确、方便以及快速。在本文中,简单描述了电力通信运维管理当中存在的一些主要问题,阐述了系统设计的目标和原则,并分析了管理系统的实现。
【关键词】电力通信 运维管理 系统设计 原则 实现
在电力系统当中,系统通信是非常重要的一个组成部分,它包含的主要业务有电网的生产、营销以及调度,属于保证电网经济、稳定、安全、高效运行的一个非常重要的技术方面的支撑。随着电网建设的不断信息化和智能化,在很大程度上壮大了电力通信网的实际规模,也增加了结构的复杂性。为了能够对电力通信网的稳定发展进行更好的适应,对电力通信网的整体质量进行提高,优化管理运作的实际水平,应该对电力通信运维的管理进行足够的重视,有效保证通信运维工作的高效性、可靠性、规范性以及有效性,保证电网业务当中具有的综合能力。
1分析电力通信运维工作管理当中存在的问题
现阶段,电力通信的相关运维工作管理正在逐渐摆脱人工管理的阶段,向着电子化管理阶段发展,然而,在实际的工作管理当中仍存在着一定的问题。
1.1没有足够完善的运维部门工作的管理
通常情况下,运维部门的日常工作管理主要包括对相关的工作管理进行工作方面的计划以及通知。现阶段,没有非常标准的记录填写格式,没有极其严格的规范,有着各种口语化的描述,对运行状况的查询很难及时快速的进行;有着比较落后的数据统计方法,同时也有着比较低的工作效率,根本就不能为报告提供科学、有效以及全面的依据。应该对值班工作的相关记录进行规范统一,同时对工作记录进行集中性的管理,对日常的运维工作进行更加高效、规范以及快捷的完成,进而保证运维的基础工作。
1.2 不能有效实现运维工作的全过程管理
一般来讲,运维部门的调度管理在一定程度上要求有效实现故障业务的处理以及及时检修的工作方面的闭环管理,在实际的调度管理过程中,需要多个协作的部门来进行故障的处理,同时完成检修的相关工作,并对实际的过程进行跟踪记录。现阶段,相关的业务流程对逐渐发展变化的情况根本不能完全的适应,常常会产生跟随流程的反复性的工作,根本不能对工作效率的实际情形进行有效的提高,这会在很大程度上限制相关工作的协调调度,应该在一定意义上提供全面完善的,同时能够有效支持变更的控制以及管理,有效实现全程新流程的管理,方便日后的相关工作总结,对同类的故障时延进行一定的降低,进而提高网络运维的管理水平。
1.3运维管理和其它的通信管理系统之间没有足够强大的互联互通
通信资源管理与运维工作管理的发展以及监控水平有着一定的差异,各个系统之间严重缺乏整合、数据的交互、资源的共享以及系统之间的联动。因为通信网有了逐渐广泛的发展范围以及逐渐多元化的业务需求,这就导致运维管理工作根本不能跟随其快速发展的脚步,在及时性以及效率方面有着些许问题。
1.4 没有非常强的运维工作的经验交流与分析总结
众所周知,运维管理当中的工作分析、工作总结、工作经验以及报告能够为运维工作有效的积累经验,为处理故障提供有效的建议来逐渐完善以及优化已经形成的相关运维部门当中的经验库和专家库,能够有效共享知识以及经验。
2系统设计的目标与原则
2.1系统设计的相关目标
经过对电力通信运维管理工作当中的基本工作流程进行探讨,得出了系统设计的具体目标,具体表现为:运用该电力通信的运维管理系统能够有效管理相关的日常工作,这在很大程度上能够有效推进所有部门工作的信息化、系统化、办公自动化以及规范化的程度,利用软件系统能够实现在线完成电力通信的运维管理工作,进而来实现管理、通信效率的最终目的。
2.2系统设计的相关原则
(1)稳定性与安全性。在整个系统当中,稳定性与安全性是保证稳定运行以及满足实践需要的非常重要的因素。数据安全属于系统运行的一个重要的支撑以及关键,为了有效保证系统数据的安全性,应该数据进行存储加密,利用身份验证以及权限控制来对用户数据的访问权限进行控制,避免泄漏比较重要的数据,另外建立起健全完善的实时备份的相关策略,避免数据由于硬件故障或者软件错误而损坏或丢失。系统的稳定性是能够正常运行的根本,所以,在设计系统时,应该保证较高的容错性以及较强的兼容性,对比较重要的数据进行二次的校验,进而有效保证系统的稳定运行。
(2)可用性与易用性。通常情况下,可用性指的主要是系统可以对当前的业务需求进行最大限度的满足,并且还应该兼顾未来的实际发展需要,并对相关的接口进行预留。在进行了反复的对比之后,最终决定使用总体设计以及分步进行实施的方案来确定系统的技术路线。首先应该对总体的设计方案进行确定,并根据总体方案的相关指导来实现日常工作和具有现实意义的功能模块,在实际的实现过程当中应该特别考虑模块的可用性与可靠性。除此之外,应该运用硬件的容错处理来对系统底层进行管理,进而有效保障硬件以及软件的可靠稳定。之后依靠螺旋模型安全稳步过渡到更高权限的管理功能以及更多功能的功能模块。根据上面提及的操作步骤来进行具体的实施,能够在很大程度上让整个系统紧密联系硬件环境以及使用者的实际需求,同时还能够及时的得到试验以及调试,另外,还能有效保障系统在未来具有一定的平滑性、扩充性以及连贯性。
另外,易用性指的主要是对于直接的用户来讲,系统当中的易于学习与使用、可以有效减轻记忆负担、方便操作等特点。对系统的直接用户不同的计算机操作水平以及熟悉业务程序的实际程度进行充分的考虑,因此,应该设计友好简洁的系统用户界面。为了更加方便不同权限用户来操作以及运行软件,利用界面将系统当中的大多数功能及具体的操作方法清晰的传达给用户,并有效配置健全完善的帮助系统,能够更好的方便对系统问题进行及时的处理,对系统操作更快速的掌握。
(3)独立性与协作性。其中,独立性主要是指系统当中的各个功能模块独立的基础上,可以很好的完成所属业务部门的相关工作流程,可以对输入的数据进行正确接收并处理,进而构造出符合相关要求的数据来输出。而协作性指的主要是各个模块间可以按照工作的处理步骤和数据约束,根据系统接口来组成完整层次的系统。
3电力通信运维管理系统的具体实现
建设完成系统的结构以及数据库后,接下来就需要来实现系统的相关功能。首先来讲,应该对数据实现建模,记录电力通信运维管理当中的工作,组织并管理相应的数据资料,进而有效保证数据与调度值班的一致性,当实现该功能时,应该做好业务模型、告警数据模型、表单模型以及设备资源模型等,当录入数据库当中的数据时,能够按照工作当中记录的数据,在数据表当中进行分别的录入,对现实工作当中的事件进行模拟,运用系统来进行实施。在数据的选取时,应该运用统一的采集数据的标准,有效保证业务的相关性以及资源的相关性。
其次,应该严格规范业务流程,实现系统和工作之间的有机结合,当对流程进行规范之后,应该保持系统与业务流程的标准化,进而实现业务工作自动化处理的有效促进,因为完成系统功能的相关设计之后,那么在各个功能模块当中就包含着相关的处理业务的功能键,系统能够完全完成日常的维护工作,例如现场的作业管理等,在相应的功能模块当中对执行方式进行了一定的保护,消除了缺陷、验收生产、设备的清扫以及巡视等,对相应的功能键进行点击,那么就能够进入到相应的子功能的模块当中,在该模块当中,包含着比较常用的修改、删除以及添加的功能键,同时还包含着基本的网络维护的信息,例如,执行方式单、工作位置、仪器仪表、耗材使用等,当出现维护站点时,那么相关的工作人员就能够在系统当中查询以及维护,并做记录。
4结语
经过探讨电力通信运维管理的相关系统设计以及实现,对该系统进行设计与实现所需要的基础工作有了一定的了解,要想很好的实现相应的功能应该依赖基础数据,因此,应该根据基本的数据来有效保证数据资源的准确性以及唯一性。为了保证电力通信运行的安全性和稳定性的提高,那么必须将信息化管理渗入到运维管理工作当中,进而来适应相关的运行要求,保证企业的社会效益以及经济效益。
参考文献:
[1] 杨雪.山东电力通信网综合管理系统设计及应用[J].电力信息化,2013(5):11-12.[2] 张涛.电力通信综合资源管理系统设计[J].电子与通信工程,2011(08):42-43.[3] 王萍萍.电力通信信息化系统建设思路的探讨[J].电力系统通信,2011(2):12-13.
第二篇:IT运维服务管理支撑系统的设计与实现
(三)监控功能
图1传统IT运维模式与IT运维模式的比较
图2服务管理的基本原理
此功能设计的作用是监管和控制每个用户在使用时各项功能的实时运行情况与数据。在此平台日常的运行中,对硬件、软件设备配置的管理是负责软、硬件能否顺利运行、功能特点是否完全运行、出现问题时能否自我修复等,以及负责对下指令的发放与管理。还包含对软、硬件设备在运行时各种数据的搜集、整合、管理与分析,另外就是在出现问题时要能够
及时自我报警、提示问题出现在哪里并发出警报,如能完成对出现问题位置的准确定位是效果最好的。最后,还要能实现对系统运行时占用并使用了那些资源能够及时显示,为用户合理分配资源进行数据参考。
(四)对系统平台安全性进行监管
在现在人人都懂一些互联网技术的时代,对于网络安全的管理亦是同等重要,它主要是保障整个系统能够平稳、流畅、安全的使用,它的主要任务之一就是对计算机病毒的拦截与删除,利用此功能,使系统在接触陌生用户或者外来数据的传入时能够自我有效的阻拦陌生文件或病毒的入侵,从而保障整个系统的安全。二是要对系统内每天登陆、录入用户操作等行的数据形成日志文件保存起来并进行有效的管理。三是对用户的管控,主要指新用户的增加、无效用户的删除、对用户详细信息的查询、用户自我修正个人信息等操作。
二、对系统配置、管理、信息发布的管控
(一)对系统配置的管控
此功能的作用是整个系统的运行中所有硬件之间的配合、相互之间的运行进行保护与分别识认,以便能够更有效的管理日子信息的修改与公开。另外也会保证基本设备、基本服务建立的模式进行一个初步的建设。建立它的主要任务就是为我们的目标客户提供一种管控数据的方式、展示出整个系统真实的配制数据,使硬件系统的质量能够更好的相互配合,发挥其最大的效能,合理的分配各个存储设备的资源运用。
(二)对系统变更的管理
在整个系统的运行有效期中,不论是硬件设备,还是软件的配置都有其一定的运行周期,不可能一直无限的运行下去,或者是有时整个系统的为之服务的对象也会有变化,因此对于服务系统的资产和软、硬件配置的改变是必须要依靠相关系统功能来实现的。在系统的设计与搭建过程中,尤其要注意对各种变更操作的记录,每一次变更可能引起的风险评估,以及最重要的就是对于更重变更操作应当建立起相应规范的、合理的审批和操作程序。这一项中就应该包含对系统物理环境的管控、维修、操作有关的硬件配置、日志文件记录。
(三)对信息的发布管理
在这一项系统功能的实现中,主要是包含每个功能模块、操作程序、系统测试数据的公布和整理。在程序的生产环境情况下,对于何种信息、如何审批、如何公布进行安排。在信息发布过程中,不仅要在生产环境中进行提前的安排,同时要对系统的服务进行合理有效的安排,将安排的信息能够切实的运用起来。
三、整个系统功能的有效实现
在IT运维服务系统整个运行过程中,对一些良好的数据库开发工具亦有着很好的运用,也进一步对于整个系统的流畅运行提供了优秀的数据支持。这在系统的真是运行过程中,不仅涉及到软、硬件的配置、系统变更的管控、日志文件的发布等各个方面。在系统的开发过程中,在数据库中保存的程序运行结构图一般都是放在系统界面的右侧,在整个流程的设计中,已经包括了对各个子功能模块流程的显示。基于此,在对系统中的一些字段、数据库内表格的设置进行进一步的管理与配置。在我们对系统进行整体测试运行时,这种技术的应用,能够使整个系统发挥出其最好的效果,并且能够同时保持住整个系统在运行时保持稳定、维护系统的安全。同时也会使用户在使用系统的时候能够及时了解各个功能的实现与具体的操作流程没从而更好的发挥整个系统的最大效用。
四、结语
在现在这个互联网技术飞速发展的时代,软、硬件不断更新、IT技术不断创新,而且我们的社会生活中也越来越多的融入了互联网技术,使我们的生活品质和工作环境登发极大地改善,最重要的是提高了我们生活与工作的效率。但是IT系统要想能够发挥最大的效用,就需要有良好的运维服务系统做支撑,因此只有把服务管理支撑系统做的合理、有效,才能够有效的对IT系统和IT资源进行合理、有效的运用。参考文献
[1]尚云云.IT运维服务管理支撑系统的设计与实现[D].北京交通大学,2009.[2]张伟俊.成飞所IT运维管理系统的设计与实现[D].电子科技大学,2013.[3]姚国旺.信息系统运维服务支撑平台设计与实现[D].华南理工大学,2013.[4]商秀杰.某电商云平台业务运营支撑系统的设计与实现[D].中国科学院大学(工程管理与信息技术学院),2014.
第三篇:运维管理系统建设
ITIL提升中国电信运维管理系统建设
ZDNet CIO频道 更新时间:2008-01-25 作者: 来源:CSDN 本文关键词: 中国电信 ITIL 运维管理
运维管理是电信运营商主要的生产和管理活动之一。运维管理系统建设和运营的好坏直接影响到电信运营的整体成本、管理水平和服务水平。因此,近两年来,各大电信运营商纷纷对现有的运维系统进行改造。
中国在电信领域的增长速度超过了其GDP增长的速度。正是电信快速的增长,推动了运维系统的发展。如何更有效地利用现有的资源,提高运营维护的工作效率,提高整体服务质量是目前各大运营商面临的普遍问题。毫无疑问,中国电信在运营维护方面,也面临相同的问题。建设新一代中国电信运维管理系统,成为解决目前运维管理问题的唯一方案。
根据我们长期在电信领域的实践,下面的几点经验,值得我们在中国电信运维系统的建设中更加关注。
一、采用ITIL作为运维系统的方法论
IT基础架构库(ITIL-ITInfrastructureLibrary),被誉为IT服务管理的圣经,其中包含了总结国际大公司在IT服务管理中的经验并得到证明的IT服务计划和运营的最佳实践框架。
ITIL已经为《财富》500强的一些企业所采用,并取得了预期的效果。加特纳(Gartner)和国际数据集团(IDC)等世界权威研究机构的调查研究表明,企业通过在IT部门实施最佳服务管理实践,将因重复呼叫、不当的变更等引起的延误时间减少了79%,每年每个终端用户平均节约800美元的成本,同时每项新服务推出的时间也缩短一半。
要成为国际一流的企业,就要吸取国际一流企业的成功管理经验,借鉴其管理手段。因此,中国电信在运维管理系统的建设,也应确立ITIL在系统建设过程中的方法论地位,吸取ITIL中的成功经验。
作为众多国际大型企业成功实践的积累,ITIL使我们找到了解决运维流程规范的方式和方法。可是,如何更好地运用ITIL这一经典的方法论呢?我们认为应该注意两点:
1)ITIL是从实践中得来的精髓,不是僵化的教条,应该结合实际情况去运用ITIL,建立更加适合中国电信的流程规范,而不是照抄照搬。
2)由于ITIL理论博大精深,不可能在短期内在企业中全面实施。应该根据实际情况,选取实施重点,逐步实施,逐步完善。
在中国电信运维系统建设中,应该深入理解ITIL的核心理念,结合电信运维的现状,解决核心和关键问题,逐步实现对运维的科学管理。
二、ITIL理论与实际情况相结合,注重工作流程细节的设计和优化,是系统建设的关键
理顺工作流程、提高服务效率是新运维系统建设的主要内容之一。
在工作流程的制定过程中,容易陷入以下两个极端。
1.盲目照搬流程。作为方法论的ITIL,本身含有大量的成功实践框架。但是,正如前面所说的,ITIL是从实践中得来的精髓,不是僵化的教条,盲目照搬,只能使得工作流程不切合实际,并流于形式,对系统的贯彻和执行产生不好的影响。
2.完全遵照现有流程,实现其电子化。虽然这样更符合目前的工作习惯,可能容易为运维人员所接受,但是,仍然解决不了目前运维所存在的一些问题。例如,我们在项目实施中曾遇到“工单在部门之间的重派”的问题。在当前手工作业的工作模式中,各单位将不属于本单位处理范围的工单,或部门需要其他部门配合的工单,均提交给故障处理的负责人,由该负责人向其他单位进行转派和重派。这种处理方式,主要便于手工作业条件下负责人及时了解项目处理状况。在建立运维系统后,负责人可以通过运维系统随时了解到故障的处理状况,每次重派和转派之前,对负责人的回复变成了一种无效的工作,大大降低了事件的处理效率。如果仅仅将目前的手工作业电子化,那么故障处理的效率仍然没有得到有效的提高。
因此,将ITIL理论与实际情况相结合,注重工作流程细节的设计和优化,是系统建设的关键。
三、树立主动服务观念
在现行的运维工作中,我们经常遇到这样的情况:一方面是运维部门疲于应付各种突发事件,加班加点处理各种重复事件,工作繁重,身心疲惫;一方面是客户代表不断抱怨和投诉“技术人员服务水平太低”。二者不可调和的矛盾,是新运维系统要解决的重要问题。
传统的运维方式给人的印象是:故障发生前,维护人员似乎无所事事;故障发生后,则是手忙脚乱。这就是被动服务给人们留下的印象,运维人员是在被动地等待故障的发生。在新的运维系统中,我们必须改变原有的运维方式,变被动服务为主动服务。
在主动服务模式下,运维人员主动地监控系统的变化,对日常工作及故障处理完成后主动进行问题分析,对系统的变更风险进行评估。在新系统中,可以通过种种技术措施,使得运维工作从被动服务转移到主动服务,如:增加变更管理流程以防范变更风险。
在日常运维工作中,变更工作是在所难免的。例如,新的系统安全漏洞被公布,为了保证系统安全,就需要安全系统补丁,而这种变更给系统带来的风险则是难以估计的。例如在安装补丁后,有时会产生大量莫名其妙的问题。这么一个简单的例子已经可以说明,如果没有很好的风险防范手段,系统变更将给我们的日常运维工作带来大量的问题,后果往往是难以想象的。在新系统中,我们可增加变更管理流程。在变更管理流程中,变更方案需提交变更经理,由变更经理组织由专家组成的变更顾问委员会(CAB)对变更进行风险评估,在评估通过后才能够进入变更的实施过程。变更管理是防范变更风险的最好办法。
当然,主动服务是一种理念,在这种理念下,我们可以定义更多的流程,如问题管理流程,对系统中存在的隐患问题进行挖掘,防患于未然。总之,我们应该树立这样一个理念,在各流程的定义中进行运用,主动地提早发现系统存在的风险和隐患,减少突发事件的发生。
四、从平台到业务的全面管理
网络管理是运维系统的组成部分。对系统的监控也是运维的主要业务之一。以往网管系统实现了对平台的监控,可是在实际运维工作中,平台往往只有少数的几个系统管理员负责,大多数业务人员更多地是面对业务系统。对于业务的监控和管理,是业务人员更加关心的问题。因此,在网管系统中,应加入业务监控的内容。
需要注意的是,业务是建立在平台的基础之上的,而不是孤立存在的。因此,监控中,应强调业务监控与平台监控密不可分的联系,从业务的角度出发,建立平台与业务的关联关系。在故障发生时,应能够即时描述对业务的影响程度,能够描述故障的影响范围。
例如:采集源的某台交换机产生异常,除了可以看到交换机告警外,我们还应该能够在业务拓扑图中直观看到,采集系统受到影响,同时采集、预处理、分拣等相关业务也不同程度受到影响。其影响程度,能够通过不同的颜色直观地展示出来。
只有这样才能够更加直观而全面地反映系统的运行状态,反映业务的运行情况。能够帮助运维人员在故障发生时,快速修复关键部件,减少故障带来的损失。
五、建立科学的激励与监督机制
多年来,系统的使用和推广问题成为系统能否得到良好运用的一个重要问题。
假设:我们制定了变更管理流程,但是,变更管理没有被很好地执行,而只是流于形式,则风险的防范也只能是停留在理论上的空谈。
在运维系统建设过程中,建立了一整套科学的考核制度,以激励运维人员更有效地提高服务质量和服务水平,是至关重要的。
对运维人员的考核,并不能就管理论管理,应该从客户服务的角度出发,以客户满意为前提,进行考核。例如,根据每个部门的服务水平,制定了服务时限。假设,某个用户投诉,需要多个部门协同进行处理。在处理过程中,各部门互相推托,虽然工单在各部门的停留时间没有超过部门承诺的时限,而整体处理时间已经超过了运营商对该用户承诺的处理时间。为了杜绝这种现象的出现,我们应该从用户的角度出发,进行各部门处理时间的分段计算。计算结果将反映在每月故障处理情况的统计报告中,而这些报告直接与各部门、各单位的绩效考核挂钩。
通过这样的考核机制,形成对员工日常工作的科学评价,既调动了员工积极性,又提高了工作效率和服务质量。
第四篇:运维管理系统方案
运维管理系统方案
概述
伴随着企事业网络规模的不断扩大,企事业服务器的增多,企事业管理的信息化,企事业网络管理也变的越来越重要。一旦网络、服务器、数据库、各种应用出现问题,常常会给企事业造成很大的损失。怎样能7x24小时检测网络系统的运行情况,避免各种故障的发生,改进传统的网络管理方式来适企事业信息化发展的需要?
因此,运维管理系统就有他的必要性。一个完备的运维管理系统能够提供7x24小时检测网络、服务器、数据库、各种应用系统,及时发现将要出现的问题,并通过短信、Email、声音报告给运维管理人员。运维管理人员就可以及时排除故障,避免造成重大损失。
运维管理系统的功能:
故障发现与警报;
记录日常运维日志信息; 服务器故障统计;
服务器软硬件信息统计; 服务进程管理;
将数据信息存储到数据库,并使用图形方式直观的展示出来; 权限、密码管理; 将数据生成报表。运维管理系统的特点: 邮件和短信实时故障报警;
B/S结构,能够通过web对远程服务器下达指令;
监控服务器和被监控服务器之间通过python socket来发送信息; 统计日常故障处理,以便下次出现同样故障时能够更快的解决问题; 实现自动化管理和自动化监控; 安全管理服务器性能; 操作流程统计与管理。
第五篇:系统运维管理-IT基础设施运维管理规范
IT 基础设施运维管理规范 文件编号:运维-002-V1.0
目录
运维管理规范--------------4 1.目的------------------------4 2.适用范围------------------4 3.规范性引用及参考-----4 4.本文术语,定义和缩略语---------------------------5 5.基本要求------------------6
5.1运维管理原则-----6 5.2制度和流程管理6 5.5供应商管理--------7 5.6督促检查-----------7 6.运行维护------------------8
6.1日常操作及监控分析--------------------------8 6.2 数据与介质管理-8 6.3机房管理-----------9 6.4 网络管理----------9 6.5 弱电管理---------10 6.6桌面维护----------10 6.7服务器及系统变更----------------------------11
6.8 配置管理---------12 6.9 事件与问题管理 12 7.应急管理-----------------12
7.1应急准备----------12 7.2应急处置----------13
运维管理规范
1.目的
为规范公司运维工作,使相关工作具有持续改善及相互协作性,同时加强计算机设备的管理及维护,确保维修工作的及时性,降低计算机设备的报修率,实现业务与技术的融合,将业务部门与IT 部门紧密结合在一起,根据公司管理要求及计算机应用的需要,由运维部制定。
2.适用范围
本规范规定了运维管理工作的要求。
本规范适用于维信理财集团(中国)总部,包括全国各分部及门店。
3.规范性引用及参考
◆ IT 服务管理国际标准ISO/IEC 20000 ◆ 企业获得ISO/IEC 20000认证的权威指南 ◆ 全球著名IT 服务管理书库(ITSM Library)◆ IT 服务质量管理原则
◆ 理解ISO/IEC 20000在IT 服务中的地位 ◆ ISO/IEC 20000规范和实践准则 ◆ IT 服务管理国际标准ISO/IEC 20000 ◆ GB/T 20269—2006 信息安全技术 信息系统安全管理要求
◆ ISO 31000:2009 风险管理 原则和指南(Risk management--Principles and guidelines)
◆ JR-T 0060—2010 金融信息系统安全等级保护基本要求 ◆ JR/T 0074-2012 金融IT 服务管理基本规范 ◆ 中国金融标准化报告(2011)
4.本文术语,定义和缩略语
1、IT: Information Technology 信息技术
2、DNS: Domain Name Service 域名服务
3、DHCP: Dynamic Host Configuration Protocol 动态主机配置协议
4、VPN: Virtual Private Network 虚拟专用网
5、OA: Office Automation 办公自动化系统
6、ISO: International Organization for Standardization 国际标准化组织 编订日期:30.7.2014 批准日期: 生效日期:
7、故障: IT设备或系统丧失规定的功能,导致服务中断或降质,或对正常运行造成潜在威胁。
8、异常: IT设备或系统的状态发生超出预期的变化或性能指标参数超出正常范围,有可能引发或已经引发故障,需要引起运维人员关注或处理。
9、资料: IT设备或系统的运行记录,包括IT 设备或系统的配置、故障历史记录、软硬件扩容或调整记录、权限变更申请记录等。
10、运行维护:本规范中的运行维护包括IT 基础设施维护、IT 应用系统运维维护、安全管理、网络接入、内容信息以及综合管理等。
5.基本要求
5.1运维管理原则
公司按集中与分散相结合的原则,设立机房、各部门配备电脑。计算机系统本着“总体规划、分步建设”的方式实施建立。
计算机系统建设应综合考虑成本、费用、效率、效果、先进性及适用性,选择最优技术、经济方案。
5.2制度和流程管理
运维管理制度应包括但不限于机房管理、网络与系统管理、数据和介质管理、配置管理、安全管理、监控管理、文档管理、设备和软件管理、供应商管理等制度。
运维操作流程应包括但不限于日常操作、事件处理、问题处理、系统变更、应急处置等流程。
5.3 文档管理
对运维过程中涉及的各类文档进行管理,可按照制度文档、技术文档、合同文档、审批记录、日志记录等进行分类,并妥善保存。5.3.2 对文档的版本应当进行控制。
文档在使用时应能读取、使用较新版本,防止作废文件的逾期使用。
5.4设备和软件管理
建立计算机相关设备和软件管理制度,对设备和软件的使用、安装、维修(升级)等进行规范。明确设备和软件管理责任人。对设备进行标识,标识应放在设备明显位置。
规定设备和软件的使用年限,定期进行盘点,并对设备状态进行评估和更新。
对外送设备的维修进行严格管理,防止数据泄露。
对拟下线和拟报废设备的存储介质中的全部信息进行清除或销毁。对正式下线设备和软件交指定部门统一管理、保存或处置,并保留相应记录。设备和软件报废应符合公司现行资产管理规定。
5.5供应商管理
对供应商支持运维服务的相关活动进行统一管理。
在与供应商签订的合同中明确其应承担的责任、义务,并约定服务要求和范围等内容。
应定期收集、更新供应商信息,组织对供应商的服务质量、履约情况、人员工作情况等内容进行评价,并跟踪和记录供应商改进情况。加强运维外包服务管理,主要包括:
a)明确外包公司应当承担的责任及追究方式;
b)明确界定外包人员的工作职责、活动范围、操作权限; c)对外包人员工作情况进行监督和检查,并留存相应记录; d)对驻场外包人员的入场和离场进行管理; e)定期评估外包的服务质量; f)制定外包服务意外终止的应急措施。
5.6督促检查
定期检查审计,对运维制度的执行情况和运维工作开展情况定期进行检查和审计,以督促运维工作持续改进。
指定人员负责对日常操作执行情况进行检查,确保运维管理制度和操作流程的有效执行。对检查和审计结果采取纠正、预防措施。
6.运行维护
6.1日常操作及监控分析
未经许可,任何人不得随便使用电脑及相关设备。不得更换电脑硬件和软件,拒绝使用来历不明的软件和移动设备。
电脑发生故障时,使用者作简易处理仍不能排除的,应立即报告IT,非专业管理人员不得擅自拆开机箱或调换设备配件。
计算机及其相关设备的报废需经过IT 部门或专职人员鉴定,确认不符合使用要求后方可申请报废。
运维应采取各种监控措施,配备视频、语音、系统监控和报警工具,对影响信息系统正常运行的关键对象,包括机房环境、网络、通信线路、主机、存储、数据库、核心交易业务相关的应用系统、安全设备等进行监控。
主要监控指标具体如下:
a)机房:电力状态、空调运行状态、消防设施状态、温湿度、漏水、人员及设备进出等;
b)网络与通信:设备运行状态、中央处理器使用率、通信连接状态、网络流量、核心节点间网络
延时、丢包率等;
c)主机:设备运行状态、中央处理器使用率、内存利用率、磁盘空间利用率、通信端口状态等;
d)存储:设备运行状态、数据交换延时、存储电池状态等;
e)安全设备:设备运行状态、中央处理器使用率、内存利用率、端口状态、数据流量、并发连接数、安全事件记录情况等;
6.2 数据与介质管理
配合数据应用部,对核心业务数据进行周备份,并每季度进行恢复性测试。
对设备和人员出入进行管理。进入机房应限制和监控其活动范围,并有专人陪同;未经批准不得接入生产环境。
6.3机房管理
对机房环境、供电、空调、消防、安防等基础设施的运行维护、设备和人员出入、机房工作人员等进行规范管理。
应指定机房管理负责人。确保机房环境整洁和安全,包括:
a)应定期检查防水、防雷、防火、防潮、防尘、防鼠、防静电等措施的有效性;
b)应保持机房环境卫生,设备摆放合理,归类; c)不得随意出入机房。
d)未经审批不得接入其它用电设备。
6.4 网络管理
确保网络、系统的正常运行。网络管理应包括: a)绘制网络拓扑图,并保持更新;
b)应保持网络设备的可用性,及时维修、更换故障设备; c)应负责网络系统的参数配置、调优; d)应定期对系统容量进行检查和评估;
e)应定期检查网络设备的用户、口令及权限设置的正确性;
f)应定期对整个网络连接进行检查,确保所有交换机端口处于受控状态; g)应对网络信息点进行管理,编制信息点使用表,并及时维护和更新,确保与实际情况一致。计
算机网络跳线应整齐干净,跳线标识清晰;
h)应制定网络访问控制策略,应合理设置网络隔离设施上的访问控制列表,关闭与业务无关的端口;编制文档并保持更新;访问控制策略的变更应履行审批手续。
权限管理应包括如下要求:
a)权限分配应履行审批手续,权限设置后应复核; b)应按照最小安全访问原则分配用户权限; c)应在用户账户变化时,同时变更或撤销其权限; d)应定期检查权限设置的有效性。
6.5 弱电管理
严格按图纸施工,在保证系统功能质量的前提下,提高工艺标准要求,确保施工质量。质量检查制度,现场管理人员将定期进行质量检查并贯穿到整个施工过程中。统运行验收:当设备安装完毕并调试运行无误后,由公司派现场调试人员进行系统联调,并向上级汇报调试结果。运维对弱电设备的综合管理,包括技术资料、档案的收集。同时,每月一次对弱电设备运行状况进行检查,并及时处理汇报问题。
6.6桌面维护
日常数据注意事项:
a.个人文件(Excel、Word、PDF 等)建议员工不要存放在系统盘(通常为C 盘),可以存放在其它盘符。
b.工程师可通过多种方式或途径来告知员工如何进行日常文件的备份,如:口述、邮件、培训等。
c.未经许可,禁止使用U 盘,移动硬盘,手机或其它外设,如:网盘、邮箱等,盗取公司内部文件。
重装系统前注意事项:
a.询问用户有哪些相关数据需要备份,如桌面、我的文档、收藏夹、邮件等。b.用户Email 的备份:如客户端为Outlook 则导出相关OST 或PST 文件;硬件损坏需更换或维修时,运维人员进行测试,明确是否真实异常,不可随意更换。
关于账号、权限、密码
a.必须严格按照公司制定的IT 策略进行管理,不可私自制定规范。b.禁止私自把个人管理员权限借给他人或告知他人。
c.禁止为他人开设规定以外的权限,如:本地管理员、其他部门目录访问权限、上网权限、电话权限等。
d.更改任何类型用户权限时需得到相关审批层级确认才可执行。e.如电脑无特殊应用需求,则一律为“user”普通权限。
f.人员离职时,总部和分部应及时通过OA 确认,删除离职人员的相关账号与信息。
g.妥善保管自己所知的密码。
6.7服务器及系统变更
不得在服务器上使用带有病毒和木马的软件、光盘和可移动存贮设备,使用上述设备前一定要先做好病毒检测;不得利用服务器从事工作以外的事情,无工作需要不得擅自拆卸服务器零部件,严禁更换服务器配套设备。不得擅自删除、移动、更改服务器数据;不得故意破坏服务器系统;不得擅自修改服务器系统时间。
使用空闲主机,对服务器系统补丁进行升级测试,运行平稳后,各服务器升级安装补丁,弥补系统漏洞;为服务器系统做好病毒及木马的实时监测,及时升级病毒库。
管理员对管理员账户与口令严格保密、重要数据库,网站,APP 等服务器由研发配合定期修改密码,以保证系统安全,防止对系统的非法入侵。
任何无关人员不得擅自进入主机房,需要进入的须征得服务器管理人员同意。应注意保护机房内的设备和物品,未经允许的非管理人员不得擅自操作机房内设备。
严禁携带易燃易爆和强磁物品及其它与机房工作无关的物品进入机房,机房内严禁吸咽。除管理员外,任何人不得随意改动服务器内系统及环境配置。
除系统管理员或授权参加系统管理的人员外,任何用户不得以任何方式获取(或企图获取)超级用户权限。
6.8 配置管理
明确配置管理负责人。
建立配置文档库,对服务器、存储、网络、安全设备,操作系统、应用软件、数据库等进行管理。
定期对配置进行备份及文档库归类。
及时检查并定期审计,对发现的不一致情况及时纠正修改。
6.9 事件与问题管理
对运维事件的处理进行规范,对发生的所有事件,根据事件的影响程度和影响范围评估事件处理优先级并及时处理。
对所有事件响应、处理、结束等过程进行跟踪、监督及检查。对问题进行分析、提出解决方案,通过变更管理审批后部署实施。
7.应急管理
7.1应急准备
明确网络、系统等事件的应急指挥决策机制,负责网络与系统事件的预防预警、应急处置、报告和调查处理工作。
网络与系统应急管理应遵循“谁主管谁负责、谁运行谁负责”、“统一指挥、密
切协同;注重预防、减少风险;科学处置、及时报告;以人为本、公平优先”的原则。
应急准备应符合如下要求:
a)系统管理员、网络管理员、安全管理员等关键岗位应熟练掌握应急预案,能有效处置相关事件;
b)在自身力量不足以满足应急要求的情况下,应与相关供应商签署服务保障协议。协议内容应包
括双方联系人、联系方式、服务内容及范围、应急处理方式等。应定期检查和评估协议的执行情况,确保服务保障措施落实到位,确保在应急处置中相关单位能提供及时有效的技术支持;
c)应建立有效的应急通讯联络系统,确保信息畅通;
7.2应急处置
在发生网络与系统事件后,迅速采取应急措施,尽快恢复信息系统正常运行,如有重要情况应及时上报。
暂时无法确定事件原因、责任和结论的,应先给出事件的初步分析判断,并组织力量尽快查找原因,给出解决方法,采取整改措施。