第一篇:电子运维管理系统
电子运维管理系统(MetarOSS EOMS)
引言
经过多年建设,国内各运营商向公众提供越来越多的通信业务,用户数和业务量都逐年大幅增长。但随着国内电信运营市场的不断开放,市场竞争日趋激烈,如何在运营商内部建立起一套有效的运维交互平台,理顺不同部门以及上下级之间的协作关系,规范工作流程,提高工作效率,实现故障处理、资源调度优化、系统割接、业务保障等运维工作的闭环流程监控和管理,是目前各运营商都比较关心的问题。
一、综述
北京市天元网络技术股份有限公司自主研发的电子运维管理系统(MetarOSS EOMS)定位于通过电子化手段来确保运维工作的流程化、工单化、自动化和信息化,实现对流程的实时监控与闭环管理,并能够与其它相关支撑系统进行交互与融合,体现本系统在整个运维支撑体系中的枢纽价值。本系统还能够为用户的日常维护操作提供平台并且自动记录用户的操作信息,为运维经验的积累以及员工考核提供支持。
图 1 电子运维管理系统应用示意
二、系统架构 功能结构
电子运维管理系统采用分层结构设计,系统从上到下分为业务应用层、核心服务层、数据存储层三层,其中数据存储层、核心服务层都向业务应用层提供公共服务,应用层模块可以根据具体用户的需求进行功能扩展和客户化开发。
图 2 系统软件结构 物理结构
下图是系统的物理结构,可以根据实际需求考虑将各种应用部署到一台或多台服务器设备中。
图 3 系统物理结构 与其他系统的接口
MetarOSS EOMS不是一个孤立的系统,它与其它各相关系统通过接口进行互连,MetarOSS EOMS本身支持标准的CORBA、XML等接口协议与其他系统实现互联,也可支持采用私有接口协议与其他系统互联。
三、系统功能
MetarOSS EOMS系统功能应用基于WEB实现,提供丰富的业务功能和强大的管理功能,为全面提升运营维护服务质量水平提供有力支撑。 信息门户
电子运维管理系统提供了一套信息门户平台,可以呈现各类发布信息。同时提供个人工作室功能,不同用户可根据日常使用各项功能的频次自行定义工作桌面,为操作者迅速进入各项功能模块提供快捷手段。
-个人桌面管理已处理事宜工作计划及总结任务管理局数据核查流程通道调度流程生产任务流程年度计划的建立、查询和审核基于模板的作业计划制定作业计划执行情况考核代维合同管理
-代维公司、代维队、代维人员管理代维记录代维问题跟踪资料管理:运用电子化手段对包括备品备件、各专业日常操作维护资料、运维人员资料、相关部门资料等信息进行添加、修改、删除、分类、归档、查看等操作。
图 13 备品备件管理
安全管理
-多用户、分级别、分权限设置用户操作日志
-用户数量、登录位置、密码等安全限制 系统自身管理
-硬件系统监控数据库系统监控
四、运行环境
MetarOSS EOMS 所需的最低运行环境要求需要根据系统设计访问的用户数以及系统并发访问率进行灵活配置,本处给出满足系统运行最低配置需要。
硬件配置
采用UNIX服务器工作站或者Windows Server工作站 机器自带或另外配置100M以太网网卡 终端配置
Windows PC(当前主流配置) 软件配置
Tomcat WEB服务器
系统数据库(Sybase/Informix/Oracle或者其他数据库) MetarPlat DPP运行版 V2.0
五、系统特点
系统采用“平台+应用”的方式进行实施,即系统采用通用型的电子运维平台,提供各种通用功能,系统上层应用功能可以根据用户的需求进行灵活定制,实现对传输网、交换网、移动网、数据网的综合运维管理; 采用符合WFMC的工作流引擎,支持工单流程的自定义,方便配置成适合特定用户需求的流程管理平台; 提供电子化工作流程和工作人员的考核依据,实现运维工作管理的科学化、规范化和自动化; 界面美观、操作方便,支持与短信平台、Email、PDA等系统的对接;
安全性好,通过防火墙等硬件设备和系统监控、权限分配、SSL协议等软件配置实现系统的整体安全; 扩展性好,预留与其它应用系统的接口,为与未来系统的互连创造了条件。
六、成功案例
中国联通总部级综合电子运维管理系统
中国联通省级综合电子运维管理系统(8个项目)-江苏、山东、重庆、安徽、云南、山西、江西、青海 公安部通信网运维流程管理系统 国电通信中心T-MIS管理系统 青海电力通信网流程管理系统 辽宁电力通信网流程管理系统
第二篇:运维管理系统建设
ITIL提升中国电信运维管理系统建设
ZDNet CIO频道 更新时间:2008-01-25 作者: 来源:CSDN 本文关键词: 中国电信 ITIL 运维管理
运维管理是电信运营商主要的生产和管理活动之一。运维管理系统建设和运营的好坏直接影响到电信运营的整体成本、管理水平和服务水平。因此,近两年来,各大电信运营商纷纷对现有的运维系统进行改造。
中国在电信领域的增长速度超过了其GDP增长的速度。正是电信快速的增长,推动了运维系统的发展。如何更有效地利用现有的资源,提高运营维护的工作效率,提高整体服务质量是目前各大运营商面临的普遍问题。毫无疑问,中国电信在运营维护方面,也面临相同的问题。建设新一代中国电信运维管理系统,成为解决目前运维管理问题的唯一方案。
根据我们长期在电信领域的实践,下面的几点经验,值得我们在中国电信运维系统的建设中更加关注。
一、采用ITIL作为运维系统的方法论
IT基础架构库(ITIL-ITInfrastructureLibrary),被誉为IT服务管理的圣经,其中包含了总结国际大公司在IT服务管理中的经验并得到证明的IT服务计划和运营的最佳实践框架。
ITIL已经为《财富》500强的一些企业所采用,并取得了预期的效果。加特纳(Gartner)和国际数据集团(IDC)等世界权威研究机构的调查研究表明,企业通过在IT部门实施最佳服务管理实践,将因重复呼叫、不当的变更等引起的延误时间减少了79%,每年每个终端用户平均节约800美元的成本,同时每项新服务推出的时间也缩短一半。
要成为国际一流的企业,就要吸取国际一流企业的成功管理经验,借鉴其管理手段。因此,中国电信在运维管理系统的建设,也应确立ITIL在系统建设过程中的方法论地位,吸取ITIL中的成功经验。
作为众多国际大型企业成功实践的积累,ITIL使我们找到了解决运维流程规范的方式和方法。可是,如何更好地运用ITIL这一经典的方法论呢?我们认为应该注意两点:
1)ITIL是从实践中得来的精髓,不是僵化的教条,应该结合实际情况去运用ITIL,建立更加适合中国电信的流程规范,而不是照抄照搬。
2)由于ITIL理论博大精深,不可能在短期内在企业中全面实施。应该根据实际情况,选取实施重点,逐步实施,逐步完善。
在中国电信运维系统建设中,应该深入理解ITIL的核心理念,结合电信运维的现状,解决核心和关键问题,逐步实现对运维的科学管理。
二、ITIL理论与实际情况相结合,注重工作流程细节的设计和优化,是系统建设的关键
理顺工作流程、提高服务效率是新运维系统建设的主要内容之一。
在工作流程的制定过程中,容易陷入以下两个极端。
1.盲目照搬流程。作为方法论的ITIL,本身含有大量的成功实践框架。但是,正如前面所说的,ITIL是从实践中得来的精髓,不是僵化的教条,盲目照搬,只能使得工作流程不切合实际,并流于形式,对系统的贯彻和执行产生不好的影响。
2.完全遵照现有流程,实现其电子化。虽然这样更符合目前的工作习惯,可能容易为运维人员所接受,但是,仍然解决不了目前运维所存在的一些问题。例如,我们在项目实施中曾遇到“工单在部门之间的重派”的问题。在当前手工作业的工作模式中,各单位将不属于本单位处理范围的工单,或部门需要其他部门配合的工单,均提交给故障处理的负责人,由该负责人向其他单位进行转派和重派。这种处理方式,主要便于手工作业条件下负责人及时了解项目处理状况。在建立运维系统后,负责人可以通过运维系统随时了解到故障的处理状况,每次重派和转派之前,对负责人的回复变成了一种无效的工作,大大降低了事件的处理效率。如果仅仅将目前的手工作业电子化,那么故障处理的效率仍然没有得到有效的提高。
因此,将ITIL理论与实际情况相结合,注重工作流程细节的设计和优化,是系统建设的关键。
三、树立主动服务观念
在现行的运维工作中,我们经常遇到这样的情况:一方面是运维部门疲于应付各种突发事件,加班加点处理各种重复事件,工作繁重,身心疲惫;一方面是客户代表不断抱怨和投诉“技术人员服务水平太低”。二者不可调和的矛盾,是新运维系统要解决的重要问题。
传统的运维方式给人的印象是:故障发生前,维护人员似乎无所事事;故障发生后,则是手忙脚乱。这就是被动服务给人们留下的印象,运维人员是在被动地等待故障的发生。在新的运维系统中,我们必须改变原有的运维方式,变被动服务为主动服务。
在主动服务模式下,运维人员主动地监控系统的变化,对日常工作及故障处理完成后主动进行问题分析,对系统的变更风险进行评估。在新系统中,可以通过种种技术措施,使得运维工作从被动服务转移到主动服务,如:增加变更管理流程以防范变更风险。
在日常运维工作中,变更工作是在所难免的。例如,新的系统安全漏洞被公布,为了保证系统安全,就需要安全系统补丁,而这种变更给系统带来的风险则是难以估计的。例如在安装补丁后,有时会产生大量莫名其妙的问题。这么一个简单的例子已经可以说明,如果没有很好的风险防范手段,系统变更将给我们的日常运维工作带来大量的问题,后果往往是难以想象的。在新系统中,我们可增加变更管理流程。在变更管理流程中,变更方案需提交变更经理,由变更经理组织由专家组成的变更顾问委员会(CAB)对变更进行风险评估,在评估通过后才能够进入变更的实施过程。变更管理是防范变更风险的最好办法。
当然,主动服务是一种理念,在这种理念下,我们可以定义更多的流程,如问题管理流程,对系统中存在的隐患问题进行挖掘,防患于未然。总之,我们应该树立这样一个理念,在各流程的定义中进行运用,主动地提早发现系统存在的风险和隐患,减少突发事件的发生。
四、从平台到业务的全面管理
网络管理是运维系统的组成部分。对系统的监控也是运维的主要业务之一。以往网管系统实现了对平台的监控,可是在实际运维工作中,平台往往只有少数的几个系统管理员负责,大多数业务人员更多地是面对业务系统。对于业务的监控和管理,是业务人员更加关心的问题。因此,在网管系统中,应加入业务监控的内容。
需要注意的是,业务是建立在平台的基础之上的,而不是孤立存在的。因此,监控中,应强调业务监控与平台监控密不可分的联系,从业务的角度出发,建立平台与业务的关联关系。在故障发生时,应能够即时描述对业务的影响程度,能够描述故障的影响范围。
例如:采集源的某台交换机产生异常,除了可以看到交换机告警外,我们还应该能够在业务拓扑图中直观看到,采集系统受到影响,同时采集、预处理、分拣等相关业务也不同程度受到影响。其影响程度,能够通过不同的颜色直观地展示出来。
只有这样才能够更加直观而全面地反映系统的运行状态,反映业务的运行情况。能够帮助运维人员在故障发生时,快速修复关键部件,减少故障带来的损失。
五、建立科学的激励与监督机制
多年来,系统的使用和推广问题成为系统能否得到良好运用的一个重要问题。
假设:我们制定了变更管理流程,但是,变更管理没有被很好地执行,而只是流于形式,则风险的防范也只能是停留在理论上的空谈。
在运维系统建设过程中,建立了一整套科学的考核制度,以激励运维人员更有效地提高服务质量和服务水平,是至关重要的。
对运维人员的考核,并不能就管理论管理,应该从客户服务的角度出发,以客户满意为前提,进行考核。例如,根据每个部门的服务水平,制定了服务时限。假设,某个用户投诉,需要多个部门协同进行处理。在处理过程中,各部门互相推托,虽然工单在各部门的停留时间没有超过部门承诺的时限,而整体处理时间已经超过了运营商对该用户承诺的处理时间。为了杜绝这种现象的出现,我们应该从用户的角度出发,进行各部门处理时间的分段计算。计算结果将反映在每月故障处理情况的统计报告中,而这些报告直接与各部门、各单位的绩效考核挂钩。
通过这样的考核机制,形成对员工日常工作的科学评价,既调动了员工积极性,又提高了工作效率和服务质量。
第三篇:运维管理系统方案
运维管理系统方案
概述
伴随着企事业网络规模的不断扩大,企事业服务器的增多,企事业管理的信息化,企事业网络管理也变的越来越重要。一旦网络、服务器、数据库、各种应用出现问题,常常会给企事业造成很大的损失。怎样能7x24小时检测网络系统的运行情况,避免各种故障的发生,改进传统的网络管理方式来适企事业信息化发展的需要?
因此,运维管理系统就有他的必要性。一个完备的运维管理系统能够提供7x24小时检测网络、服务器、数据库、各种应用系统,及时发现将要出现的问题,并通过短信、Email、声音报告给运维管理人员。运维管理人员就可以及时排除故障,避免造成重大损失。
运维管理系统的功能:
故障发现与警报;
记录日常运维日志信息; 服务器故障统计;
服务器软硬件信息统计; 服务进程管理;
将数据信息存储到数据库,并使用图形方式直观的展示出来; 权限、密码管理; 将数据生成报表。运维管理系统的特点: 邮件和短信实时故障报警;
B/S结构,能够通过web对远程服务器下达指令;
监控服务器和被监控服务器之间通过python socket来发送信息; 统计日常故障处理,以便下次出现同样故障时能够更快的解决问题; 实现自动化管理和自动化监控; 安全管理服务器性能; 操作流程统计与管理。
第四篇:系统运维管理-IT基础设施运维管理规范
IT 基础设施运维管理规范 文件编号:运维-002-V1.0
目录
运维管理规范--------------4 1.目的------------------------4 2.适用范围------------------4 3.规范性引用及参考-----4 4.本文术语,定义和缩略语---------------------------5 5.基本要求------------------6
5.1运维管理原则-----6 5.2制度和流程管理6 5.5供应商管理--------7 5.6督促检查-----------7 6.运行维护------------------8
6.1日常操作及监控分析--------------------------8 6.2 数据与介质管理-8 6.3机房管理-----------9 6.4 网络管理----------9 6.5 弱电管理---------10 6.6桌面维护----------10 6.7服务器及系统变更----------------------------11
6.8 配置管理---------12 6.9 事件与问题管理 12 7.应急管理-----------------12
7.1应急准备----------12 7.2应急处置----------13
运维管理规范
1.目的
为规范公司运维工作,使相关工作具有持续改善及相互协作性,同时加强计算机设备的管理及维护,确保维修工作的及时性,降低计算机设备的报修率,实现业务与技术的融合,将业务部门与IT 部门紧密结合在一起,根据公司管理要求及计算机应用的需要,由运维部制定。
2.适用范围
本规范规定了运维管理工作的要求。
本规范适用于维信理财集团(中国)总部,包括全国各分部及门店。
3.规范性引用及参考
◆ IT 服务管理国际标准ISO/IEC 20000 ◆ 企业获得ISO/IEC 20000认证的权威指南 ◆ 全球著名IT 服务管理书库(ITSM Library)◆ IT 服务质量管理原则
◆ 理解ISO/IEC 20000在IT 服务中的地位 ◆ ISO/IEC 20000规范和实践准则 ◆ IT 服务管理国际标准ISO/IEC 20000 ◆ GB/T 20269—2006 信息安全技术 信息系统安全管理要求
◆ ISO 31000:2009 风险管理 原则和指南(Risk management--Principles and guidelines)
◆ JR-T 0060—2010 金融信息系统安全等级保护基本要求 ◆ JR/T 0074-2012 金融IT 服务管理基本规范 ◆ 中国金融标准化报告(2011)
4.本文术语,定义和缩略语
1、IT: Information Technology 信息技术
2、DNS: Domain Name Service 域名服务
3、DHCP: Dynamic Host Configuration Protocol 动态主机配置协议
4、VPN: Virtual Private Network 虚拟专用网
5、OA: Office Automation 办公自动化系统
6、ISO: International Organization for Standardization 国际标准化组织 编订日期:30.7.2014 批准日期: 生效日期:
7、故障: IT设备或系统丧失规定的功能,导致服务中断或降质,或对正常运行造成潜在威胁。
8、异常: IT设备或系统的状态发生超出预期的变化或性能指标参数超出正常范围,有可能引发或已经引发故障,需要引起运维人员关注或处理。
9、资料: IT设备或系统的运行记录,包括IT 设备或系统的配置、故障历史记录、软硬件扩容或调整记录、权限变更申请记录等。
10、运行维护:本规范中的运行维护包括IT 基础设施维护、IT 应用系统运维维护、安全管理、网络接入、内容信息以及综合管理等。
5.基本要求
5.1运维管理原则
公司按集中与分散相结合的原则,设立机房、各部门配备电脑。计算机系统本着“总体规划、分步建设”的方式实施建立。
计算机系统建设应综合考虑成本、费用、效率、效果、先进性及适用性,选择最优技术、经济方案。
5.2制度和流程管理
运维管理制度应包括但不限于机房管理、网络与系统管理、数据和介质管理、配置管理、安全管理、监控管理、文档管理、设备和软件管理、供应商管理等制度。
运维操作流程应包括但不限于日常操作、事件处理、问题处理、系统变更、应急处置等流程。
5.3 文档管理
对运维过程中涉及的各类文档进行管理,可按照制度文档、技术文档、合同文档、审批记录、日志记录等进行分类,并妥善保存。5.3.2 对文档的版本应当进行控制。
文档在使用时应能读取、使用较新版本,防止作废文件的逾期使用。
5.4设备和软件管理
建立计算机相关设备和软件管理制度,对设备和软件的使用、安装、维修(升级)等进行规范。明确设备和软件管理责任人。对设备进行标识,标识应放在设备明显位置。
规定设备和软件的使用年限,定期进行盘点,并对设备状态进行评估和更新。
对外送设备的维修进行严格管理,防止数据泄露。
对拟下线和拟报废设备的存储介质中的全部信息进行清除或销毁。对正式下线设备和软件交指定部门统一管理、保存或处置,并保留相应记录。设备和软件报废应符合公司现行资产管理规定。
5.5供应商管理
对供应商支持运维服务的相关活动进行统一管理。
在与供应商签订的合同中明确其应承担的责任、义务,并约定服务要求和范围等内容。
应定期收集、更新供应商信息,组织对供应商的服务质量、履约情况、人员工作情况等内容进行评价,并跟踪和记录供应商改进情况。加强运维外包服务管理,主要包括:
a)明确外包公司应当承担的责任及追究方式;
b)明确界定外包人员的工作职责、活动范围、操作权限; c)对外包人员工作情况进行监督和检查,并留存相应记录; d)对驻场外包人员的入场和离场进行管理; e)定期评估外包的服务质量; f)制定外包服务意外终止的应急措施。
5.6督促检查
定期检查审计,对运维制度的执行情况和运维工作开展情况定期进行检查和审计,以督促运维工作持续改进。
指定人员负责对日常操作执行情况进行检查,确保运维管理制度和操作流程的有效执行。对检查和审计结果采取纠正、预防措施。
6.运行维护
6.1日常操作及监控分析
未经许可,任何人不得随便使用电脑及相关设备。不得更换电脑硬件和软件,拒绝使用来历不明的软件和移动设备。
电脑发生故障时,使用者作简易处理仍不能排除的,应立即报告IT,非专业管理人员不得擅自拆开机箱或调换设备配件。
计算机及其相关设备的报废需经过IT 部门或专职人员鉴定,确认不符合使用要求后方可申请报废。
运维应采取各种监控措施,配备视频、语音、系统监控和报警工具,对影响信息系统正常运行的关键对象,包括机房环境、网络、通信线路、主机、存储、数据库、核心交易业务相关的应用系统、安全设备等进行监控。
主要监控指标具体如下:
a)机房:电力状态、空调运行状态、消防设施状态、温湿度、漏水、人员及设备进出等;
b)网络与通信:设备运行状态、中央处理器使用率、通信连接状态、网络流量、核心节点间网络
延时、丢包率等;
c)主机:设备运行状态、中央处理器使用率、内存利用率、磁盘空间利用率、通信端口状态等;
d)存储:设备运行状态、数据交换延时、存储电池状态等;
e)安全设备:设备运行状态、中央处理器使用率、内存利用率、端口状态、数据流量、并发连接数、安全事件记录情况等;
6.2 数据与介质管理
配合数据应用部,对核心业务数据进行周备份,并每季度进行恢复性测试。
对设备和人员出入进行管理。进入机房应限制和监控其活动范围,并有专人陪同;未经批准不得接入生产环境。
6.3机房管理
对机房环境、供电、空调、消防、安防等基础设施的运行维护、设备和人员出入、机房工作人员等进行规范管理。
应指定机房管理负责人。确保机房环境整洁和安全,包括:
a)应定期检查防水、防雷、防火、防潮、防尘、防鼠、防静电等措施的有效性;
b)应保持机房环境卫生,设备摆放合理,归类; c)不得随意出入机房。
d)未经审批不得接入其它用电设备。
6.4 网络管理
确保网络、系统的正常运行。网络管理应包括: a)绘制网络拓扑图,并保持更新;
b)应保持网络设备的可用性,及时维修、更换故障设备; c)应负责网络系统的参数配置、调优; d)应定期对系统容量进行检查和评估;
e)应定期检查网络设备的用户、口令及权限设置的正确性;
f)应定期对整个网络连接进行检查,确保所有交换机端口处于受控状态; g)应对网络信息点进行管理,编制信息点使用表,并及时维护和更新,确保与实际情况一致。计
算机网络跳线应整齐干净,跳线标识清晰;
h)应制定网络访问控制策略,应合理设置网络隔离设施上的访问控制列表,关闭与业务无关的端口;编制文档并保持更新;访问控制策略的变更应履行审批手续。
权限管理应包括如下要求:
a)权限分配应履行审批手续,权限设置后应复核; b)应按照最小安全访问原则分配用户权限; c)应在用户账户变化时,同时变更或撤销其权限; d)应定期检查权限设置的有效性。
6.5 弱电管理
严格按图纸施工,在保证系统功能质量的前提下,提高工艺标准要求,确保施工质量。质量检查制度,现场管理人员将定期进行质量检查并贯穿到整个施工过程中。统运行验收:当设备安装完毕并调试运行无误后,由公司派现场调试人员进行系统联调,并向上级汇报调试结果。运维对弱电设备的综合管理,包括技术资料、档案的收集。同时,每月一次对弱电设备运行状况进行检查,并及时处理汇报问题。
6.6桌面维护
日常数据注意事项:
a.个人文件(Excel、Word、PDF 等)建议员工不要存放在系统盘(通常为C 盘),可以存放在其它盘符。
b.工程师可通过多种方式或途径来告知员工如何进行日常文件的备份,如:口述、邮件、培训等。
c.未经许可,禁止使用U 盘,移动硬盘,手机或其它外设,如:网盘、邮箱等,盗取公司内部文件。
重装系统前注意事项:
a.询问用户有哪些相关数据需要备份,如桌面、我的文档、收藏夹、邮件等。b.用户Email 的备份:如客户端为Outlook 则导出相关OST 或PST 文件;硬件损坏需更换或维修时,运维人员进行测试,明确是否真实异常,不可随意更换。
关于账号、权限、密码
a.必须严格按照公司制定的IT 策略进行管理,不可私自制定规范。b.禁止私自把个人管理员权限借给他人或告知他人。
c.禁止为他人开设规定以外的权限,如:本地管理员、其他部门目录访问权限、上网权限、电话权限等。
d.更改任何类型用户权限时需得到相关审批层级确认才可执行。e.如电脑无特殊应用需求,则一律为“user”普通权限。
f.人员离职时,总部和分部应及时通过OA 确认,删除离职人员的相关账号与信息。
g.妥善保管自己所知的密码。
6.7服务器及系统变更
不得在服务器上使用带有病毒和木马的软件、光盘和可移动存贮设备,使用上述设备前一定要先做好病毒检测;不得利用服务器从事工作以外的事情,无工作需要不得擅自拆卸服务器零部件,严禁更换服务器配套设备。不得擅自删除、移动、更改服务器数据;不得故意破坏服务器系统;不得擅自修改服务器系统时间。
使用空闲主机,对服务器系统补丁进行升级测试,运行平稳后,各服务器升级安装补丁,弥补系统漏洞;为服务器系统做好病毒及木马的实时监测,及时升级病毒库。
管理员对管理员账户与口令严格保密、重要数据库,网站,APP 等服务器由研发配合定期修改密码,以保证系统安全,防止对系统的非法入侵。
任何无关人员不得擅自进入主机房,需要进入的须征得服务器管理人员同意。应注意保护机房内的设备和物品,未经允许的非管理人员不得擅自操作机房内设备。
严禁携带易燃易爆和强磁物品及其它与机房工作无关的物品进入机房,机房内严禁吸咽。除管理员外,任何人不得随意改动服务器内系统及环境配置。
除系统管理员或授权参加系统管理的人员外,任何用户不得以任何方式获取(或企图获取)超级用户权限。
6.8 配置管理
明确配置管理负责人。
建立配置文档库,对服务器、存储、网络、安全设备,操作系统、应用软件、数据库等进行管理。
定期对配置进行备份及文档库归类。
及时检查并定期审计,对发现的不一致情况及时纠正修改。
6.9 事件与问题管理
对运维事件的处理进行规范,对发生的所有事件,根据事件的影响程度和影响范围评估事件处理优先级并及时处理。
对所有事件响应、处理、结束等过程进行跟踪、监督及检查。对问题进行分析、提出解决方案,通过变更管理审批后部署实施。
7.应急管理
7.1应急准备
明确网络、系统等事件的应急指挥决策机制,负责网络与系统事件的预防预警、应急处置、报告和调查处理工作。
网络与系统应急管理应遵循“谁主管谁负责、谁运行谁负责”、“统一指挥、密
切协同;注重预防、减少风险;科学处置、及时报告;以人为本、公平优先”的原则。
应急准备应符合如下要求:
a)系统管理员、网络管理员、安全管理员等关键岗位应熟练掌握应急预案,能有效处置相关事件;
b)在自身力量不足以满足应急要求的情况下,应与相关供应商签署服务保障协议。协议内容应包
括双方联系人、联系方式、服务内容及范围、应急处理方式等。应定期检查和评估协议的执行情况,确保服务保障措施落实到位,确保在应急处置中相关单位能提供及时有效的技术支持;
c)应建立有效的应急通讯联络系统,确保信息畅通;
7.2应急处置
在发生网络与系统事件后,迅速采取应急措施,尽快恢复信息系统正常运行,如有重要情况应及时上报。
暂时无法确定事件原因、责任和结论的,应先给出事件的初步分析判断,并组织力量尽快查找原因,给出解决方法,采取整改措施。
第五篇:IT运维管理系统规划
IT运维管理系统规划
MIS网络信息运维管理系统规划(征求意见稿)作者:张鹏 二〇一〇年一月 前言
托电信息化发展历经八年,从只有一个OA办公系统、数十台终端到如今拥有包括小型机在内的服务器五十余台、交换机等网络设备百余台、终端上千台。信息化工作的重点已经从信息系统建设向运维管理和系统应用的深度整合等转移。
目前,信息中心每天的工作量,多数都属于运维管理的范畴。信息中心从机组四期工程结束后就着手开始运维管理方面的建设工作,几年间相继上了蓝带思科桌面管理系统、东华的IT运维系统、青鸟桌面管理系统。这些系统的应用情况都不尽如人意,原因是多方面的,个人认为主要有以下几点:
1.运维管理的理念形成需要逐步成熟的过程。2.受到与运维相关的信息技术发展制约。3.现有运维相关的产品有各自的侧重或局限性。
信息中心正在实施的两个项目NETIQ和机房环境监测系统为我们提供了一个契机,我们可以建设一个真正适合自己的网络运维管理系统,这个时机已经基本成熟。
一、运维管理系统建设的可行性
信息中心运维工作主要来自网络设备、系统应用、机房设备、终端。NETIQ服务器监控系统可以对服务器、数据库进行集中监控管理。机房环境监测系统可以对机房温湿度、空调、UPS等指标进行集中监控管理。终端管理方面,可以考虑购置更好的产品加上二次开发或者在现有桌面管理系统的基础上进行二次开发。相对于以上,网络设备的管理使用SNMP基本可以满足运维需求,NETIQ可以实现,也可以在运维管理中心开发相应的管理模块。这些系统的建设,本身就是具有针对性的综合管理系统,而且可以为运维管理中心系统提供运维信息的采集平台,是运维管理系统建设的基础。
二、运维管理系统的构想
运维管理系统由外围管理系统群和运维管理中心两部分组成。外围管理系统群包括网络设备管理模块、NETIQ系统、机房环境监测系统、终端管理系统,外围系统群为运维管理中心提供运维信息采集平台。运维信息采集包括网络设备运维信息采集、服务器组运维信息采集、机房环境运维信息采集、终端运维信息采集。
运维管理中心主要包括以下几个部分:运维任务的生成、运维任务的处理、完成确认、知识库、运维统计分析、运维报告、绩效评价、违规处理、维护商管理、应急预案管理、系统权限等。㈠生成运维任务
运维任务的生成有两个途径,一个是从信息采集获得,另外可以手动生成。运维任务分为运行管理任务和维护管理任务两类,运行任务管理是指系统、设备在正常运行状态下的监控管理或操作,主要包括定期巡检任务、正常的配置操作、补丁管理、用户管理、升级操作等,巡检任务由系统按规定自动生成,包括信息中心人员的日常巡检和维护商的定期巡检。维护管理任务是指当设备、系统出现异常或故障时的处理过程。运维任务的生成包括的信息有:设备或系统名称、IP地址、报警信息、时间、运维编码等等,由终端直接发起的运维信息应该包含联系人的电话等,以便于运维人员接手任务后与发起人主动取得联系。生成的运维任务包括网络设备、应用系统、机房操作、终端运维等几种任务。运行管理和维护管理并没有严格的界限,往往是你中有我我中有你。㈡运维任务的处理
运维任务生成后,由管理人员按照各自的职责分工,领取相应的运维任务进行处理,运维任务处理过程及信息分类:
运维类别 网络设备包括:交换机、路由器、防火墙、VPN设备、行为管理设备、其他 应用系统包括:操作系统、应用服务、数据库、接口、其他
机房运维包括服务器、网络设备、空调系统、供电系统、消防系统、环境监控系统 终端运维包括:终端、外设 运维内容
网络设备包括配置操作:增加、更改、删除,其他操作:版本升级、设备更换、其他 应用系统包括:配置变更、软件安装、升级、用户管理、数据管理、日志管理、补丁管理、策略管理、其他
机房运维包括具体的设备信息
终端运维包括:电脑硬件、操作系统、应用程序、打印机、其他 处理过程
处理结果
原因分析 影响情况 对用户的影响情况(时间范围)
运维任务在处理过程中包含以下几个状态,分别是: 等待处理: 等待运维人员接手 执行状态:运维人员正在处理任务
挂起状态:运维过程中出现其他急需办理的事物或其他原因暂停执行 提交状态:任务处理完毕,等待完成确认 完成状态:一个任务完全结束后的状态
驳回状态:任务处理过程中信息有待补充等原因被驳回。
当任务处理人员发现需要维护商来处理的时候,将任务转给维护商,由维护商接手任务,相关人员配合共同完成运维任务并填写相应的记录,最后由运维人员给予维护商相应的评价。㈢运维任务的完成确认
对已经完成并提交的运维任务进行确认、评价,对于运维内容是否放入知识库给予确认,对于运维过程中存在的违规情况根据相关规定给予处罚确定等。㈣知识库
知识库的信息积累来自于运维管理系统和平时的手工录入,应做好信息的分类、查询功能。当运维任务生成后,系统会把相关的信息在知识库中进行检索,并把结果显示在任务中,供运维人员参考。㈤运维统计分析
当某些问题经常出现的时候,信息中心必须运用统计分析对设备、系统产生的问题或故障协同相关维护商,进行深入分析,找出原因,解决问题。另外运用统计分析可以为今后的运维工作提供指导方向,制定下一步运维计划。㈥运维报告
通过运维管理中心,对运维数据有选择的筛选、汇总,定期生成信息系统运维报告,以便于工作总结、分析、计划。运维报告应具有针对性,例如呈送公司领导的、呈送各部门的以及信息中心的整体报告。㈦绩效评价
运维系统内的各方包括终端用户、维护商、运维人员都是可以评价的对象。终端用户可以给打印机维护商评价;也可以给信息中心运维人员给予评价;维护商可以给维护人员评价;运维人员可以给维护商的工作给予评价;运维人员可以对终端用户使用计算机的情况给予评价。㈧违规处理 对于运维过程中发现违反信息系统相关制度的行为应予以必要的处理。需要做两方面工作:涉及这个内容的制度条款应该拿到系统中来,处理的方式方法有待确定;对于违规行为,在运维处理过程中应该做相应的证据记录。㈨维护商的管理
对维护商的信息集中管理,运维工作予以记录、评价,运维合同的到期提醒等,如何对维护商产生实际的约束力,发挥其在运维工作中应有的作用,是我们需要考虑的问题。
(十)应急预案管理
当设备或系统的故障达到规定程度时,启动应急预案,并对整个处理过程实现系统化管理,以及预案的演练等其他工作进行记录。
三、终端管理系统
目前通行的终端管理系统所包含的功能主要有:硬件信息的提取(CPU、内存、硬盘等)、操作系统基本信息(操作系统版本、安装的应用程序等)、软件分发、补丁管理、外设管理、远程管理、主机防护等。有的产品还具有接入认证、内外网隔离、硬盘加密、网络行为管理等功能。360安全套件在终端健康状况、插件管理、实时防护、木马查杀、垃圾清理等方面做的比较好。瑞星网络版则是着重防病毒。将这些软件的功能加以综合利用,建设终端管理系统平台(组),为运维管理中心提供数据。
厂区终端使用最多的是OFFICE办公软件和浏览器,出现问题最多的是浏览器,所以应当把对浏览器的运维作为终端运维的重点之一。此外终端管理系统收集的终端硬件信息可以与信息中心现有的资产管理系统建立联系,可以实现较为准确的资产定位,协同各部门信息员及时掌握资产的变动情况。
客户端的二次开发要求:客户端既属于终端管理系统,又可以和运维管理中心通信,同时可以对于我们所需的现有产品没有涉及到的进程或指标进行检测。
1、实时交互性
当运维人员需要远程维护时与终端用户进行询问、控制申请等信息交互,当运维任务结束后,终端用户可以给维护人员以相应的评价。运维管理中心收集到的终端健康情况也可以发送到目的终端,给使用者以相关的提醒。
2、人性化
终端使用人提交运维申请后,可以看到运维管理中心当前的运维状况,谁接手了自己提交的申请,自己排在第几位等信息。客户端运行应尽量避免对终端用户的正常工作形成干扰,如果能做到让使用者感觉很舒服又实用那是最好了。
3、资源占用率 客户端运行时,进程的大小,CPU占用率可以参考较为成熟的软件如360及瑞星运行时的情况。
4、定制化安装
对于信息中心维护范围内和维护范围外的终端,应该采取不同的安装策略。比如对维护范围外采用接入认证、监控健康状态、信息提醒等,但不启用维护功能。用户在安装客户端时,填写相应的信息以便系统管理。
四、运维系统建设工作重点 1.运维管理中心的开发 2.终端管理系统的建设
3.NETIQ系统所涉及监测指标的调整,与运维管理中心的接口准备 4.机房环境监测系统所涉及监测指标的调整,与运维管理中心的接口准备
5.对于特定应用系统的运行监测,NETIQ能否开发出对应的监测服务模块,或者应用系统的开发商可以开发出对自身运行状况的监测功能。6.与运维工作相关制度的完善、建立。
五、总结
综上所述,运维管理系统由多个子系统组成,我们应该看到它的复杂性。如何让整个系统协调运作,如何挖掘、调整、发挥运维系统的功能,提高运维工作效率,不是一朝一夕的事情。运维管理系统体现的是管理理念,相关制度的落实是整个运维工作做的好坏的关键,也是运维管理系统成功的关键。