第一篇:运维管理标准
运维管理标准
概述
运维是管理的核心和重点部分,也是内容最多、最繁杂的部分,主要用于运维部门内部日常运营管理,涉及的对象分成两大部分,即业务系统和运维人员。其管理内容又可细分为七个子系统:
第一、设备管理:对网络设备、服务器设备、操作系统运行状况进行监控,对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,如邮件系统、DNS、Web等的监控与管理;
第二、数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和恢复; 第三、业务管理:包含对企业自身核心业务系统运行情况的监控与管理 第四、目录/内容管理:该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理;
第五、资源资产管理:管理企业中各IT系统的资源资产情况,这些资源资产可以是物理存在的,也可以是逻辑存在的,并能够与企业的财务部门进行数据交互;
第六、信息安全管理:该部分包含了许多方面的内容,目前信息安全管理主要依据的国际标准是ISO17799,该标准涵盖了信息安全管理的十大控制方面,如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等;
第七、日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段。
第一章 总则
1.为加强公司各个项目后期的系统运维管理,确保系统能够平稳、可靠地运行,更好地为客户提供管理服务,特制定本规定。
2.实行预防性维护为主、故障性维护为辅的运行维护管理原则,预防性维护和故障性维护都应遵循事先设计好的程序进行。
3.完善运维管理体系,建立健全运维规范,提高运维管理效率,并不断提高运维质量。
4.本规定适用所有进入运维环节的项目。
5.运维人员应根据授权,处理本规定中所涉及的业务事项。
第二章 主机、服务器及数据库系统的运维管理
1.根据应用需求,主机、服务器及数据库系统的配备和安装、以及系统资源的使用等由公司项目实施部统一规划。
2.应指定专人作为系统管理员(系统工程师)和数据库管理员,对系统的运行、管理、维护和安全负责,并按照有关规定负责系统和数据的备份与恢复。3.系统/数据库管理员应定时对系统进行监控和定期的健康性检查,分析系统运行和资源使用状况,并进行必要的优化、调整和修正,及时消除隐患。如系统设置发生变化,或重新安装系统,或安装了新软件,应在此后15个工作日内对系统进行密切跟踪。
4.及时解决处理系统运行过程中出现的异常问题和软硬件故障,并采取必要措施,最大限度地保护好系统资源和数据资源。
5.对于重大软硬件系统故障,应立即通知部门领导,协调服务商,使系统尽快得以恢复运行;对于应用系统引发的系统异常或故障,应及时通知相关人员,并协同解决处理。
6.每季度应对系统主机/服务器/数据库进行一次停运维护,其操作必须严格按照操作规程进行。其他非正常性停运(故障引发的除外),应提出书面申请,并经部门领导批准后方可进行。同时做好相应的准备工作,最大限度地减少对业务操作带来的影响。
7.具有系统操作或管理权限的人员调离工作岗位或离职,应立即从系统中删除该用户;如该人员掌握超级用户口令,应立即更换口令。
第三章 软件系统的运维管理
1.避免在用户工作时间进行软件版本升级工作,以免由于人为失误造成业务中断。2.软件系统的安装、升级等操作应保留完整的实施记录。
3.对软件系统进行升级、更新补丁,应首先进行相关的测试,并在确认无误后实施。
4.对软件系统进行升级、更新补丁,或进行系统的重新安装等操作,应在实施前对原有系统及数据进行备份。
5.变更系统配置,修改配置文件、参数文件时,应对原始配置数据(或文件)进行保留。
6.软件进行版本升级时,对于不影响业务的升级工作,须以书面形式详细将计划、方案、措施等报上级主管部门备案;对于影响业务的升级工作,必须提前两周向上级通信主管部门以书面形式提出申请详细报告计划、方案、措施等,经批准后方可实施。
7.维护人员应定期跟踪所使用系统的软件升级情况和升级后的新功能,必要时提出升级建议。
第四章 数据库的运维管理
1.对于数据库的变更必须有记录,可以回滚。2.无用表和字段要及时清理。
3.从数据库删除数据一定要先备份再删除。
4.定期对数据库数据进行自动备份,以便在故障发生后尽快恢复最新的数据。定期检查备份的执行情况,确保备份操作正确执行。5.指定专人定期进行备份数据的恢复性试验。
1、严格操作原则:在系统上进行可能影响系统运行的参数设置、更改和维护等操作时,须有2人以上在场进行监护和确认,并作好详细的操作记录;
2、提前沟通确认原则:软件进行版本升级时,对于不影响业务的升级工作,必须提前与客户方进行沟通,避免操作中人为失误造成业务中断;对于影响业务的升级工作,须提前与客户方进行确认,达成一致后方可实施。
3、遵守保密原则:对被运维系统单位的网络、主机、系统软件、应用软件等的密码、核心参数、业务数据等负有保密责任,不得随意复制和传播。
第五章 巡检管理
定期了解设备的运转情况,做好系统日常运行的基础数据记录,做到有问题早发现、早解决,避免隐患,确保设备的完好率,保证系统运行质量。
1.对硬件设备进行定期巡检,是确保系统稳定运行的重要措施,巡检工作包括例
行巡检、节假日和重要事件前的巡检
2.维护人员应根据工作计划,对维护的设备定期进行预防性巡视检查,巡查过程中应认真负责,及时发现问题,重点注意处在恶劣环境下、存在潜在质量故障的设备,巡查要认真做记录。
3.巡检过程中发现告警应立即进入处理流程,判定为故障的要立即进入故障处理流程
4.所有的巡检都应有详细的记录,包括时间、巡检情况和责任人,并应在巡检纪录卡上签字。
第六章 网络管理规范
关键业务流程
对以下业务系统流程监控,对业务系统是否正常运行、各项具体参数指标是否超标等进行掌控,避免或降低业务系统故障的发生率。
1、单位内部的关键业务流程。
2、网络吞吐量大的业务流程。
3、对系统造成大的压力,频繁使用数据库的业务流程
4、同其它系统集成的业务流程,这些集成会提高应用失败的风险。 用户体验同系统性能指标相关联
将网络中的所有网络基础架构都进行集中监测,包括对数据库服务器、应用服务器、路由器、交换机、防火墙的监控,收集网络运行信息,将性能数据同单位内部用户的体验相结合来分析网络的性能状况,诊断系统瓶颈。
建立网络运行基准指标并观察趋势
长期监测并通过对网络运行的观察,分析网络性能的变化和流量等指标的运行趋势;及时发现网络偏离系统基准模型时的异常状况,分析故障,达到预警的目的,防止更严重问题的发生。 设计报警策略,避免警报泛滥
配置报警的依据是根据信息服务管理网的网络运维管理目标,报警设置的原则:
1、对影响网络和业务的重要指标设置报警;
2、消除误报和重复报警;
3、报警应该以多种方式及时发送给相应的负责人。 创建自动化、规范化事件处理程序
信息服务网络运维,日常处理事务较多,需要在网络、链路和系统运行出现问题时能够有自动化、规范化的处理问题程序,快速处理各种潜在故障并且分配到相应的负责人,提高工作效率。另外可将工程师长期积累的知识和工作经验系统化和固化,达到快速定位故障的目的。
网络服务质量SLA的量化管理 提高网络服务质量的设立量化指标,将其作为整个网络运维管理团队的整体目标。信息服务管理网网络性能管理的总体目标包括网络和设备、业务的可用性、网络的吞吐量、带宽使用百分比、网络延时、CPU和MEMORY的负载,对于不同的网络指标还要根据网络的上下级连接关系分解到每一个子指标,作为对网络故障诊断和性能管理的依据。
制定网络的升级和改进策略
网络的升级和改进应该以对现有网络和系统性能数据的测量为前提,以对网络整体运行的现状及趋势分析为依据。通过对单一网络系统和整体网络系统性能数据的比较、单一网络组件和其它网络组件的数据比较、系统负载量最大时的性能数据和一般负载时的性能数据的比较等,判断是否需要对系统的局部或者整体进行升级,发现网络系统性能的瓶颈,提出网络系统改进的方法。 日常规范
1.每天两次进行业务系统、网络运行状况、业务流量及对外服务器服务状况监控巡查;
2.按照规定的时段巡统计并汇总运维表单。(流量统计、事件统计、问题统计、手里投诉统计等)按照规定的时段查看路由、防火墙等关键系统运行情况,包括网络流量、带宽占用率等,重点检测关键设施,并记录;
3.处理产品组网络问题应做完整、详细记录,快速响应,及时确定原因,积极组织处理,同时记录解决问题的操作过程,问题解决后应及时回复;
4.对网络资源调配管理(ip资源分配、设备端口划分、链路传输、负载均衡等)、核心和汇聚层等核心网络运维的调试,做好汇报申请并记录。
5.故障分析及处理,网络拓扑更新及网络优化。网络安全方案实施部署,更新维护录入知识库。
6.处理各种网络故障,并作记录,保障网络正常运行。7.遇到不能处理的问题时,通知相关人员或及时汇报,并记录;
8.工作人员要有强烈的安全意识,巡查时应注意发现各种可能的安全隐患并及时排除。
第七章 请示报告制度
为加强相关信息处理和反馈管理,有效的控制系统和设备的运行状态,通过规范的请示报告流程,提高运行维护的管理效率。
例行性请示报告
1.按照规程和制度规定的周报、月报、季报和年报。2.系统升级、交接和重大数据变更请示报告。3.各类专项请示报告和合理化建议。紧急性请示报告
1.各种事故、严重设备故障、严重电路故障、系统运行异常等情况。2.各项工作中发现的严重泄密、安全性事故报告 3.客户要求的其他紧急性报告。
第二篇:IT运维系统标准篇---桌面管理
http://www.xiexiebang.com
现在,随着电脑在企业中的普及,大部分企业的硬件和网络环境已初具规模,企业中的联网电脑多则数百上千台,这些电脑往往运行着从办公系统到业务系统的各种前端应用,它们的稳定性、可靠性、安全性以及性能等方面的因素,不仅直接影响着电脑使用者的工作效率,而且对整个企业的IT应用效率和管理成本以及安全性产生重要影响。
企业在桌面和设备管理领域,通常遇到什么方面的问题和挑战呢?电脑感染病毒、被安装木马,有些不明程序不断抢占IP地址造成其他机器无法正常工作,还有部分员工使用BT、电驴等下载工具时有发生。如果同时有多台计算机感染网络病毒或者进行非法操作,非常容易导致网络阻塞,从而致使其他正常网络业务无法使用。企业桌面管理解决方面已经成为企业网络运行管理系统不可缺少的重要组成部分,越来越受到网管人员和企业领导的普遍重视。
概括起来,这些问题即是IT资产的统计和追踪、软件和操作系统的安装、日常维护、安全监控和管理、应用监控等。由于桌面设备经常更新,对企业到底有多少设备,每台设备的配置情况如何,各台设备是否按规定安装了安全产品、是否及时打上了补丁?对这些信息很难有一个实时的掌握,致使IT管理常常处于被动状态。这些问题完全可以通过桌面管理软件得到解决。
新一代桌面管理平台标准
新一代桌面管理平台可以相互高集成度、支持多种平台、支持异构网络、功能完善、易于部署,应用灵活、方便,从而能够帮助企业用户实现桌面设备配置和安全管理。支持多级级联安全设计,采用“集中管理、分布部署”方式,可以支持大规模客户端的统一管理,确保安全策略实施的有效性,分布式部署体系满足了大型企业用户服务的需求。
新一代桌面管理平台不仅能够自动显示网络中的所有节点信息以及软硬件信息,而且能够将这些信息与组织人事信息合理组合在一起,从而方便网络中的所有资源得到统一管理和配置。另外,桌面管理平台能够通过控制管理客户端用户安装的软件以及运行的程序来对其行为进行控制,从而达到一个网络和主机的统一管理,极大地提高了安全管理力度。
新一代桌面管理平台可以提供了客户很方便的像可执行程序、MSI安装包或者文档数据文件自动下发与安装的功能。支持参数方式增加软件分发时安装选项,可以使得IT管理员很方便快速部署软件,极大地降低了IT管理员的工作强度,提高工作效率。并且可以按照部署范围进行分发,不会影响企业整体网络带宽。
新一代桌面管理平台具有完备的IT资产管理、员工行为审计、桌面终端安全管理、终端网络准入控制等主要功能,与国内外同类产品相比较,具有非常高的性能价格比,同时能实现对企业所有终端设备的远程支持及软件分发,不仅大幅度减少了IT人员现场支持的次数,同时能够确保软件和应用升级的顺利进行。桌面管理平台采用WEB方式,自动补丁模块最基本的功能就是按照即定的策略对桌面终端进行补丁的自动检测、服务器对所需的补丁下载和自动安装。
http://www.xiexiebang.com
新一代桌面管理平台解决方案
新一代桌面管理平台解决方案是为企业管理者量身定做的联网桌面终端综合管理平台,其在设计时就遵循了ITIL/ITSM规范及国家信息安全标准等原则,定位桌面管理系统的架构、性能、功能和管理界面。因此,桌面管理解决平台方案具有符合国内企业IT架构和管理模式,且真正适合用户最迫切需求的桌面系统管理平台。
新一代桌面管理平台解决方案不仅能够采集到桌面电脑固定的软硬件配置信息,跟踪软硬件配置变动信息,而且能够进一步获取桌面电脑的网络连接信息、用户信息。IT资产管理不应该是孤零零的设备管理,而应该是结合人的管理。帮助企业建立IT资产台帐管理机制,从IT资产采购、维修、报废等全过程进行管理可控。
桌面管理平台可以解决企业大量的桌面安全管理问题,提升IT服务部门的工作效率,解决大部分手工操作工作,对员工行为操作做审计并规范。终端桌面安全管理技术的兴起是伴随着网络管理事务密集度的增加,作为网络管理技术的边缘产物而衍生的,它同传统安全防御体系的缺陷相关联,是传统网络安全防范体系的补充,也是未来网络安全防范体系重要的组成部分。因此,终端桌面安全管理技术无论在现在还是未来都应当归入基础网络安全产品体系之列。
Broadaview广通桌面管理套件是一个完全集成的、跨平台的模块化桌面管理平台解决方案,能够在单一的控制台上对管辖范围内各种终端设备的桌面进行远程控制和管理,方便地对企业复杂而易变的桌面设备资产进行高效跟踪和统计,远程安装和配置操作系统和应用程序,帮助企业解决桌面管理所遇到的各种“难题”,使IT管理人员从大量的重复工作中解放出来。
Broadaview广通桌面管理套件采用模块组件化设计,主要功能模块是全独立,可以分离、可以集成。完全按照用户的网络现状、实际信息化管理需求进行选择组合,真正做到按客户所需提供合适服务。广通桌面管理套件参考BS7799的资产分级管理要求,可以实现非常灵活的资产分组、分级,对不同组别的资产,可以采取不同的安全管理策略,切实保护用户IT投资,提高IT运维效率。
第三篇:运维部工作标准
运维部工作标准
1范围
1.1 本标准规定了运维部的工作内容及要求,工作程序及职权、检查与考核。
1.2 本标准适用于运维部的日常工作。
2职责
2.1 运维部在风电公司领导下,负责公司指定的生产系统和生产区域的行政生产和技术管理工作。
2.2 运行部负责保障公司设备的安全生产,安全运行,设备的定检、维护、故障消缺和更新改造等工作,负责部门标准化管理工作和文明生产工作。
2.3 合理组织生产要素,充分发挥职工的积极性,及时全面地完成上级下达的各项任务及生产指标。
2.4负责教育培训工作,作好公司安全生产工作。
3工作内容与要求
3.1 贯彻执行风力发电公司制定的各种标准制度。
3.2 负责运维部岗位和人事,行政管理等工作。
3.3明确各班组及各专责人的职责范围,充分发挥调动各班组和全体职工的积极性,及时全面地完成厂下达的各项任务和生产、经济指标。
3.4定期进行运行生产分析,提供运行数据和记录,对异常运行状况提出解决方案。
3.5严格执行“两票三制”制度,保证安全生产。
3.6 认真作好各种运行记录,按要求上报各种运行报表和数据。
3.7 根据公司制定的教育工作计划,对本部门运行人员进行安全和技能的培训,使职工达到岗位要求。
3.8实现安全经济运行,降低消耗,提高设备利用系数和运行操作管理水平完成公司下达的各项生产计划任务。
3.9实现安全运行,根据季节特点和生产需要,定期进行安全学习,分析不安全因素,进行障碍、异常、差错、事故的调查分析,按照“三不放过”的原则,查明原因,分清责任,采取对策。
3.10加强设备管理,不断提高设备健康水平,参与公司设备投运和检修后的交接验收工作。
3.11加强原始记录、图纸及资料管理,收集数据信息,为公司安全生产,检修或改造提供第一手资料。
3.12开展技术及经济指标的分析活动,分析生产运行指标综合指导安全生产工作。
3.13贯彻执行公司下达政治思想和精神文明建设的目标。
4责任与权限
4.1负责本部门所辖设备的安全运行,及时解决运行中发现的问题。
4.2有权向公司提出生产运行人员的配置和班组设置。
4.3有权安排本部班组的生产、技术和行政工作。
4.4有权对本部门员工在部门内部进行的调转。
4.5有权按工作任务对运行职工进行考核和进行奖金再分配。
4.6对上级下达的违反规程和明显危及人身设备安全的指令,有权拒绝执行。
4.7对严重违反规定、纪律的职工经教育无效时,有权建议厂部给予必要的处分。
5检查与考核
按本标准进行检查,按公司有关标准进行考核。
第四篇:运维管理定义
运维管理(IT Operations Management)帮助企业建立快速响应并适应企业业务环境及业务发展的IT运维模式,实现基于ITIL的流程框架、运维自动化。
核心思想随着国内企业业务信息化的深入, IT运维部门所负责的IT设备及软件的运行维护工作变得越来越复杂,技术难度也越来越高。传统的IT工具和流程集中在技术上,而不是业务目标上。业务服务管理(Business Service Management)使IT能轻松满足业务的需求,转变企业的环境,使业务部门和IT部门领导者能够拥有统一的语言,通过统一的界面面对挑战,理解新变化所带来的影响。
BSM主要强调从业务的视角来看待企业的IT运维,从而最大化发挥IT对企业业务的推动作用,这就IT运维的核心思想。
着眼点IT系统的业务服务管理主要着眼点
一、确立以业务价值为核心,业务驱动管理的管理思想面向业务要首先在IT管理的战略层面上建立“业务驱动”的IT治理和管理思想,使得业务部门的目标和IT运维的目标一致,都是为了企业整体战略目标的实现,把对业务的支撑能力和管理实效,作为评价IT系统效用和IT部门工作的首要指标。只有这样,才能在全企业范围内建立“技术服务于业务发展”的意识和文化,是真正实现IT与业务融合,共同为企业的战略目标服务。
二、建立关键业务服务模型今天的业务部门对应用程序的依赖性比过去更强了。应用程序软件可以实现关键业务流程的自动化 —自动化既包括付款、资金转账、下订单和订单履行。由于应用程序故障或性能问题可能导致严重的业务影响,因此业务部门迫切需要 IT 部门在发生问题时提供更高的应用程序服务级别和更快的问题解决方案。所以,必须结合企业战略和目前业务运营情况,辨识企业业务服务,特别是关键业务应用。为这些核心业务系统服务,建立和企业未来发展愿景、目前IT架构、管理模式等相适应的业务服务模型,能够清晰地描述业务与IT之间的关联关系和IT服务的关键目标。
三、管理信息共享目前,出于对IT资源专业化、精细化管理的要求,企业部署了诸多的监控管理工具,如网络监控、系统监控、数据库监控工具等。一般来说,这些监控工具往往来自于不同的厂商,彼此之间缺乏信息共享的手段。而一个具体的业务是由网络、主机、应用本身所组成,管理信息无法共享,这就造成了当一个故障出现时,无法通过系统直接自动分析并定位故障点,加大了IT故障的分析难度,降低了解决问题的效率。业务服务管理可以有效整合企业已经构建的众多IT监控系统,将分散的IT管理信息集中到一个单点的管理平台中,从而可以快速进行故障定位。
四、根源问题定位随着企业业务的快速发展,IT环境越来越复杂,IT组件越来越多,同时各组件之间的关联关系也更加纷乱和复杂。业务服务管理能够提供有效的根源问题定位能力,它着眼于企业的核心业务系统,通过集中与业务相关的IT信息,根据业务逻辑和IT组件之间的关联关系进行建模,企业可以在业务模型中的任何一点进行快速的根源问题分析和定位,大大提高了解决问题的速度和准确度。
五、故障影响范围评估当我们发现IT故障时,我们不仅应该关注故障本身,更应该考虑该故障对业务系统的影响。通过建立业务服务影响拓扑,可以快速的了解企业的关键性业务及业务故障时的影响范围,通过了解企业具体的业务环境,优先处理关键故障点。
第五篇:项目运维管理
龙岗区项目运维管理
1、设备应用
1、负责对所有设备的应用操作,每季度提交每个设备的配置和存储应用情况报告、网络拓扑报告、IP分配报告,并负责对龙岗区城管局的相关工作人员进行培训;
2、对新应用的设备需求,驻场工作人员应及时提交设备配置现状及设备规划报告,以便该应用能及时实施;
3、掌握设备的运行情况,就保修期、存储空间等及时进行提醒;
4、建立相关系统软件各种故障的恢复流程及应急措施;
2、环节与设备
1、定期对机房供配电、空调、温湿度控制等设施进行检查记录
2、做好机房人员的出入、服务器的开机或关机等工作进行记录;
3、根据维护合同附件资产清单,建立服务器及网络设备的档案,形成不易破坏的醒目标识,并定期更新相关内容;
4、对资产清单所列的各种设备、线路等,做好检查维护工作,发现故障,及时报告,并安排服务联系或维修,对维修情况提交书面报告;
5、形成每日巡视制度,对机房中相关设备的告警显示、空调、UPS等实际状态进行记录。
3、监控和安全
1、通过IT资源监控系统,对通信线路、主机、网络设备和应用软件的运行状况、网络流量、用户行为等进行监测和报警,形成记录、妥善保存并按重要性级别,定期书面报告;
2、针对网络运行日志、网络监控记录的日常维护和报警信息分析和处理工作,提出优化建议及方案;
3、定期对网络系统进行漏洞扫描,对发现的网络系统安全漏洞进行及时的修补
4、定期检查违反规定上网或其他违反网络安全策略的行为,书面报告;
5、指派专人进行核心服务器的工作压力监控,针对业务的增长定期生成主服务器的工作压力报表,并且预估业务增长对服务器压力的影响提出合理化建议;
6、指派专人进行核心数据库的工作压力监控,定期生成报告,并就改进提出合理化建议。
4、操作系统安全
1、根据甲方业务需求和系统安全分析结果,确定系统的访问控制策略;
2、定期进行漏洞扫描,对发现的系统安全漏洞及时进行修补;
3、及时安装系统的最新补丁程序,在安装前,首先报告同意,且在测试环境中测试通过,并对重要文件进行备份后,方可实施系统补丁程序的安装;
4、所有对系统进行的维护,均需详细记录操作日志,包括重要的日常操作、运行维护记录、参数的设置和修改等内容,严禁进行未经授权的操作;
5、备份与恢复
1、根据印制中心实际应用情况、根据生产相关数据的连接关系、根据应用的业务特点和软硬件资源,制定详细的系统数据备份计划,确定合理的系统备份策略。定期备份重要业务信息、系统数据及软件系统等;
2、应根据数据的重要性和数据对系统运行的影响,执行数据的备份,每月提交数据备份报告,必要时实施数据恢复;
3、按照控制数据备份和恢复过程的程序,对备份过程进行记录,所有文件和记录应妥善保存;
4、定期进行备份介质的维护、更新、替换、轮转,保证备份介质可靠有效,针对重要备份介质进行双机房异地轮转;