工商银行上海数据中心灾备系统运维实践

第一篇：工商银行上海数据中心灾备系统运维实践

工商银行上海数据中心灾备系统运维实践

一、“两地三中心”建设历程

工商银行于1999 年开启了数据中心集约化建设的先河，在北京、上海分别建设两大数据中心后，于2002年1 月在国内同业率先启动了主机灾难备份工程。经过多年的建设和持续投入，已经实现了高等级的核心系统灾备体系建设，完成了全行应用分等级灾备体系建设。为进一步提升信息系统灾难恢复能力，工商银行启动了 “两地三中心”工程建设。根据规划，2014 年将在上海嘉定建立同城数据中心，与上海外高桥数据中心构成同城双中心，同城双中心整体与北京异地灾备中心组成异地灾备模式(如图1 所示)。

“两地三中心”模式可以满足不同灾难场景下的恢复要求，实现更灵活的风险应对。在架构布局上，上海同城双中心具备基本相同的业务处理能力并通过高速链路进行实时数据同步，两个中心之间距离约55 千米，日常情况下可按主/ 备或双活模式运行。在发生区域级灾难某个中心失效时，可在基本不丢失数据的情况下进行双中心间的应急切换，保持业务连续运行。北京异地灾备中心用于同城双中心的灾难恢复，当出现因大范围自然灾害等原因导致同城双中心同时失效时，异地灾备中心可以用灾备系统接管全行核心业务。

二、“两地三中心”技术手段和实施策略

工商银行通过技术攻关，完成了“两地三中心”模式下的信息系统业务连续性架构设计和方案研究，提出了可以提供多层级业务连续性保障水平的解决方案。信息系统可以给银行业务应用提供A/A、A/Q 和A/S 等多种部署模式，最终以业务影响分析结果作为应用部署模式选型的决策依据。

在具体实施中，工商银行坚持“全面覆盖基本保障能力、重点针对关键核心应用部署高等级灾备保障技术”原则，做好资源分等级和差异化配置。如ATM、POS、柜面业务、资本市场等核心业务系统是银行的关键应用，与其相关的应用系统就具有较高的业务连续性等级。自2010 年工程启动以来，项目进展情况良好，完成方案规划设计和验证评审，在数据库复制技术全面推广、智能网管改造、55 千米磁盘同步镜像等关键技术领域取得了突破;完成了核心主机并行系统投产，即双园区模拟同城双活的试运行，目前主机并行系统主要运行可分离查询交易，分流了部分核心生产系统的负载压力;完成13 个开放平台应用服务器双活改造，预计今年将完成近50 个开放平台应用的双活改造。同时，工商银行积极探索“两地三中心”运行模式，按照“一体化管理”原则，初步制定了“两地三中心”生产运行管理方案，并对组织架构和主要职能进行了规划。嘉定同城数据中心园区基建工程按计划推进，于2011 年底奠基，2012年4 月开工，2012 年底8 万平方米基建工程结构封顶，计划今年底机房楼交付使用，2014 年嘉定同城数据中心园区建成启用，实现“两地三中心”的数据中心布局。

三、“两地三中心”安全措施

1.建立全面、系统、可持续发展的信息安全管理体系

①以安全、稳定、高效、追求卓越为安全方针建立具有工商银行特色的ISO27001 信息安全管理体系。数据中心(上海)于2011 年通过了ISO27001:2005 信息安全管理体系认证，实现在信息安全组织、资产管理、人员安全、物理和环境安全、通信及操作管理、访问控制等11个方面130 余个控制点的全方位的信息安全管理体系。同时，建立起具有工商银行特色的支撑跨地域统一管理的ISO27001信息安全管理体系，主要包括信息安全制度管理、安全生产与运维管理、安全与防控技术管理、用户与人员管理、综合管理等五大方面共107 项精细化管理制度。

②建设信息安全组织体系确保信息安全管理有效开展。数据中心成立了信息安全领导小组，作为信息安全管理最高管理机构，确定信息安全方针、目标和控制策略，明确信息安全的管理职责。信息安全领导小组定期或不定期召开联席会议，分析信息安全形势，研究中心信息安全管理薄弱环节及应对措施，贯彻落实监管部门、上级机构信息安全管理要求等。中心建立了纵、横向联系报告机制，及时掌握并报告本区域重大信息安全事件、案件线索或案件，提示风险，有效防控风险。

③信息安全管理体系随着工商银行和中心自身的发展、内外部安全形势的不断变化，与时俱进持续改进。主要措施包括：定期对人员、硬件、软件、数据与文档等各类重要资产所面临的风险进行评估，结合现有技术能力和管理成本，制定相关的补偿控制措施;利用有效的技术平台，通过完整、系统、及时的问题整改跟踪管理，将内外部审计检查发现的问题进行分析汇总，在督促及时完成整改的同时，不断挖掘制度漏洞和流程缺陷，及时完善管理体系;主动对生产故障事件、外部信息安全重大事件等进行分析研究，深入剖析问题发生和防控失效的深层次原因，进一步细化制度执行要求、强化技术硬控制、优化生产运维流程;积极与外部审计监管单位、各行业先进企业进行沟通，主动学习借鉴国际先进标准和业界领先经验，不断完善优化中心的信息安全管理体系。

2.生产运维安全措施多管齐下，确保生产稳定运行

①努力降低变更引发的安全生产问题。变更前通过变更评审会和变更协调会对高风险度变更和跨多个部门的变更进行评估和协调;变更中严格按照双人复核提交方式进行变更操作;变更后及时开展技术和业务验证。根据应用等级和对外服务时间严格控制变更窗口，严格控制紧急变更。将环境搭建和版本升级准备等相关变更活动限制在与生产环境隔离的区域，进一步降低变更操作风险。

②持续完善应急管理。制定完备的应急和灾备演练计划，开展层次丰富的各类演练，及时总结演练过程发现的问题并加以改进，定期开展南北两地互相远程接管演练等。

③ 建立了涵盖主机、网络、平台、UPS、应用、安全等各领域的集中监控报警平台，统一了监控报警事件的处理流程，使得各类报警能得以快速处理。

④ 定期对生产事件进行总结分析，找到问题根源和解决方案，避免事件的再次发生和深层次安全隐患。建立完善的事件沟通机制，通过每日、每周及不定期专项会议将相关事件发生原因、处理过程、改进措施等进行分析总结，举一反三防微杜渐。

⑤高度重视性能容量管理，建立了覆盖操作系统、数据库、中间件、网络、存储、动力、应用等领域的较为全面的性能容量指标和监控系统及指标阈值和报警规则，并结合实际生产情况、版本变化定期进行全面的指标梳理。定期开展性能容量统计分析，根据分析结果进行相应扩容、改造或资源回收。

⑥进一步完善运行操作管理，提高批量操作自动化水平，减少人为干预。通过专业系统对操作步骤制定、修改、发布、执行过程记录等进行信息化、流程化、自动化管理。实现了管理严谨、操作有序的安全生产目标。

⑦以“知其所需、最小授权、唯一鉴别、有效控制”为原则，进行各类用户权限的划分和按需发放，通过细致的访问控制，降低操作类安全事件发生的可能性。

⑧进行严格的网络区域划分，实现生产与外部网、生产与办公网的隔离。在接入网和互联网区域网络边界部署入侵检测防护设备，实现对攻击事件、DOS/DDOS 事件的检测和防护。

⑨ 通过技术手段严格落实数据访问、数据变形、数据传输、数据恢复、数据清理、数据销毁等数据管理各环节的安全管理要求。同时建立完善的客户端安全技术防护体系，包括防病毒管理、系统补丁管理、软硬件管理、外发邮件管理、互联网访问管理、电子文件安全管理、信息泄漏防护管理、笔记本硬盘密码保护管理等，实现客户端的安全准入控制和数据安全管理。

⑩通过日志集中和安全审计平台建设，对各类生产系统的人员操作、系统安全事件等进行快速和全面审计，及时发现和通报违规操作、恶意攻击、高风险操作等现象。

四、未来发展规划

未来，工商银行数据中心要努力实现生产运行管理可控、可靠、可持续的目标。可控，即对日常运维和突发问题可以主动安排和快速把控;可靠，即能提供稳定可靠运作的基础设施环境，确保全行信息系统运行不因物理设备故障而中断。可持续，即在任何时候、任何情况下均不发生对外服务中断。为此重点要做好以下几方面工作。

一是树立“安全生产第一”和“第一时间恢复生产”的指导思想，落实各项生产运行管理措施。包括提升监控的覆盖率、准确率和时效性;提升应急管理效率，确保在应急情况下，能够立即切换，第一时间恢复生产;提升生产一线发生事件的处置能力;提升变更管理和应用版本投产管理质量;提升健康检查、性能容量分析水平，提前采取预防和改进措施，切实降低重大生产事件发生概率;提升对境外机构的生产运行管理和服务，强化中心针对分行管理的专业人员的配备，完善对分行生产系统的远程实时监控能力，抓好分行机房动力设施、网络通信线路的改造升级等。

二是进一步提升信息系统的高可用性和灾备能力。要积极推进以数据零丢失和“本地双活、异地灾备”为原则的“两地三中心”建设，高标准、高质量建设上海同城中心;要积极推动应用系统灾备体系优化，根据应用灾备等级划分的要求，加快推进开放平台应用系统的灾备建设，确保关键开放平台应用系统均具备异地灾备能力。

三是加强生产运维的自动化工具研发与投入，不断提升操作、监控、维护、资源配置的自动化程度。推动实现数据中心批量操作自动化比例达到98% 以上;要全面建立覆盖各应用系统的“端到端”业务级监控，推动数据中心运行维护和资源配置的自动化，从而全面提升数据中心例行化工作的质量和效率。

四是以风险管理为核心，建立覆盖全流程的信息安全管理体系，不断提升信息安全管理水平。通过风险评估的方法，建立、实施、运行、监视、评审、保持和改进信息安全工作的流程与规范。

五是建立科学合理的人力资源配置和激励机制，加快建设数据中心专业化人才队伍。要合理配置人力资源，加强行业领军人才和高级专业人才培养，建立人才梯队，稳定人才队伍。

第二篇：数据中心运维题目

运维部第二季度考试试卷

部门：__________________ 姓名:__________________ 分数:_____________

一、填空题（每空 1分，共 10分）

1、IDC 机房温湿度应严格符合设备运行要求。温度正常工作范围 18-26 度；相对湿度正常工作范围 40%-70% ；当发现温湿度异常时，应及时（）

2、严格机房进出制度，外来人员应（）

3、UPS 电源三相电压 Vab、Vbc、Vca 正常时显示应为（），用蓝，黑颜色和字母（）来标识零线，用黄绿颜色和字母（）标识保护地线。

4、空调非标柜分闸灯亮表示该路电源（），合闸灯亮表示该路电源闭合。当机房外供电出现中断以后，空调非标准柜上市电灯亮起时，需要按非标柜上的（）按钮，手动合闸。

5、启动机房气体消防系统灭火的方法有三种，按照启动级别依次为按监控室控制端的（）、击碎机房大门侧面的（），到气瓶间拔出对应楼层的（）。

二、选择题（每题 4 分共 20 分）

1、MAC地址表示方法正确的是（）A、0778 B、202.201.32.100 C、011111110.01001000.11110101.00101010 D、00-60-58-70-C8-9A

2、以下那一项不含在PUE计算的电子信息设备能耗之中（）A．通讯机房的传输设备 B．模块机房中客户的交换机

C．模块机房中我司自有的云平台设备 D．值班室的办公电脑

3、下面不是 IDC 机房的服务器操作系统的是（）A、Windows Server 2003、Windows 2008 Server B、Andorid、Symbian、BlackBerryOS、windows mobile C、LINXU、Centos、SUSlinux D、UNIX、freebsd

4、某公司申请到了一个C类IP地址，需要分配给8个子公司，最好的子网掩码应设为（）A、255.255.255.0 B、255.255.255.128 C、255.255.255.240 D、255.255.255.224

5、Cisco 交换机端口指示灯为（）的情况下，为正常工作。A．熄灭

B．橘色固定时间间隔缓慢闪动 C．绿色快速闪动

D．绿色固定时间间隔缓慢闪动

三、判断题（每题 1分，共 10分）

1、值班人员不得随意屏蔽设备报警。（）

2、机房技术档案可以在论坛中与其他人分享。（）

3、各种灭火器材应定位放置，随时保持有效，人人会使用。（）

4、在机房服务器故障巡检中漏检，错检，在下次注意即可，不同通知相关负责人。（）

5、设备测试远距离取电，多个插排串接不会对设备用电产生安全隐患。（）

6、客户入室维护时发现未收到入室工单，应安抚客户并立刻与客响中心确认。（）

7、当发现隐患尚未解决，上一班次已经传报，接班人无须二次传报。（）

8、气体消防气体采用无毒惰性气体，因此在气体释放时人员可以站在机房内或者机房大门旁。（）

9、电源线和网线在条件允许下，可以在同一个走线架上走在一起。（）

10、发现服务器电源模块与电源线插接处电缆外皮剥落，可能发生漏电情况，应先保障设备安全，操作设备进行关机操作。（）

四、简答题（每题10分，共60 分）

1、请简要划出你所在 IDC 机房的弱电路由图（包括光纤odf分布，布线弱电桥架分布）。

2、请简要说明你所在 IDC 机房的设备设施的供电方式和断电处理方式。

3、简述下常用网络命令操作；

（1）检测机房到“百度网”的网络连通性；

（2）查看机房到“百度网“的网络路由，并说出最大延迟和丢包所在的 IP 地址；

（3）连续 ping 百度网 50 个包，查看丢包率；

4、简述配置linux环境下，windows环境下，开启远程桌面的命令或者步骤；

5、请简要描述你所在 IDC 机房的机柜单路空开跳闸的处理过程和注意事项。

6、请简要说明下你所在的IDC机房汛期的重要关注事项及位置。

第三篇：数据中心运维操作标准及流程

数据中心运维操作标准及流程

郑州向心力通信技术股份有限公司

二零一八年 1 机房运维管理前期准备 1.1 管理目标

机房基础设施运维团队应与业主管理层、IT部门、相关业务部门共同讨论确定运维管理目标。制定目标时，应综合考虑机房所支持的应用的可用性要求、机房基础设施设施的等级、容量等因素。目标宜包括可用性目标、能效目标、可以用服务等级协议（SLA）的形式呈现。不同应用的可用性目标的机房，可设定不同等级的机房基础设施的运维管理目标。1.2 参与数据中心建设过程

机房运维团队应充分了解自己将要管理的场地基础设施。对于新建机房，应尽早参与机房基础设施的建设过程，以便将运维阶段的需求在规划、设计、建造、安装和调试等过程中得到充分的考虑；同时为后期做好运维工作打下基础。1.2.1 应参与规划设计

机房的规划设计是一个谨慎和严谨的过程，需要所有参与机房建设的相关方共同完成，才能确保规划和设计的有效性、实用性等要求。其中，基础设施运维团队应提出运维要求，从运维经验、实际运维难度、提高运维可易性等方面对规划和设计过程进行配合。1.2.2 应参与相关供应商遴选

机房基础设施运维团队应参与机房基础设施设备供应商选择的全过程，及时地了解各种产品及服务的品牌、型号、规格等关键参数，使之更能满足运维的要求。并就在安装、调试过程中的注意事项等提出建议，还需要对后续的设备保修等服务提出要求。1.2.3 应参与建造管理

机房的基础设施运维团队应积极参与机房基础设施的建造工作，并协助做好建设项目的项目管理工作，着重关注工程建造中如材料的使用、工序、建造过程等工作，重点关注隐蔽工程的安装工艺和质量。机房基础设施运维团队应充分了解施工过程中的工艺。对于新建数据中心，从施工质量和日后运维方便性出发，尽早发现施工过程的问题，及时纠正，方便日后运维和节省日后整改成本。1.3 测试验证

机房基础设施投产前的测试验证是确保机房基础设施满足设计要求和运行要求的关键环节。1.3.1 时间和预算

机房的业主应设立测试验证专项预算，预算应包括外部测试验证服务提供商的相关费用，以及在测试验证阶段产生的电费、水费、油费等相关费用。应制定测试验证的工期规划，以更准确地预测机房基础设施交付投产的日期。1.3.2 测试验证参与方

项目建设管理部门可作为测试验证工作的主体责任单位；运维管理部门可作为测试验证工作的主体审核单位；第三方测试服务商可作为测试验证的实施单位及整体组织工作的协调单位。但运维管理部门应要求测试服务商预先提供测试方案，在运维管理部门审核后方可进行。机房基础设施运维团队可参与测试验证工作，在此过程中熟悉设施和设备，可建立相关运维技术文档库，为后期的运维工作做好准备。

机房关键设备提供商及工程总包商，应积极配合测试验证工作，应在供应商合同中对此项有明确要求。1.3.3 测试验证内容

验证应覆盖所有关键子系统和设备应具备的功能和关键的操作程序，确保满足设计要求，必要时可做故障情景模拟来检验。

测试验证中发现设计或者建设阶段的问题，应该在报告中充分体现；可以改造的部分，应要求建设单位进行改造；不能改造或暂时不需改造部分，应作为风险点在运维过程中予以特别的重视，并制定相关预案。

1.3.4 设施健康评估

当接手已在运行的机房基础设施的运维工作前，运维团队应对设施的情况进行健康评估，了解潜在风险点，其中能够改造的部分，应该申请予以优化改造。不能改造的部分，应该作为风险点在运维中予以特别的重视，并制定相关预案。1.4 技术文档

完整并准确的技术文档是后期运行、维护、维修、故障诊断、优化改造的基础。运维团队在开展运维工作前，应从施工单位得到场地基础设施的全套相关文档，包括但不限于：机房的规划设计资料及竣工图纸、全套设备的清单及相关操作文档和保修保养资料、机房自动操作系统的逻辑图及说明文档、监控系统的点表、验收测试文档、机房所在建筑的建筑设计资料、竣工图纸。整体文档应在限定时限内进入运维管理知识库,并按照质量管理的原理和要求设定文档的起草、变更、审核、批准、保存、分发等职责权限。1.5 管理边界

为了明确管理责任，机房基础设施运维团队应将可能影响机房基础设施运维目标达成的外界因素整合成管理边界报告，提交业主管理层并组织研讨，形成明确的决策，制定完整的协调沟通机制及权责界限。这些因素包括但不限于：不归本部门负责，但可能对于本部门有重大影响的供电、供水、供暖、制冷、消防、安防、监控、运营商线路接入等系统。安全管理和质量管理建议 2.1 人员安全

机房基础设施运维团队要编制正式的机房生产环境（工作场所）的安全方针，设定严格的安全生产规范；并根据安全方针制定有效的、明确的安全计划，来教授和培训安全原则、危险识别、纠正缺陷和控制风险。并加强对于该部分规范的合规度的培训、考试和审核检查，以确保机房运维人员的人身安全。相关安全生产规范主要包括：

●机房生产环境安全管理规范； ●机房基础设施各系统安全管理手册； ●机房基础设施涉及安全的应急预案； ●机房基础设施管理过程涉及的技术方案中的安全管理策略。机房基础设施中与电气相关的工作存在着固有危险。设施运维团队应当创建一份正式电气安全计划，以最小化所有工作人员受到电气伤害的风险，确保现场电气系统达到相关法规标准。电气安全计划中的条款应规定电气工作人员在有资质和具备合理安全工作流程的前提下才能进行操作，并应利用防护设备和其他控制手段，如上锁挂牌设备。此计划的创建旨在防止员工受到电击、烧伤、电弧和其他潜在电气安全隐患，同时要求其遵守法规标准。

相关国家、行业规程包括但不限于：

●GB 26860电力安全工作规程发电厂和变电站电气部分； ●DL 408 电业安全工作规程。2.2 物理环境安全

应了解周边社会环境信息，评估潜在的安全风险并制定预案。这些信息宜包含但不限于：周边交通路况、医院、供油站、消防站、变电站、供水、供电、供气、网络通信线路等。可建立周边社会环境管理资料库。

应了解机房所在地的历史自然灾害情况。包含但不限于GB50174 及TIA-942中提到的所有评估机房选址的外部因素，并制定相应的管理预案。

应建立并执行严格的机房设备、人员、车辆进出管理制度。应设立不同安全区等级(参考ISO27001信息安全管理中的物理安全控制)并制定访客管理制度,用以有效管理访客。2.3 质量管理

在机房基础设施运维过程中建立完善的质量管理体系，是保障以上机房基础设施运维趋于卓越的重要因素和手段。机房基础设施运维团队的所有关键工作应包括以下的质量管理要素： 2.3.1 质量保证

●过程制定； ●程序制定； ●过程审核和批准； ●过程和程序培训。2.3.2 质量控制

●事件回顾； ●质量检查和检验； ●定期质量审核。2.3.3 质量改进

●故障分析； ●经验教训； ●优化及创新计划。人员管理建议 3.1 组织及人员 3.1.1 组织架构

机房运维团队应有清晰的组织架构，同时对各岗位有明确的岗位职责说明并在计算机化维护管理系统（CMMS）中实现权责匹配，同步更新。中大型数据中心场地基础设施运维团队中除现场负责人外，可按照工作内容分设以下几个主要职能岗位：

●运维巡检团队

主要职责：对基础设备设施进行巡检，担任值班工作，第一时间发现故障或问题，并作为管理程序的执行者。

●技术管理团队

主要职责：对机房基础设施提供运维技术支持，解决技术问题，承担机房基础设施一般性的优化改造工程的项目管理工作，宜包括电气、空调、弱电等系统的技术人员。

● 物理环境安全管理团队

主要职责：对物理环境安全进行管理，进行安全巡检等工作。3.1.2 人员配制

机房基础设施运维人员的配备应根据运维管理目标或SLA来确定。中高等级的机房，可按照7X24的运行要求配置运维人员。上岗人员应具备国家要求的相应资格证书。应在运维管理程序中明确规定资质等级与操作权限的一致性。

高等级以及具有一定规模的机房，每个班组应配备具有电力、暖通、弱电专业能力的运维人员，以达到“即时应急响应”的工作状态。等级相对低的机房，每个班需要至少配备一人，达到“即时报警”的工作状态。

运维团队的关键岗位应有人员备份和储备。机房基础设施运维管理团队的关键管理人员或关键岗位人员在正常运维工作开展中应采用A、B 角色配置，日常工作中应注意角色的分配和工作的配合。其它岗位人员宜建立良好的循环机制，人员可进行岗位轮换和交叉培训，使所有人员掌握全面的基础知识。3.1.3 绩效管理

为了提高机房运维人员的技术技能、职业素养和提倡团队合作精神，专业地、高效率地运行和维护机房基础设施，有必要建立人员的关键绩效指标，定期对所有人员的短期和长期绩效进行评估，奖优罚劣，推动整个运维团队技术和素质的发展和改进。3.1.4 人员管理制度

为了保障机房基础设施运维团队的创新性、稳定性、持续性，应通过建立合理的人员管理制度，约束人员的工作态度、行为规范，提高人员的工作热情、工作效率和执行力，激发人员正面影响，使团队一直保有活力来共同努力达成服务等级协议的要求，运维团队应该建立运维人员的各项管理制度。这些管理制度应该主要包含（但不限于）：

●《日常活动管理制度》； ●《人员安全操作制度》；

●《运维人员基本素质养成管理制度》； ●《安全运行奖惩制度》； ●《节能运行奖惩制度》； ●《技术创新奖励制度》； ●《人员晋升制度》； ●《人才储备制度》； 3.2 培训及认证

3.2.1 员工培训及资格认证计划

对于机房基础设施运维团队新员工应进行完整及严格的培训，以确保其尽快具备岗位需要之知识及能力。培训内容应包括机房基础设施的所有系统的工作原理、操作流程、应急预案、以及管理制度等。

对于所有运维人员宜设定以知识更新、技能提高为目标的培训及认证计划。宜要求运维人员不断提升理论知识，以便于在缺乏操作程序的应急状态下进行正确的处置。

可借助行业第三方专业培训及职业技能鉴定平台，积极开展运维人员任职资格的评定工作。3.2.2 历史事件分析学习

运维团队应将机房基础设施历史事件的总结分析作为培训的重要素材，进行全员培训；对于新员工应在上岗前予以培训，以避免相同的事件再次发生。3.2.3 组织学习

运维团队管理者应积极参与行业交流，了解行业最佳的运维管理实践，并从行业故障案例中总结经验，做好自身整改。3.3 运维外包服务商

3.3.1 基础设施运维外包服务商的选择

机房基础设施属于关键性设施，选择外包运维团队时应考察其机房基础设施的运维服务的资质、能力和经验。如机房作为商业物业的一部分整体外包运维，应要求外包运维机构针对机房基础设施设施部分设立专门的有机房基础设施运维经验的团队，并严格按机房基础设施的运维规程规范执行。3.3.2 运维外包服务商的管理

对于外包服务商的员工的管理原则应该参照运维团队内部员工同等要求，相关人员只有在进行培训并得到相关的认证后才能从事相关的工作。

外包服务商需要严格遵循数机房基础设施既定的操作流程和安全守则。

机房基础设施运维管理的最终责任承担者是机房管理者，责任无法外包。因此，机房应保留运维核心管理人员，对于外包团队的工作进行审核、监督和绩效评估管理。设施管理建议 4.1 资产数据库

数据中心应建立完整及实时更新的资产数据库。数据库应包括所有关键基础设施设备的清单，还应记录设备设施的运行情况、事件情况、变更情况、维护保养频次等信息。

资产数据库应最少包括以下信息：资产ID：每个资产的唯一标识号

种类：一级分类（如电气、制冷、消防系统）子类：二级分类（如 UPS、电池、PDU等）描述：资产的文字说明制造：资产的制造厂家型号：制造厂家的产品型号规格：资产的规格或者标称值位置：位置 ID（房间或区域）购买人：资产维护的负责人序列号：制造厂家的序列号安装日期：资产的投产日期保修期限：保修到期的日期更换：预计的资产更换日期维护频次：年检、季检、月检等 4.2 预防性维护 4.2.1 预防性维护计划

预防性维护是为了延长设备的使用寿命和减少设备故障的概率而进行的有计划的维护。其目的是通过定期检查和保养，使设备的某些缺陷或隐患在变得更严重之前被发现。

运维团队应根据系统设备情况与供应商进行沟通，按照供应商的建议提前制定、季度、月度预防性维护计划。各专业运维人员需按照各设备系统特性、维护流程及规范，及时、完整地落实维护工作，并形成客观实际的记录和报告予以存档。运维团队还应定期对设备的运行状态数据进行统计和趋势量化分析，对于异常的趋势，做出报警及相关预案。预防性维护包括并不限于以下系统设备或内容： ●冷水机组、精密空调； ●UPS，开关、和发电机组； ●消防系统和监控系统检验； ●蓄电池放电测试；

●配电装置（高低压配电装置）的绝缘性定期试验； ●二次保护定值实验；

●每年雨季之前进行的数据中心防雷接地装置测试等。4.2.2 工单管理

运维团队应建立预防性维护及保养的工单管理系统，工单应列出工作内容、完成相应工作需要的工具及备件、工作预计完成的时间、工作负责人等信息。

计算机化维护管理系统应该对每份工单从产生到完成进行全程的跟踪。4.3 操作流程

机房基础设施的所有操作，均应事先制定详细的操作流程，经过审核后存档并在后期运行阶段严格执行。4.3.1 维护作业程序MOP 对机房关键基础设施设备的每次维护、维修、安装操作，都应事先制定一份MOP。可要求设备供应商提供MOP的建议，但对于MOP最终确认审核的责任在于运维团队，批准责任在于运维管理团队。4.3.2 标准操作流程SOP 所有关键基础设施设备在各种情况下都能执行的常用操作都应制定标准操作流程SOP。例如手动启动发电机组的操作流程，或将UPS转换到旁路的操作流程等。4.3.3 应急操作流程EOP 应急操作流程适用于有可能发生的严重故障情况。以下为部分严重故障的例子：

●一路市电供电时中断； ●双路市电供电时同时中断； ●单个精密空调时故障停机； ●全部精密空调都故障停机； ●单台UPS时故障停机。4.4 工具及备件管理

运维团队应根据资产分类清单及其分类制定最低备件库存清单并及时补充备件。

测试分析仪器仪表方面可配备进行电气性能参数测试、电池测试、接地电阻测试、绝缘性能测试、设备运行温度测试、风速测试、环境温度测试、噪音测试等的仪器仪表。仪器仪表应该定期校准。

应制定相关规定对操作工具、仪器仪表实行人员负责制或者交接班负责制等管理制度。备件和工具应定期进行盘点。4.5 供应商管理

应该按照机房基础设施运维的资质、以往的经验、业界的口碑等因素，以注重预防性和预测性维护和提高可用性的相同标准来选择合格的供应商。

所有供应商到达机房执行维护程序之前，应通过机房相关规程的培训，获得机房运维团队和运维管理层的批准。在执行维护活动的过程中要严格遵循操作流程。操作时需由运维团队的人员陪同并监督记录流程的执行情况。

供应商的每次机房维护活动都应该提交现场服务报告并存档。运维团队应该建立供应商的绩效评估方案，并定期对供应商进行绩效评估。应设立供应商管理文档，记录所有供应商的联系方式、服务承诺（SLA）、工作范围、针对设施的培训和认证情况等信息。4.6 生命周期管理

应基于设施设备的合理生命周期，结合风险评估，制定设备维护、升级或更换的计划及预算，及时报告给运维管理部门。

风险评估主要评估内容包括： ●资产重要性识别； ●资产威胁识别； ●资产脆弱性识别； ●风险值的计算；

●在评估更换设备的方案时，可综合考虑原有设备的维护费用以及新设备在能效方面的改进，做好综合投资回报分析；

●对于冗余设备宜设立轮换运行机制，以延长整体设备的生命周期。

4.7 运维管理系统机房可建立自动化维护管理系统（MMS），集中实现资产管理、维护调度、信息安全、文档管理、工单管理的职能并记录所有的运维工作任务及完成情况。运行管理建议 5.1 运行管理制度

机房基础设施运维团队应建立并严格执行运行管理制度，包括：5.1.1 巡检相关管理制度

●日常巡视巡检管理制度； ●值班管理制度； ●交接班管理制度； ●通知矩阵。

5.1.2 工作流程相关管理制度

●工单处理流程； ●例会制度；

●工作总结报告制度（日、周、月、季、年总结报告）；●交付管理规范；

●运维质量管理办法文档管理制度； ●工具备件管理制度。5.1.3 安全相关管理制度

●机房出入管理制度； ●机房现场管理制度；

●机房卫生管理制度； ●信息安全相关管理制度。5.1.4 故障处理管理制度

●设备操作管理制度； ●设备故障处理流程； ●应急准备和应急响应流程； ●维护作业计划管理制度； ●故障隐患跟踪反馈管理制度； ●紧急事件汇报流程。5.1.5 经营相关管理制度

●员工行为规范； ●考勤管理制度； ●人员管理考核制度。

5.2 设施监控、巡检、及交接班管理

应配备环境、动力、安防等监控系统以便于运维人员及时了解设施各系统及设备的运行状态和及时发现异常情况。

应规定相应的运行人员对设施运行状态的巡视频次、巡视工作内容及规范。

运行人员交接班时应对当班执行的操作、变更及观察到的任何异常数据或现象进行交接和签收。5.3 机房清洁管理

应划定保洁区域，定期做好机房保洁工作，保证地板及地板下的无尘状态。重要区域进行保洁工作时应有运维人员现场监督和指导。5.4 标签标识管理

应建立针对数据中心场地基础设施设备和物理环境完整的、清晰的标签标识管理系统。应至少包括：

●设备标识：包括设备名称、型号、编号、资产编号等； ●线缆标识：包括起始端信息、终止端信息、设备名称等； ●警示标识：如“设备已带电/危险”、“禁止合闸”、“禁止分闸”等；

●物理环境标识：如位置标识、区域标识等；

●系统图展板标识：如电气、暖通、消防、弱电系统图展板。这类标识便于运维人员清晰、快捷地掌握区域及整个数据中心系统的配电、制冷、消防、弱电的原理及关键点位。5.5 变更管理

任何对于设施运行状态的变更应进行预先的风险分析，并基于风险等级，设定相应级别的事前审核流程。在变更方案及变更时间窗口确认后，应进行相应范围的告知。变更结束后，应向相应范围部门通报变更结果。5.6 事件管理

应制定事件管理流程，明确不同等级事件下相应的处理流程。5.6.1 事件等级定义

一般事件：任何没有达到机房设计和运行标准的异常事件；严重事件：任何没有达到机房设计、运行标准的事件，且对提供的服务造成中断的事件；

重大事件：任何没有达到机房设计、运行标准的事件，且对提供的服务造成中断，且影响范围大的事件。5.6.2 事件升级

当事件暂时无法排除，需要逐级报告，进入事件升级流程。如遇特殊情况，与直接主管联系不上时，可越级向上一级主管报告。

5.7 应急响应

5.7.1 设施应急预案演练

运维团队应针对应急操作流程EOP进行定期的演练工作，主要包括：

●沙盘演练：参与演练的运维人员集合，并分别口述在发生紧急情况下自身所应承担的职责及将会执行的方案及步骤；

●跑位演练：参与演练的人员跑位到模拟故障现场，模拟处理故障，参与人员应清晰地说出故障的处理方案及步骤。

应急演练的演练原则是：尽量接近真实情况，在条件允许的情况下尽量真实地处理故障。在运行中的一些特定场景下也可以进行应急演练，如发电机带载实验等。5.7.2 人员安全应急流程

机房基础设施运维团队应针对影响运维人员健康的人身事故制定应急流程并定期演练。应急流程可包括设置现场急救包以及联系当地医疗急救机构的方式等。5.8 容量管理

容量管理可包括但不限于以下方面： 5.8.1 空间容量

●IT设备摆放空间； ●基础设备设施摆放空间； ●综合布线线路空间，配线架管理。5.8.2 能力容量

●电力供应容量； ●空调供应容量； ●综合布线信息点容量； ●互联网接入容量。

设施运维团队应与IT 部门定期沟通，动态了解IT需求的预测，并通报设施容量的使用情况。可制定3个月至36个月周期的IT需求及设施可用容量两者的对比分析表。

当机房基础设施不能满足IT增长的需求时，应提前制定并上报扩容或者新建机房的计划。5.9 能效管理 5.9.1 能效监测

机房基础设施运维团队应了解并记录机房在不同工况及不同外界气候条件下的电力使用效率 PUE 的变化情况，从中发现趋势，以不断优化运行方案。5.9.2 了解IT设备运行特征机房基础设施运维人员应具备一定的IT设备相关知识，了解服务器、网络、存储等设备的运行特点和功耗情况。还应了解客户或用户的业务基本情况，了解IT 设备的运行峰谷期。

应与客户或用户相关部门做好沟通，针对高密度IT负载的部署做出预测，并制定相关应对方案。5.9.3 管理气流组织

应封堵设施建筑所有可能的漏风口，维持设施的正压。应疏导设施内气流的流向、封堵所有可能的漏风口、对机柜内所有空闲U位安装盲板、关闭不必要的出风口、保证冷空气的最佳使用效率。

5.9.4 运行阈值设定

应基于安全性及运行效率的综合考虑，建立运行阈值设定指南，设置监控报警阈值、空调回风温度等。5.10 预算管理

运维团队应做好运维财务预算，上报主管领导及财务部门，并做好预算必要性的沟通解释工作。

预算应包括但不限于以下内容： ●基于SLA的人力预算； ●备件及工具、仪器采购费用； ●应急维护材料费用；

●专业外包维保和应急服务费用； ●政策性等强制检测服务费用； ●整改或节能改造预算； ●突发问题备用金。

第四篇：云数据中心运维问题解析

1、云计算时代的到来，数据中心的运行管理工作必然会产生新的问题，提出新的要求，您认为，数据中心运维工作发生了哪些改变？

云计算是当下的技术热点，云数据中心是提供云计算服务的核心，是传统数据中心的升级。

无论是传统的数据中心，还是云数据中心，从他们的生命周期来看，运维管理都是整个生命周期中历时最长的一个阶段。

云数据中心的运维工作需要我们仔细分析，认真对待。从开源云计算社区openstack发布的模块来看，截止2014年11月，社区共有项目模块450个左右，模块数量前三的类型是“运维”、“易用性”、“上层服务”，其中运维模块数量第一，占到了153个。可见云计算的技术动向基本上围绕“如何运维”和“如何使用”。

我们今天的话题就先来说一说云数据中心运维的变化。说到云数据中心运维工作的变化，就要分析云的特点。云时代数据中心最明显的特点就是虚拟化技术的大量应用，这使得运维管理的对象发生了变化：

一、云数据中心运维对象数量激增。虚拟化技术将1台物理服务器虚拟为多台虚拟服务器，如果数据中心支撑业务需求规模不变的话，所需要的物理服务器数量将会减少，这与很多人认为的运维服务器数量激增是不符的，那么这个“激增”认识是如何产生的呢。可以这样分析，由于虚拟化技术进一步提高了数据中心各种资源的使用效率，同时大幅提高了业务需求响应能力，所以多个传统数据中心合并为一个云数据中心在技术上成为了可能。很多跨国企业采用云计算技术，实现数据中心10：1到20：1的合并效果，也就是说如果原来在全球建设1000个数据中心，那么现在可以由50到100个云数据中心实现对业务的支撑，在一个合并后的云数据中心内，所要运维的服务器数量绝对可以称得上“激增”，这里所说的服务器既包括物理服务器也包括虚拟服务器。与此同时，运维岗位也就是运维人员虽然也进行了调整，但是人员增加的幅度远低于设备的增涨幅度，也就是人均运维设备数量增加了很多，在这种情况下，如果不借助工具、系统，很难完成运维工作。

二、在传统数据中心中，设备都是物理的、真实的，位置也是相对固定，对业务系统来讲，交换网络、服务器、存储设备对象之间关联也是比较固定的，管理起来相对直观。在云数据中心，虚拟化带来了资源的池化，使得一切管理对象变成虚拟的、可灵活迁移的逻辑存在。虚拟资源可以随时创建、删除，再加上高可用需求、性能优化需求带来的虚拟资源迁移，虚拟资源所在的位置变得不固定了，虚拟资源与物理资源的关系也被解耦了，原来很多能说得清、找得到的资源现在不借助工具就再也无法说得清、找得到了。

三、在传统数据中心中，设备监控主要是采集故障、性能数据，容量一般来讲还不是运维层面的问题，而是规划的问题，当然这也带来了业务系统竖井、数据中心竖井的问题，以及业务资源申请周期长的问题。在云数据中心中，容量不仅是规划问题，同时也是一个运维问题。也就是说，在日常工作中，需要随时采集资源池容量数据，不仅要看资源池的总容量，还要看容量在各个物理宿主机上分布情况，以便满足高可用和迁移的需要。

四、云数据中心在管理虚拟设备时，接口的标准化问题。在传统数据中心内，物理设备已经形成了接口标准，提供运维数据，如snmp、netflow等。而对虚拟化设备，还没有形成国标或行标，对虚拟设备的运维还需要采用厂家标准。如果在一个云数据中心中采用了多个厂家的虚拟化系统，运维人员就需要熟悉多个厂家的界面。这个问题的解决，短期来看，需要一个融合的系统，为运维人员屏蔽多厂家虚拟化系统的差异，长期来看，希望能够形成各厂家虚拟化系统的统一接口标准。

云计算带来了IT服务成本的降低，提高了应对业务需求的敏捷性，同时，我们也要看到，如果云数据中心运维管理调整不及时，不但运维工作量不减反增，而且运维水平还会降低。

2、当数据中心发展到一定的规模，人们在数据中心管控要求的基础上，强调了流程化、自动化运维的模式，以便数据中心的运维工作能够更加快捷高效的开展起来，数据中心步入云时代，对于运维工作的流程化、自动化要求，云管理系统能给用户带来哪些价值？虚拟化技术是云数据中心的特点，但是云数据中心不仅仅是虚拟化。云数据中心响应业务需求的敏捷性，基于虚拟化，这是云数据中心的技术基础。

云数据中心以租用的方式向资源用户提供云服务，包括IaaS、PaaS、SaaS。从运维的角度讲，云服务的提供者要如何保障用户获得需要的服务呢。

云管理系统保障分配资源给用户的动作是自动化的，也就是说所有操作完全在线上完成，并且支持批量处理。

在云管理系统中，可创建并保存三个层面的资源模板，分别对应IaaS、PaaS、SaaS三个服务层面。用户申请某个或某些服务时，云管理系统就会按照相应的模版去创建资源。这是最基本的虚拟资源分配动作。

复杂一些的操作是可配置参数的资源模板，用户在申请服务时或运维人员在点击资源创建按钮前，可以传递一些参数给创建程序，如操作系统的用户名、密码，那么云管理系统在基于相应模板创建虚拟服务器时，会按照参数设置服务器操作系统管理员的账号信息。

再复杂一些的自动化动作，是基于模板组合进行的、有顺序的、有条件的动作序列，一般用作响应需要多个资源进行部署的业务系统的服务申请，通过一系列操作，为该业务系统分配网络地址、服务器、存储空间，并进行相关的配置，可定义动作执行的顺序以及后续动作执行的前提条件。对于特别复杂的动作组，允许进一步分割，也就是定义子动作组。

上述三种操作都是线上的、自动化完成的，这样的好处就是提高效率。云计算的好处之一就是敏捷分配，如果用户申请后，还要线下做很多配置，就会明显延长服务交付时间。同时基于模板的自动化操作也减少了人工线下操作的不确定性。

上面说完了运维的自动化，下面再说一下流程化。在云管理系统中，服务流程既包含了ITIL流程，如事件管理、问题管理、变更管理、发布管理等，同时也包含了云服务申请和审批的流程，如服务开通、服务变更、服务终止等。云管理系统还提供流程设计器和表单设计器，方便运维人员修改系统提供的服务流程，或者根据需要新建流程。

3、云时代数据中心最明显的特点就是虚拟化技术的大量应用，这使得管理的对象也在变化。以前的设备都是真实的，位置也是相对固定，管理起来相对直观。而应用虚拟化技术的结果是将这些资源进行“池化”，使得一切管理对象变成虚拟的、可迁移的存在，如何帮助用户面对这种挑战？

我们在谈云数据中心运维变化时，曾经提到过这个问题。在云数据中心，虚拟化带来了资源的池化，使得管理对象变成虚拟的、可灵活迁移的逻辑存在。运维人员很难再说清楚虚拟资源与物理资源的对应关系。

云管理系统会采集虚拟资源的运行数据，即时掌握资源之间的关系。首先是虚拟资源与物理资源的关联信息，比如虚拟机运行在哪台物理机上。其次，虚拟资源与虚拟资源的关系，如某台虚拟机与哪个虚拟网络设备的端口连接，某个虚拟磁盘挂载到了哪个虚拟服务器上。第三，物理资源与空间资源的关联，可以定位资源的实际部署位置。第四，物理资源与物理资源的关联关系。第三点与第四点与传统数据中处理方式并无不同。第五，云管理系统，还能够管理资源与业务系统的关系，以及资源与用户的关系。

通过云管理系统，运维人员可以即时掌握云数据中心中有哪些资源，资源的运行情况，以及资源之间的链接，资源分配给了哪个用户、哪个业务系统，资源在哪，这个在哪既包括了虚拟资源的分布也包括了物理资源的位置。

可以这么说，云管理系统以服务租用的方式向最终用户屏蔽了云数据中心内的资源情况，但是运维人员通过云管理系统能够清清楚楚、明明白白的掌握资源情况，包括虚拟的资源，也包括传统的资源。

4、目前，云数据中心管理的最大挑战除了上面提到的流程化、自动化和虚拟化，同时还要实现异构资源的融合管理，在这方面云管理系统是如何满足的？我们在谈云数据中心变化时，曾经提到过，如果云数据中心同时存在多个虚拟化系统，由于提供商执行各自的厂家标准，要如何去运维。当时我们提到了“融合”，也就是通过一个统一的管理系统，去融合、去屏蔽多个虚拟化系统的差异。

需要融合的虚拟化系统有很多，有商业产品，也有开源系统，在这我们不一一说明。但这只是虚拟资源范畴的融合，在我们实际的云数据中心运维工程中，我们发现，现阶段国内的很多云数据中心并没有全盘的虚拟化，这种现象在企业云数据中心中尤其普遍。企业中一部分业务系统部署在虚拟环境中，另外一部分业务系统部署在物理环境中，还有一些业务系统，部署环境同时存在物理资源及虚拟资源。

基于这种情况，云管理系统进一步扩大了“融合”的范畴，管理的资源范围不仅包括虚拟资源，还包括数据中心的物理资源、空间资源、动环资源，这样就把云数据中心全面地管理起来，既有传统的，也有虚拟的，而且传统资源和虚拟资源结合起来管理，使得云数据中心的运维更加的智能。比如，我要分配一个虚拟服务器，如果有动环资源的信息，我不仅可以基于宿主机也就是物理服务器的使用情况做策略，还可以考虑服务器所在区域的电能、冷能信息。

云数据中心是传统数据中心的升级，那么云数据中心的运维也应该是传统数据中心的运维升级，不应该缺少原有的运维能力。

5、云数据中心解决了业务系统部署的烟囱问题，通过资源池化及资源自动调度实现了灵活统一的业务部署，但不同的业务系统有其固有的专业性，对网络、计算、存储的规格要求各不相同，各个业务系统的服务要求、监控要求、故障处理要求等也存在差异，要做到业务系统的统一部署，又要满足特定需要，对于云数据中心“求同存异”的挑战，云管理系统是如何克服的？

云管理系统以服务租用的方式对云服务用户屏蔽了云数据中心的资源细节。以计算资源举例，一般情况下，云服务用户所看到的、分配给自己的服务器CPU配置都是虚拟的，也就是vCPU，他和物理CPU之间并没有一个统一的对应关系，甲用户和乙用户同样的虚拟服务器配置，可能由于宿主机品牌、型号、虚拟化方式、超配策略等，在计算能力上会有较大差异，当然，云服务提供的成本也会存在差异。这个差异再加上监控、维护等增值服务要求的差异，构成了不同等级的服务水平要求。

云管理系统在资源池划分方式上支持这种服务水平的差异性管理。云管理系统支持几种划分资源池的方式，其中一种就是按资源池等级进行划分并进行管理。可以定义不同等级的资源池，如金牌、银牌、铜牌，把物理资源及虚拟资源调度到不同等级的资源池中，用户、业务系统具有相应等级资源池的配额，在配额内可以申请、使用资源。其实，关于资源划分等级的做法在传统数据中心就有，在云数据中心中只是加入了虚拟资源而已。

6、对于数据中心而言，能效的问题为大家所关注，绿色数据中心的话题也一直再提，云管理系统是否能有效帮助云数据中心降低能耗？

虚拟化技术带来的一个好处就是降低能耗，这是基于虚拟机迁移技术实现的。前提是业务量在某一时间段内下降，物理机资源在这段时间内存在一定比例的空闲。最好是空闲的比例和时间是能够预见的，一般来讲，这个时间是夜晚。在这个相对空闲的周期内，通过迁移虚拟机到值班物理服务器的方式，实现部分物理服务器关机休息，达到省电的目的。

云管理系统同样采用这种方式，通过一段时间的监控，分析物理机资源空闲情况，包括每台物理机资源的空闲比例和空闲时间，每台物理机上运行虚拟机的配置情况，分析最优的虚拟机迁移目的地，最优的值班物理机“人选”，做到既省电，又不会因为部分服务器“休息”影响业务的性能。

第五篇：系统运维工程师

系统运维工程师

系统运维工程师年终个人工作总结及下年工作计划

时间一晃而过，弹指之间，2010年悄然而至，自从2010年3月份刚进入公司，我是第一次接触公司、接触通信行业、接触公司网络管理及维护。虽然跟我的专业和技能都一致，但所有的实际经验都是第一次，让我没有任何准备，同样也打消了任何顾虑，人生就是这样，所有的一切都是要从第一次开始，没有接触过、干过并不可怕，领导给了我机会，让我有了一次尝试、一次展现自己的平台，那么我一定会更加倍的努力做好工作才是最大的回报。并且也是对自己的一次肯定。经过一段时间的工作及陌生环境的磨合，专心钻研业务知识，努力提高理论知识和业务工作水平。遵纪守法，踏实工作认真完成领导交办的各项工作任务，使自己渐渐的融入和适应到新的工作环境中。过去的大半年里在领导和同事们的悉心关怀和支持帮助下,通过自身的不懈努力，在思想、学习和工作等方面取得了新的进步。现总结如下:

一、公司电脑日常维护工作

刚一开始接手工作的时候，发现公司大部分工作电脑都没有安装安全防护软件和升级系统补丁；员工随意安装系统及应用软件，致使公司局域网内病毒隐患严重、工作不稳定和系统崩溃，工作秩序被打乱，员工不严格要求自己，上班时间聊QQ、玩农场、看娱乐网站等；为此公司和个人工作经常受到影响,工作效率降低。针对这种情况，我采取了以下措施：

1、先对公司员工进行一次基本知识培训，让员工了解到计算机的正确使用方法，病毒防范，重要文件的备份等。从而大大提高了员工对电脑使用的熟练程度。

2、先恢复良好的秩序。电脑使用时如发现故障和需更改设置，必须先报告公司运维人员，由专门人员来进行专业及针对化的操作，个人不能私自进行改动，进行这样做的目的避免由于人为的盲目操作使某一台电脑的故障影响整个局域网内的其它工作，使故障扩大化，并延长了解决问题的周期。

3、使员工使用统一的、经过安全测试的系统及应用软件，安装、设置统一的杀毒软件、防火墙等安全防护软件，且经过努力实践，并在每台机器上设定了自动系统补丁升级及定期查杀规则。

4、对于个人的关键性数据资料、邮件进行路径转移备份，使这些数据远离危险故障点，避免意外丢失所带来的严重后果。操作系统进行常规定期备份，便于事后的还

原。

5、对于网络管理进行了监管工作，公司所有电脑安装了行为管理软件后，员工工作效率逐步提高，自觉性得到明显改进，从而净化了公司网络办公环境。

经过一段时间的贯彻和工作，先前的混乱现象得到有效控制，现公司的十余台电脑，工作状态稳定，没有出现大面积的系统崩溃和故障。

二、网络的日常维护

路由器及交换机的维护管理，确保公司网络运行正常，员工正常利用网络资源。加强路由器的规则设置，优化外网接口，内部员工合理地分配带宽流量，使公司的网络能稳定有效地工作。

三、公司网络制度管理和完善

公司经过一段时间的运转，各个部门的规章制度通过大家一起研究、探讨、立会并完善制定了各项规章制度，计算机管理也形成了制度，大家按章办事，使之成为一种工作习惯。同时公司的资产管理及日常的文书表格非常混乱和环节上的缺失。为此特地制作了一批表格、登记申请单及统计表。使得公司资产和资源得到有效的管理和控制，杜绝管理上的失控和资产流失。

四、公司服务器平台管理与维护工作

公司发展逐步扩大，对于公司所有的业务支撑平台-服务器，为重中之重；本我司服务器相应出现几次重大故障，分别如下：

1、网络故障七次，重大一次，因服务器遭DDOS攻击，导致我司服务器无法正常工作。事后通过紧急处理后得以恢复正常。其它几次分别为机房断电、网络升级、电信与联通DNS解析故障影响到我司服务器平台网络连接不正常。

2、系统故障三次，其中一次为短信平台服务器系统文件损坏，导致系统崩溃。经过技术部采用紧急预案措施在两小时内得以恢复系统。

3、其它故障共计5次，因联通网关溢出，无法与我司IVR服务器数据库网关同步，导致用户无法正常订购与使用我司亲情相伴业务。

经过出现几次重大故障后，技术部多次研究与讨论，制定出一套完善的应急措施与日常维护计划。尽量归避风险及减少事故发生，同时确保做到问题提前预防、及时发现、迅速解决并恢复正常运营。

4、针对服务器出现在问题所在，在技术部其它同事的配合下完成服务器的重新部署，访问权限及安全性的提高，数据库优化等相关措失后，目前服务器已运行正常。

5、公司针对员工的工作岗位与职位重新部署了FTP服务器的访问权限与互联网访问，使每个员工都能把重要的文件放到服务器上相关部门的文件夹里作备份，且通过内外网均可实现访问FTP服务器，大大方便了员工在外出差或在家里随时提取相关资料，且员工的访问权限不一样，故某些与自己无关或公司重要资料进行了保密设置，从而大大提高了公司重要资料的完整性与保密性。总结本的工作，尽管有了一点点的进步和成绩，但在一些方面还存在着很多的不足。比如：工作经验不足，对公司的网络与办公环境未得到很大的改善；遇到困难的时候与领导沟通不够等等，这都有待于在今后的工作中加以改进。

在新的一年里，将百尺竿头，更进一步，2011年的大致工作计划为：

1、在公司内部使用一种简便、有效的软件工作平台，使之便于公司所有员工的工作、交流、探讨，发布公共信息等（如OA软件）。

2、利用投影仪设备资源制作会议幻灯片为员工培训计算机操作及工作常用软件知识的小窍门，争取进一步提高全公司工作人员的专业化及工作效率。

3、解决企业网站制作等专业性知识问题，业余时间强化学习并能胜任网站管理工作。

4、进一步增强IT系统和网络系统的稳定性和管理，使用更为高效的域控制系统来代替目前的工作组局域网，使内、外网连接任意，在任何地方工作都能连接本公司服务器资源。

5、重新改建机房机柜网络布线，使机柜走线更加美观，同时方便以后维护时线路排除更加明了，直观。

6、在资金允许的情况下对公司办公电脑、网络、会议系统布署方案升级优化，进一步提高员工工作效率，为公司节约成本开支。

7、学习更多的网络知识，充分的将一些新的技术应用到公司当中来。为公司提供更优质、更便捷、更效率、更节能的办公方式。

2011年，是全新的一年，也是自我挑战的一年，我将努力改正过去一年工作中的不足，强化理论和业务学习，不断提高自身综合素质，把新一年的工作做好，为公司更好的发展尽一份力！

扩展阅读：如何成为系统运维工程师要成为系统运维工程师，需要学习那些课程？Windows、Linux、网络和Oracle哪些知识点需要学习，武汉怎么参加培训？

[标签：工程师,linux,oracle] 听前辈说软件开发工程师，以及系统运维工程师，在考虑选择。大家帮忙说一下我该选什么？学习哪些内容？才毕业没什么工作经验，该如何准备？

系统运维要求什么都懂一点，主要是基于Linux、UNIX有前途，shell网络数据库都需要懂一些。越老越吃香知识不需要太多创造性的东西了解基本规律然后去部署排错以后转管理。

我们来看看系统运维都有一些什么要求深入了解Linux/Unix操作系统深入了解分布式系统、计算机网络、硬件体系结构

精通Linux/Unix环境下脚本语言（Shell、Perl、PHP、JSP、Python）的编程熟练使用grep、awk、sed、vi等系统工具

可以学RHCE+CCNP+OCP RHCE是红帽Linux认证目前最普及的企业版LINUX发行版的认证学了通吃LINUX再学一下AIX就UNIX搞定；可以朝RHCA发展

CCNP基本是思科网络工程师比较成熟基础的技能培训认证，将来有钱了可以朝CCIE发展

OCPOracle数据库DBA认证专家也是成熟的基础认证，可以发展为OCM 这个课程可塑性很强延展性出去能满足绝大多数的工作需求至于日常的局域网维护硬件什么的就不说了

你是武汉的话你可以找授权培训官网都可以查武汉誉天RHCE+CCNP+OCP 系统运维做的很多啊网络操作系统数据库网站运维《互联网运营智慧--高可用可扩展网站技术实战》本书深入浅出地介绍运维架构中的各个节点，从网络规划到服务器安装到负载均衡、分布式文件系统等架构规划，无一不囊括，包括：从简要说明选择开源技术作为运营环境开篇，到选定平台及工具的部署实施，以实例展示如何使用开源工具，来实现用户访问量在1000万这样的一个级别的站点功能。

运维工程师熟悉tcpip系列协议，熟练配置思科和华为网络能参考手册配置其他厂商设备包括安全设备

熟悉服务器硬件系统配置操作系统unixlinuxwindows等安装配置检测其运行等熟悉常见的应用如webftp邮件等服务搭建及排查熟悉常见的系统安全设置，以及整个安全体系架构

会安装及配置维护常见数据库oraclemysqlsql-server等有一定的存储方面的知识。。。。

要熟悉你服务器的环境相关的东西特别是网络相关

熟悉服务器的硬件配置熟悉服务器上的操作系统及各种常见的应用系统熟悉发生故障的时候处理流程等

不强求你精通内核调优等但是你知识要全面而且有一两手是拿手的主要想当linux运维，服务器管理方面最佳答案

操作：下个虚拟机，装CentOS。

教材：《鸟哥的Linux私房菜基础学习篇》、《鸟哥的Linux私房菜服务器架设篇》第三版。这两本书深入浅出，原理讲得很透彻而易懂，不像很多书只讲皮毛或很枯燥。第三版是以CentOS为例的。

RedHat官方也有教材，但是一来你没有配套的系统练，二来它的原理方面不如上书讲得深。

CentOS和RedHatEnterprise的源代码是一样的，很多都兼容。学好CentOS再迁移到RHEL很容易。如果是小型企业，用CentOS就可以了。大型企业才有必要购买RHEL。

软硬并施!软件:主要是服务器操作系统和数据库系统

硬件:服务器硬件,数据存储硬件(如EMC、IBMSAS磁盘阵列,存储服务器)网络：Cisco网络设备，局域网，接入网，光纤通道存储网国家电网的工程师，责任重于泰山！

linux运维工程师主要干些什么？有什么要求？我们知道多少？对于linux你了解多少呢？linux运维工程师职责linux运维工程师招聘linux服务器

工作职责：

1、负责Linux操作系统的安装、配置，系统监控和维护，问题处理，软件升级。

2、负责Linux系统下的常用软件（如FTPServer、Apache、NginX、MySQL、ORACLE等）安装及日常维护。

3、负责Linux的系统维护、优化。

4、负责Linux系统的网络安全及数据日常备份。

5、会编写常用的SHELL脚本。

6、能独立完成新软件的安装和配置及工作文档

7、了解Web技术/Java语言开发，支持其他部门工作。

8、了解TCP/IP/UDP/DDNS协议，能在Linux配置包括网站服务器，以及DNS/DDNS，和DHCP服务器等。

职位要求：

1、具有2年以上Linux系统维护的经验，熟悉Linux/Unix常用服务的安装配置与使用

2、精通Linux系统原理，熟悉内核参数调谐，精通基于linux的常用服务配置，如mail/nginx/dns等，并能够快速部署；深入掌握apache、tomcat及weblogic配置及调优

3、熟悉Linux系统架构，管理以及优化。

4、熟练掌握LINUX网络安装、配置、日常管理、安全、备份、恢复、故障处理、日志分析等技能。

5、熟悉虚拟机技术，熟悉虚拟化架构下的系统维护、分布式管理、容错、备份等技术。

6、熟练掌握交换机，防火墙等常用网络设备的配置，熟悉TCP/IP协议

7、熟练相关应用服务器如web、email、ftp、http等

linux运维工程师主要干些什么？有什么要求？我们知道多少？对于linux你了解多少呢？linux运维工程师职责linux运维工程师招聘linux服务器

工作职责：

1、负责Linux操作系统的安装、配置，系统监控和维护，问题处理，软件升级。

2、负责Linux系统下的常用软件（如FTPServer、Apache、NginX、MySQL、ORACLE等）安装及日常维护。

3、负责Linux的系统维护、优化。

4、负责Linux系统的网络安全及数据日常备份。

5、会编写常用的SHELL脚本。

6、能独立完成新软件的安装和配置及工作文档

7、了解Web技术/Java语言开发，支持其他部门工作。

8、了解TCP/IP/UDP/DDNS协议，能在Linux配置包括网站服务器，以及DNS/DDNS，和DHCP服务器等。职位要求：

1、具有2年以上Linux系统维护的经验，熟悉Linux/Unix常用服务的安装配置与使用

2、精通Linux系统原理，熟悉内核参数调谐，精通基于linux的常用服务配置，如mail/nginx/dns等，并能够快速部署；深入掌握apache、tomcat及weblogic配置及调优

3、熟悉Linux系统架构，管理以及优化。

4、熟练掌握LINUX网络安装、配置、日常管理、安全、备份、恢复、故障处理、日志分析等技能。

5、熟悉虚拟机技术，熟悉虚拟化架构下的系统维护、分布式管理、容错、备份等技术。

6、熟练掌握交换机，防火墙等常用网络设备的配置，熟悉TCP/IP协议

7、熟练相关应用服务器如web、email、ftp、http等

工商银行上海数据中心灾备系统运维实践

第一篇：工商银行上海数据中心灾备系统运维实践

第二篇：数据中心运维题目

第三篇：数据中心运维操作标准及流程

第四篇：云数据中心运维问题解析

第五篇：系统运维工程师

相关范文推荐

系统运维（5篇范文）

数据中心机房建设及运维管理0220

数据中心机房运维外包服务(内容)[范文]

再谈大型数据中心的运维工作（本站推荐）

数据中心日常运维及应急处理方案[全文5篇]

软件系统运维方案

运维管理系统建设

系统运维工作总结最新[五篇模版]