第一篇:服务器运维年度工作计划
运维部下半年工作计划
为了使运维工作顺利进行,运营部下半年工作计划如下:
1、进一步推进服务器的规划部署、搭建,以及对服务器构架、网络进行优化和调整。
2、利用监控平台nagios实时监控服务器、网络设备及业务系统的运行状态、性能。根据监控和处理结果,及时记录相关信息,定期汇总运营信息。
3、优化公司网络、邮件服务器、语音系统以及解决常见的操作系统、网络和应用故障。
4、负责突发性事件的快速响应和处理,解决服务器和网络故障。
5、与开发人员配合沟通,解决运行过程中的相关问题。
6、对日常运营数据的整理分析,然后对服务器状态监测,游戏出现问题的解决。
7、配合商务及市场部做好相关工作。篇二:运维部2013年终工作总结及2014年工作计划[1] 古交分公司运维部
2013年工作总结及2014年工作计划 2013年运维部在分公司直接领导下及全体部门员工的勤奋努力下,顺利完成网络维护、网络建设、网络安全等任务,有力的保证了古交数字电视及互动业务发展,全年来的工作总结和2014年计划如下:
一、网络维护及建设 1,城农网维护建设 1)、在分公司的正确领导及相关部门的大力支持下,运维部全体人员的勤奋工作。城农网维护截止12月份,运维部共处理用户故障电话报修 次,安装普通用户 户,搬迁用户 户,开通副机用户 户,安装互动用户 户,以旧换新 户,互动副机 户,提高了网络覆盖量,更有力的提升了市场竞争力。2),完成网络新建工程立项 项,实施 项等几个光节点网络覆盖面积,促进了业务发展和业务收入的增加。2,网络优化建设
在分公司领导亲自带领下,全年对全市所辖网络进行了数字互动电视整体转换前的规划与设计。为2014年全面开展互动业务打下一个坚实的基础。对已开通互动业务的小区,加大了维修力度,并对局部不符合条件的小区进行了小范围的局部改造,使其具备开通互动业务的技术条件。通过走访互动用户,普遍反映收视效果良好。
二、机房维护及消防安全工作
1、在分公司分管领导的指导下制定了《机房值班制度》及《机房维护及消防制度》,根据制度明确了机房值班人员,建立和完善各项维护制度和加强机房资料及文档的管理,机房设备检修清扫,做好“三防”工作,确保设备正常运行,保证信号安全传输。
2、积极配合总公司和机房对纤、跳线等工作。对机房进行不定期检查,遇到安全隐患及时排除并上报,遇到节假日和重要传输时期,都做好了安全上报等工作。
3、不定期对机房的消防工作进行安全检查,就一些存在的问题进行了及时整改,消除了存在的安全隐患。
三、加强技术培训,提高队伍素质
运维部承担分公司运维和工程建设的主要队伍,面对工程建设、网络安全等重要任务,要在短时间内保质保量完成,无论是组织工作,还是技术工作都存在较多的难题。为此运维部把开展技术培训作为一项确保工程质量、进度的重要措施来抓,采取走出去请进来的方式,不但多次派员工参加总公司的培训学习,经常利用部门开会时间组织运维人员进行集中学习培训,还和西山分部的运维人员进行面对面经验和技术的交流,提高了维护人员的技能。
四、安全工作方面
1、城农网网络安全
根据城农网网络安全特性制定,明确片区运维人员为城农网网络安全巡查维护人员。片
区运维人员对辖区内的光、电缆进行巡查并作好日志,对存在隐患的地方及时上报。
3、维护人员人生安全
注重安全生产,全年人员无重大伤亡事故发生。运维部多次开展安全学习来加强员工安全生产意识,提高自我保护的能力。
4、车辆安全
运维部严格按照《车辆安全管理办法》来管理车辆,禁止无证驾车,严禁公车私用,严禁酒后驾车,严禁开英雄车等。对分公司运维车辆进行不同程度的修理维护,杜绝带病车辆上路有效加大车辆安全程度。
五、存在问题及不足
1、目前运维部整体须加强思想认识、提高工作效率、提升服务水平。
2、特别注重安全生产,搞好网络干线巡检工作。
3、运维部目前缺乏新技术、新业务的尖端人才,针对下一步的数字双向网络、数据等新业务,加强能承担新的维护任务技术的培训及业务学习。
4、加强运维文档的管理,提高维护质量。做好每月必须及时认真上报的各类报表。
5、随着城区、农村网络的进一步扩大,运维人员不够的问题制约着运维部的快速反应机制。
6、进一步提高运维部人员的福利待遇,提高工作积极性。六、2014年工作计划
1、继续抓好网络维护质量管理和科技维护水平,提高网络运行质量。
2、继续抓好、抓实干线巡查工作。
3、积极配合做好城农网、城区管道网络建设服务等工作的准备开工建设及其他工作任务。
4、按计划搞好网络新建、小区新建的立项及建设和竣工及验收工作。
5、落实运维部的各项管理制度,明确目标管理,理顺工作流程,提高工作效率、提升服务水平。
6、完善安全生产制度,搞好安全生产工作。
古交分公司运维部
程永亮 2014年1月7日篇三:2009年度运维服务能力管理计划 2009年度运维服务能力管理工作计划
根据公司本年度的工作计划,运维部结合本部门的工作实际,及相关的it运维服务工作的改进需求,特制定本年度工作计划,内容共分为四部分,包括:
1、运维管理组织结构
2、运维服务流程
3、应急服务响应措施
4、服务管理制度规范。现具体阐述如下:
一、运维管理组织结构
本运维项目的运维管理结构位三层模式,具体如下图所示。由项目负责人与甲方进行业务范围接洽,并将沟通结果向下传递。项目经理负责项目的整体运维工作,包括各种制度的制定和实施。运维工程师则在项目经理的指导下开展维护工作。1.项目负责人
职责:负责项目商务、整体协调事宜。
职位描述: 1)、整体负责建设单位运维项目服务计划的制定,领导项目经理并安排项目工作,指导项目经理完成具体维护工作,每周听取项目经理的工作汇报,负责考核项目经理工作完成情况。2)、协助建设单位完成新增项目的调研、方案设计并指导项目经理进行具体实施。2.项目经理
职责:规划、执行、完善信息化项目的运维工作,指导网络、数据库维护工程师开展工作。
职位描述: 1)根据公司战略目标,指导下属工程师开展客户服务工作,确保运维工作能够满足客户的实际需要; 2)建立和持续完善运维管理体系,优化运维流程流程,解决运维服务中出现的特殊问题; 3)规划并提升运维工程师专业服务能力,在整体上提高客户满意度; 4)制定和持续完善绩效考核体系; 5)制定整理运维项目的应急预案系统,并指导运维工程师实施; 6)提高自身专业技能,在业务方面给予网络管理员和数据库管理员指导。3.技术主管
职责:应用、数据库管理,oracle性能调优,实现应用负载均衡。职位描述: 1)技术主管非项目常驻人员,根据项目需要进行专业方面
指导;
2)负责数据库性能分析与调优,数据库运行状态监控,及
时发现异常并快速处理。
2)熟练掌握oracle10g的rac技术,能够实现部署及调优。3)掌握was、weblogic、tomcat、websphere等中间件的工
作原理,能够实现部署调优及故障解决。4)熟练掌握red-flag、redhat等linux操作系统,部署 证oracle数据库冗灾、数据保护、故障恢复。5)负责应用负载均衡的部署和调试。6)负责指导数据库工程师管理员开展工作。4.服务台
职责:故障电话受理,文档管理。
职位描述
1)负责it业务的救助电话的受理工作; 2)故障处理的发起人,同时进行维护工程师指派,跟踪事件处理状态; 3)进行维护故障统计、用户满意度统计、工作报表输出等工作; 4)协助项目经理,进行文档整理、归类、保存等工作。5.网络管理员
职责:维护建设单位网络系统正常,解决网络相关故障。
职位描述:
1)对现有服务器、局域网络及机房、配线间的日常管理维护; 2)对信息安全建设提出相关建议,确保网络的安全; 3)保证外网光纤线路正常,保证局域网运行正常; 4)对网络系统和网络设备的运行状态进行监控; 5)熟练掌握域策略设置、dhcp、dns、ftp服务器、ntfs权限设置等; 6)编写网络部分的应用处理预案并实施。7)工作认真、细致,积极主动有条理性,具有良好的沟通能力及团队合作精神.6.应用、数据库管理员
职责:维护建设单位业务系统运行正常,解决应用和数据库故障。职位描述: 1)监测业务系统运行状况,应用、数据库性能监视及优化,作必要调整; 2)规划不同数据的生命周期,制订备份、恢复、迁移和灾备策略,根据业务的需要执行数据转换及迁移等操作;
3)保证应用和数据库系统的安全性、完整性和运行效率。4)负责数据库平台的整体架构及解决方案的制定和实施; 5)工作认真、细致,积极主动有条理性,具有良好的沟通能力及团队合作精神.7.终端管理员
职责:维护建设单位桌面系统运行正常,解决终端、外设故障。职位描述: 1)各部门电脑、打印机、传真机的维护; 2)对各部门职员进行电脑相关的技术支持及培训工作; 3)精通windows xp及office的使用,能够熟练使用excel2003、excel2007及以上版本,能够制作相应教程对其他部门员工进行培训
二、运维服务流程 it运维服务管理流程涉及服务台、事件管理、问题管理、配置管理、变更管理、发布管理、服务级别管理、财务管理、能力管理、可用性管理、服务持续性管理、知识管理及供应商管理等,随着运维活动的不断深入和持续改进,其他流程可能会逐步独立并规范。
三、应急服务响应措施
运维项目组制定了详尽的应急处理预案,整个流程严谨而有序。但在服务维护过程中,意外情况将难以完全避免。我们将对项目实施的突发风险进行详细分析,并且针对各类突发事件,设计了相应的预防与解决措施,同时提供了完整的应急处理流程。1.应急预案实施基本流程篇四:年度运维服务管理计划 2013年度服务管理计划
版权信息
本文件涉及之信息,属xxxx有限公司所有。
未经xxxx通信技术有限公司允许,文件中的任何部分都不能以任何形式向第三方散发。xxx技术有限公司 模板编号:r.qly.103b xxx有限公司 模板编号:r.mat.103b 1.总体介绍 1.1 计划总则 2013年度服务管理计划用于指导公司服务团队在本年度内按照服务级别协议(下简称“sla“)以及服务目录,实施服务管理与服务运营活动。实施服务管理计划的目的是达成公司既定的服务质量目标、规划并合理使用资源、保证业务连续性和it服务连续性、不断改进服务过程。为客户提供稳定、安全、高效运行的业务系统。为建立符合国际/国内服务标准的运维服务体系进行尝试。1.2 适用范围
用于服务管理的全生命周期过程,计划内容在实际执行过程中若有变更,则将适时修改计划内容,并由总经理批准后发布。2.总体概述 2.1 组织架构 xxxx公司运维服务体系组织架构图
具体职能参见《xxxx运维服务体系组织结构图及职责》。2.2 服务目标 xxx有限公司 模板编号:r.mat.103b 3.服务质量管理计划 3.1 服务质量管理活动
为达成服务质量目标,检查运维体系的实施情况,2013年度计划执行的服务质量管理活动有: 3.1.1 运维服务能力内审
审核运维服务活动及其结果是否符合策划的安排,确保运维服务体系的有效性。
运维服务能力内审由质量部负责组织实施。3.1.2 运维服务能力管理评审
管理评审目的是对公司运维服务管理体系进行系统评审,识别并确定各种改进的机会和需要,确保运维服务管理体系持续的适宜性、充分性和有效性。xxx有限公司 模板编号:r.mat.103b 运维服务能力管理评审由管理者代表负责组织实施,质量部协助。3.1.3 运维服务体系过程改进
日常工作中,通过对运维服务项目过程的监督检查,收集服务提供过程中存在的问题,确定运维服务改进的需求。
定期收集和分析运维服务指标完成情况,发现并确定运维服务改进需求。各相关指标,每季进行收集和分析。
对客户反馈意见进行收集和分析(包括满意度调查结果和客户投诉意见),了解客户意见和需求,为改进提供依据。客户满意度调查每季开展一次。
完成2012年度未关闭的过程改进事项,详见《运维服务能力管理改进建议与跟踪表》。3.1.4 服务过程质量监督
质量部通过对运维服务项目进行过程监督检查,及时发现问题并督促问题及时解决和改进,以确保运维服务按服务规范实施并按约交付服务。服务质量监督检查由质量专员制定《项目质量保证计划》,按计划实施并报告。3.2 运维服务质量管理计划 xxx有限公司 模板编号:r.mat.103b篇五:2015年运维部工作计划.修改 2015年工作计划
结合公司今年运营发展的思路,我部门今年将重点提升网络服务质量,提高运维人员综合业务素质。
一 运维部基本情况: 运维部主要维护十二师辖区和乌鲁木齐市区两部分,其中十二师辖区内有五大团场片区,共有用户44126(穿线用户)实际使用用户为35525 ,三网用户2237户,现有维护员13人。
市区维护26个小区,共有用户22570, 现有维护员2 人.二 2014年运维部维修故障分析 2013年全年故障发生共10657起,占总用户数的2.5% ,故障率为,主要分为:马赛克,装修改线,公用电停电,用户光纤损坏,拆迁,机顶盒坏等。1小区共用电停电造成的故障占运维故障的50%,主要原因是:不能及时补电,交纳电费受小区物业的控制.2 用户光纤损坏(人为和自然、工程)占10%,加强日常线路维护。3老机顶盒损坏5%,主要原因,大部分用户是2009年左右的用户,使用寿命已到,造成故障.4 用户装修改线15%造成线路不通,和用户光纤的损坏造成二次熔接。5 拆迁用户的维修10%.6 其他原因占10%.三 2014年机房维护情况说明
现有机房10个,计划新增机房1个,存在的问题,分机房停电不能及时供电第一时间到现场解决故障,存在很大的安全隐患。
四2015年的工作计划
1、重点解快因用电造成的故障,与小区物业部协商取得供电支持,计划在今年年初对辖区内的共用电改造工作。
2、抢修组已做到责任制到片区及时处理光纤故障,做好对用户禁止装修改线的宣传工作。
3、为了提高机房安全运行传输质量,加快建设网路机房监控设施,预计建设现有分机房11个。
4、维护人员的综合业务素质 ,加强培训,年初针对运维网络技术和公司考核管理的培训计划一周一次上半年,下半年两周一次和对新进员工的资质培训,月度考试与工资挂钩,提升运维人员的服务统一标准,5、完善安全生产制度,搞好安全生产工作。(1)每月定期对机房进行寻查、巡检工作。(2)对运维人员不定期抽检技术性工作流程。
6、加强运维人员的市场营销意识,新业务推介与提成.7、今年需建设好主干线的环路(列如:师机房至104团,104团至西山等)和网管系统,做好网络运行质量.。
8、今年运维部计划分5个大片区其中城区26个小区,用户22570户其中现有三网用户1509户,3人一辆车维护,西山、104团三网用 户6211户,3个人维护,头屯河农场三网用户7421户2人维护,三平农场三网用户11360户2人维护,五一农场三网用户7090户,2人维护,抢修组4人一辆车负责5个大片区光缆用户光纤、主干光缆的维修维护,9、今年工程部改造老校区的光纤到户的同时改造维修量较大的老有线电视小区。(列如:五一农场诒心园小区一期,楼兰酒厂,光华学校等)。
10、由于公司的网路不只是传输有线电视还传输了数据业务而且用户不断增加,光缆全部是寄挂或借用在别人的管道和木杆抢修查找断点耽误时间,不能及时修复,由其晚上对运行维修带来很大困难,今年计划建设好主干线的环路(列如:师机房至104团,104团至西山等)和网管系统,做好网络运行质量。
11、积极配合工程部做好城郊主干网、本地传输网、及弱点管道和各团场分机房建设,竣工验收工作及维护等其他工作任务。
12、落实运维部的各项管理制度,明确目标管理,理顺工作流程,为了更好地为用户服务,从而提高用户满意度建立良好的天娱传媒口碑。
第二篇:公司Web服务器运维方案
服务器运维方案(草案)
为配合公司三维互联网生活社区的上线工作,也为了将来更好的对服务器进行管理维护,特制定以下草案:
硬件系统管理
一、服务器运行稳定性
服务器在运往托管商处上架前,应对服务器的稳定性进行全面的测试,包括网站主程序的测试,网站数据库的测试,网站压力测试等多项内容,对服务器的运行稳定性进行检验,在硬件上特别是容易松动的地方进行检查加固。
二、服务器性能
服务器的性能进行全面检测,特别是对服务器处理大批量数据的情况下的CPU的占用率,内存的占用率等进行查看,以确保服务器的性能。
三、服务器软硬兼容性
服务器需用windows sever自带的兼容性检查软件进行兼容性检查,列出兼容性及不兼容的硬件以备查看,特别是自行开发的程序是否有对硬件要求特别严格地方,需跟研发共同商议解决。
四、磁盘阵列等存储设备管理
如服务器有磁盘阵列,需对每块硬盘进行编号,并记录在案,对软件设置中的参数也要进行详细的记录,以备远程维护时指导机房人员进行远程操作。
五、交换机路由设备运行情况管理
该项目应由服务商提供,我方只需知道IP及基本拓扑既可。
六、机柜、电源、网线布局管理
1、服务器上架后,应对服务器进行拍照,确认各线路位置。
2、需对服务器的电源部分进行编号整理。
七、服务器安全
服务器上架前应对服务器各主要部件进行登记编号,如箱体可锁,应上锁,并加盖封条,对于可抽出部分,应详细记录编号。
七、托管机房的联系
应制作托管机房联系人表,对365天24*7内的机房人员、电话、手机登记在案。
网站运行管理
一、网站不间断运行稳定性监测
为了保证网站的稳定性及不间断性应对服务器异动情况进行检测,如服务器有异常可通过邮件或短信通知管理员。
二、域名服务指向管理
我公司有多个域名,为保持网站的稳定性,域名应该有专人统一持有,避免因域名服务指向原因引起的网站访问失效或访问错误的问题。
三、公司所属网站一级、二级、邮件服务器域名指向管理
公司域名的制订规则,公司域名制订后应由专人向域名持有人提供书面修改方案,域名
持有人根据书面修改方案进行修改,修改并对书面文件进行备案,以防责任不清的情况发生。
四、域名DNS转向稳定性监控,DNS性能监控
我公司注册域名因代理商不同,所以DNS转向服务器也不相同,在DNS转向服务器出现问题后应及时寻找解决途径,应对每个域名的DNS转向服务器提供者的联系方式进行备案,方便出现问题后的查找。
五、网站ICP注册管理,其它相关的注册管理
我公司网站属营业性网站,并带有论坛BLOG系统等,应相通信管理局及新闻出版局等部门申请注册管理,并对非法内容进行监管,应有专人负责。
网络通信管理
一、各运营商之间通信瓶颈解决方案与实施
a)互访问题(CDN加速)
b)区域访问限制与瓶颈分析与解决(设立区域服务器进行备份)
二、多线路接入管理
在多线路接入情况下,要及时查看两条线路的状况,避免多线路下单线路访问。
三、网络带宽使用情况监控,各个时段网络带宽流量瓶颈分析
分析各个时段的网络流量,适当的对FTP的流量进行控制,避免高峰时段对网站进行维护,备份以及占内存性操作。
四、带宽预警报告(由托管服务商提供)
a)高峰时段可用带宽报告
b)平均可用带宽报告
服务器软件环境管理
一、操作系统
a)基于Windows Server操作系统升级与配置
采用windows 2003操作系统+SQL2000(系统版权),打SP2/SP4,并装好杀毒软件,FTP软件(盗版问题)等。
b)操作系统稳定性监控
定时查看操作系统日志及IIS日志,查看CPU、内存占用率,保持服务器在正常态。c)权限与文件管理
服务器应明确责任人及管理帐号持有人,不应出现多人单帐户,单人多帐户的情况,不利于在服务器出现问题后,对服务器进行操作维护、查找问题。
二、数据库
a)SQL Server 数据库
应由开发部门配合服务器管理人员共同完成,对所需要的服务,不需要的服务,SA的密码应强调持有人及管理方式,避免人为漏洞的出现。
c)数据库备份
数据备份不同于服务器硬盘的备份,该备份需对数据库直接进行操作,应由专人定时完成,因备份占用内存较大,也不易在访问量大的情况下进行。
d)访问性能优化及数据库同步
性能优化及参数调整由开发部门完成,服务器管理人员需记录详细的设置;数据库如
需要同步,应明确同步时间或实时同步等方式。
三、用户管理
a)ftp用户管理
应由专人出具书面文档给服务器管理人员,由服务器管理人员进行操作,并留档。b)远程登录用户管理
该帐户应由专人控制管理,严格控制在一台或几台客户机上登陆,严格禁止管理人员从非办公地点登陆。
c)SQL Server数据库用户管理
该帐户由数据库管理员控制,数据库管员应指定。
d)操作系统用户管理
该帐户由服务器管理人员控制,服务器管理人员应明确。
四、WEB服务系统
a)IIS服务系统(6.0)
i..Net模块配置与更新
配合开发人员配置.net到可用的版本及更新
ii.操作系统模块配置与更新
配合开发人员配置操作系统到可用的版本及更新
iii.操作系统及IIS权限设置(该权限设置较多,需建立专门的文档)详细设置见附带技术文档(资料过多来得及整理)。
iv.配合开发人员解决服务错误日志中的问题
五、Mail系统(属已上项目)
a)邮件收发稳定性管理
现有邮件系统稳定性不够,应着重从服务器方面问题入手
b)与其它网络运营商互发通信管理
c)邮件发送日志分析,解决邮件无法发送的问题
网络与服务器负载(暂未实施计划)
一、架构服务器负载解决方案
a)服务器群集解决方案:服务器构建、硬件设备
b)硬件负载均衡
c)多层次上的负载均衡
d)与第三方合作的负载均衡
e)配合网站开发人员制定缓存机制与策略
二、负载均衡实施与管理
a)WEB服务器负载均衡系统建立管理
b)数据库负载均衡系统建立管理
c)数据同步(我公司主要用于数据库同步)
服务器安全措施
一、各种服务的访问与运行日志分析
a)系统日志分析
对登陆以及访问明细都需要进行审计,并定时分析,清除。
b)网站WEB服务器错误、访问日志分析、IIS日志分析,主要分析有无漏洞、有无ASP木马、跨站攻击等迹象出现。c)数据库查询日志分析
二、文件上传管理
三、端口管理与监控
四、防火墙行为监控
五、第三方软件防木马、病毒测试与监控
六、网站程序脚本漏洞监控
七、系统及数据库用户权限分配与安全管理
八、防非法攻击措施
九、备份与容灾
该备份应由专人按定时完成,应选择服务器访问量不大的时候进行。
亦可采用计划任务的方式,由服务器自动完成,由管理员按时检查,删除非增量。
第三篇:运维工作计划
篇一:2015年运维部工作计划.修改 2015年工作计划
结合公司今年运营发展的思路,我部门今年将重点提升网络服务质量,提高运维人员综合业务素质。
一 运维部基本情况: 运维部主要维护十二师辖区和乌鲁木齐市区两部分,其中十二师辖区内有五大团场片区,共有用户44126(穿线用户)实际使用用户为35525,三网用户2237户,现有维护员13人。市区维护26个小区,共有用户22570, 现有维护员2 人.二 2014年运维部维修故障分析
2013年全年故障发生共10657起,占总用户数的2.5% ,故障率为,主要分为:马赛克,装修改线,公用电停电,用户光纤损坏,拆迁,机顶盒坏等。
1小区共用电停电造成的故障占运维故障的50%,主要原因是:不能及时补电,交纳电费受小区物业的控制.2 用户光纤损坏(人为和自然、工程)占10%,加强日常线路维护。
3老机顶盒损坏5%,主要原因,大部分用户是2009年左右的用户,使用寿命已到,造成故障.4 用户装修改线15%造成线路不通,和用户光纤的损坏造成二次熔接。5 拆迁用户的维修10%.6 其他原因占10%.三 2014年机房维护情况说明 现有机房10个,计划新增机房1个,存在的问题,分机房停电不能及时供电第一时间到现场解决故障,存在很大的安全隐患。四2015年的工作计划
1、重点解快因用电造成的故障,与小区物业部协商取得供电支持,计划在今年年初对辖区内的共用电改造工作。
2、抢修组已做到责任制到片区及时处理光纤故障,做好对用户禁止装修改线的宣传工作。
3、为了提高机房安全运行传输质量,加快建设网路机房监控设施,预计建设现有分机房11个。
4、维护人员的综合业务素质 ,加强培训,年初针对运维网络技术和公司考核管理的培训计划一周一次上半年,下半年两周一次和对新进员工的资质培训,月度考试与工资挂钩,提升运维人员的服务统一标准,5、完善安全生产制度,搞好安全生产工作。(1)每月定期对机房进行寻查、巡检工作。(2)对运维人员不定期抽检技术性工作流程。
6、加强运维人员的市场营销意识,新业务推介与提成.7、今年需建设好主干线的环路(列如:师机房至104团,104团至西山等)和网管系统,做好网络运行质量.。
8、今年运维部计划分5个大片区其中城区26个小区,用户22570户其中现有三网用户1509户,3人一辆车维护,西山、104团三网用户6211户,3个人维护,头屯河农场三网用户7421户2人维护,三平农场三网用户11360户2人维护,五一农场三网用户7090户,2人维护,抢修组4人一辆车负责5个大片区光缆用户光纤、主干光缆的维修维护,9、今年工程部改造老校区的光纤到户的同时改造维修量较大的老有线电视小区。(列如:五一农场诒心园小区一期,楼兰酒厂,光华学校等)。
10、由于公司的网路不只是传输有线电视还传输了数据业务而且用户不断增加,光缆全部是寄挂或借用在别人的管道和木杆抢修查找断点耽误时间,不能及时修复,由其晚上对运行维修带来很大困难,今年计划建设好主干线的环路(列如:师机房至104团,104团至西山等)和网管系统,做好网络运行质量。
11、积极配合工程部做好城郊主干网、本地传输网、及弱点管道和各团场分机房建设,竣工验收工作及维护等其他工作任务。
12、落实运维部的各项管理制度,明确目标管理,理顺工作流程,为了更好地为用户服务,从而提高用户满意度建立良好的天娱传媒口碑。
运维部
2015年11月8日篇二:运维部下半年工作计划 运维部下半年工作计划
为了使运维工作顺利进行,运营部下半年工作计划如下:
1、进一步推进服务器的规划部署、搭建,以及对服务器构架、网络进行优化和调整。
2、利用监控平台nagios实时监控服务器、网络设备及业务系统的运行状态、性能。根据监控和处理结果,及时记录相关信息,定期汇总运营信息。
3、优化公司网络、邮件服务器、语音系统以及解决常见的操作系统、网络和应用故障。
4、负责突发性事件的快速响应和处理,解决服务器和网络故障。
5、与开发人员配合沟通,解决运行过程中的相关问题。
6、对日常运营数据的整理分析,然后对服务器状态监测,游戏出现问题的解决。
7、配合商务及市场部做好相关工作。篇三:2009运维服务能力管理计划 2009运维服务能力管理工作计划
根据公司本的工作计划,运维部结合本部门的工作实际,及相关的it运维服务工作的改进需求,特制定本工作计划,内容共分为四部分,包括:
1、运维管理组织结构
2、运维服务流程
3、应急服务响应措施
4、服务管理制度规范。现具体阐述如下:
一、运维管理组织结构
本运维项目的运维管理结构位三层模式,具体如下图所示。由项目负责人与甲方进行业务范围接洽,并将沟通结果向下传递。项目经理负责项目的整体运维工作,包括各种制度的制定和实施。运维工程师则在项目经理的指导下开展维护工作。1.项目负责人职责:负责项目商务、整体协调事宜。职位描述: 1)、整体负责建设单位运维项目服务计划的制定,领导项目经理并安排项目工作,指导项目经理完成具体维护工作,每周听取项目经理的工作汇报,负责考核项目经理工作完成情况。2)、协助建设单位完成新增项目的调研、方案设计并指导项目经理进行具体实施。2.项目经理
职责:规划、执行、完善信息化项目的运维工作,指导网络、数据库维护工程师开展工作。职位描述:
1)根据公司战略目标,指导下属工程师开展客户服务工作,确保运维工作能够满足客户的实际需要;
2)建立和持续完善运维管理体系,优化运维流程流程,解决运维服务中出现的特殊问题; 3)规划并提升运维工程师专业服务能力,在整体上提高客户满意度; 4)制定和持续完善绩效考核体系;
5)制定整理运维项目的应急预案系统,并指导运维工程师实施;
6)提高自身专业技能,在业务方面给予网络管理员和数据库管理员指导。
3.技术主管职责:应用、数据库管理,oracle性能调优,实现应用负载均衡。职位描述: 1)技术主管非项目常驻人员,根据项目需要进行专业方面 指导;
2)负责数据库性能分析与调优,数据库运行状态监控,及 时发现异常并快速处理。
2)熟练掌握oracle10g的rac技术,能够实现部署及调优。3)掌握was、weblogic、tomcat、websphere等中间件的工 作原理,能够实现部署调优及故障解决。
4)熟练掌握red-flag、redhat等linux操作系统,部署 oracle10g、mysql数据库。熟练掌握dataguard技术,保 证oracle数据库冗灾、数据保护、故障恢复。5)负责应用负载均衡的部署和调试。
6)负责指导数据库工程师管理员开展工作。4.服务台
职责:故障电话受理,文档管理。职位描述
1)负责it业务的救助电话的受理工作;
2)故障处理的发起人,同时进行维护工程师指派,跟踪事件处理状态; 3)进行维护故障统计、用户满意度统计、工作报表输出等工作; 4)协助项目经理,进行文档整理、归类、保存等工作。5.网络管理员
职责:维护建设单位网络系统正常,解决网络相关故障。职位描述: 1)对现有服务器、局域网络及机房、配线间的日常管理维护; 2)对信息安全建设提出相关建议,确保网络的安全; 3)保证外网光纤线路正常,保证局域网运行正常; 4)对网络系统和网络设备的运行状态进行监控;
5)熟练掌握域策略设置、dhcp、dns、ftp服务器、ntfs权限设置等; 6)编写网络部分的应用处理预案并实施。
7)工作认真、细致,积极主动有条理性,具有良好的沟通能力及团队合作精神.6.应用、数据库管理员
职责:维护建设单位业务系统运行正常,解决应用和数据库故障。职位描述: 1)监测业务系统运行状况,应用、数据库性能监视及优化,作必要调整;
2)规划不同数据的生命周期,制订备份、恢复、迁移和灾备策略,根据业务的需要执行数据转换及迁移等操作;
3)保证应用和数据库系统的安全性、完整性和运行效率。4)负责数据库平台的整体架构及解决方案的制定和实施;
5)工作认真、细致,积极主动有条理性,具有良好的沟通能力及团队合作精神.7.终端管理员职责:维护建设单位桌面系统运行正常,解决终端、外设故障。职位描述: 1)各部门电脑、打印机、传真机的维护;
2)对各部门职员进行电脑相关的技术支持及培训工作; 3)精通windows xp及office的使用,能够熟练使用excel2003、excel2007及以上版本,能够制作相应教程对其他部门员工进行培训
二、运维服务流程
it运维服务管理流程涉及服务台、事件管理、问题管理、配置管理、变更管理、发布管理、服务级别管理、财务管理、能力管理、可用性管理、服务持续性管理、知识管理及供应商管理等,随着运维活动的不断深入和持续改进,其他流程可能会逐步独立并规范。
三、应急服务响应措施
运维项目组制定了详尽的应急处理预案,整个流程严谨而有序。但在服务维护过程中,意外情况将难以完全避免。我们将对项目实施的突发风险进行详细分析,并且针对各类突发事件,设计了相应的预防与解决措施,同时提供了完整的应急处理流程。1.应急预案实施基本流程
第四篇:linux服务器故障之运维经验总结
服务器故障之运维经验总结
作为一个运维人员,遇到服务器故障是在所难免的,要是再赶上修复时间紧、奇葩的技术平台、缺少信息和文档,基本上这过程都会惨痛到让我们留下深刻的记忆。当出现此类问题时,应该如何处理?本文给大家详尽的分析了一下,一起来看看。
我们团队为上一家公司承担运维、优化和扩展工作的时候,我们碰到了各种不同规模的性能很差的系统和基础设备(大型系统居多,比如CNN或者世界银行的系 统)。要是再赶上修复时间紧、奇葩的技术平台、缺少信息和文档,基本上这过程都会惨痛到让我们留下深刻的记忆。
遇到服务器故障,问题出现的原因很少可以一下就想到。我们基本上都会从以下步骤入手:
一、尽可能搞清楚问题的前因后果
不要一下子就扎到服务器前面,你需要先搞明白对这台服务器有多少已知的情况,还有故障的具体情况。不然你很可能就是在无的放矢。
必须搞清楚的问题有:
故障的表现是什么?无响应?报错? 故障是什么时候发现的? 故障是否可重现?
有没有出现的规律(比如每小时出现一次)
最后一次对整个平台进行更新的内容是什么(代码、服务器等)?
故障影响的特定用户群是什么样的(已登录的, 退出的, 某个地域的…)? 基础架构(物理的、逻辑的)的文档是否能找到?
是否有监控平台可用?(比如Munin、Zabbix、Nagios、New Relic… 什么都可以)
是否有日志可以查看?.(比如Loggly、Airbrake、Graylog…)
最后两个是最方便的信息来源,不过别抱太大希望,基本上它们都不会有。只能再继续摸索了。
二、有谁在? $ w$ last 用这两个命令看看都有谁在线,有哪些用户访问过。这不是什么关键步骤,不过最好别在其他用户正干活的时候来调试系统。有道是一山不容二虎嘛。(ne cook in the kitchen is enough.)
三、之前发生了什么? $ history
查看一下之前服务器上执行过的命令。看一下总是没错的,加上前面看的谁登录过的信息,应该有点用。另外作为admin要注意,不要利用自己的权限去侵犯别人的隐私哦。到这里先提醒一下,等会你可能会需要更新 HISTTIMEFORMAT 环境变量来显示这些命令被执行的时间。对要不然光看到一堆不知道啥时候执行的命令,同样会令人抓狂的。
四、现在在运行的进程是啥? $ pstree-a$ ps aux
这都是查看现有进程的。ps aux 的结果比较杂乱,pstree-a 的结果比较简单明了,可以看到正在运行的进程及相关用户。
五、监听的网络服务
$ netstat-ntlp$ netstat-nulp$ netstat-nxlp
我一般都分开运行这三个命令,不想一下子看到列出一大堆所有的服务。netstat-nalp倒也可以。不过我绝不会用 numeric 选项(鄙人一点浅薄的看法:IP 地址看起来更方便)。找到所有正在运行的服务,检查它们是否应该运行。查看各个监听端口。在netstat显示的服务列表中的PID 和 ps aux 进程列表中的是一样的。
如果服务器上有好几个Java或者Erlang什么的进程在同时运行,能够按PID分别找到每个进程就很重要了。
通常我们建议每台服务器上运行的服务少一点,必要时可以增加服务器。如果你看到一台服务器上有三四十个监听端口开着,那还是做个记录,回头有空的时候清理一下,重新组织一下服务器。
六、CPU 和内存
$ free-m$ uptime$ top$ htop 注意以下问题:
还有空余的内存吗? 服务器是否正在内存和硬盘之间进行swap?
还有剩余的CPU吗? 服务器是几核的? 是否有某些CPU核负载过多了? 服务器最大的负载来自什么地方?平均负载是多少?
七、硬件
$ lspci$ dmidecode$ ethtool
有很多服务器还是裸机状态,可以看一下:
找到RAID 卡(是否带BBU备用电池?)、CPU、空余的内存插槽。根据这些情况可以大致了解硬件问题的来源和性能改进的办法。
网卡是否设置好? 是否正运行在半双工状态? 速度是10MBps? 有没有 TX/RX 报错?
八、IO 性能
$ iostat-kx 2$ vmstat 2 10$ mpstat 2 10$ dstat--top-io--top-bio 这些命令对于调试后端性能非常有用。
检查磁盘使用量:服务器硬盘是否已满? 是否开启了swap交换模式(si/so)?
CPU被谁占用:系统进程? 用户进程? 虚拟机?
dstat 是我的最爱。用它可以看到谁在进行 IO: 是不是MySQL吃掉了所有的系统资源? 还是你的PHP进程?
九、挂载点 和 文件系统
$ mount$ cat /etc/fstab$ vgs$ pvs$ lvs$ df-h$ lsof +D / /* beware not to kill your box */
一共挂载了多少文件系统?
有没有某个服务专用的文件系统?(比如MySQL?)
文件系统的挂载选项是什么: noatime? default? 有没有文件系统被重新挂载为只读模式了?
磁盘空间是否还有剩余?
是否有大文件被删除但没有清空?
如果磁盘空间有问题,你是否还有空间来扩展一个分区?
十、内核、中断和网络
$ sysctl-a | grep...$ cat /proc/interrupts$ cat /proc/net/ip_conntrack /* may take some time on busy servers */$ netstat$ ss-s
你的中断请求是否是均衡地分配给CPU处理,还是会有某个CPU的核因为大量的网络中断请求或者RAID请求而过载了?
SWAP交换的设置是什么?对于工作站来说swappinness 设为 60 就很好, 不过对于服务器就太糟了:你最好永远不要让服务器做SWAP交换,不然对磁盘的读写会锁死SWAP进程。
conntrack_max 是否设的足够大,能应付你服务器的流量? 在不同状态下(TIME_WAIT, …)TCP连接时间的设置是怎样的? 如果要显示所有存在的连接,netstat 会比较慢,你可以先用 ss 看一下总体情况。
你还可以看一下 Linux TCP tuning 了解网络性能调优的一些要点。
十一、系统日志和内核消息
$ dmesg$ less /var/log/messages$ less /var/log/secure$ less /var/log/auth
查看错误和警告消息,比如看看是不是很多关于连接数过多导致? 看看是否有硬件错误或文件系统错误?
分析是否能将这些错误事件和前面发现的疑点进行时间上的比对。
十二、定时任务
$ ls /etc/cron* + cat$ for user in $(cat /etc/passwd | cut-f1-d:);do crontab-l-u $user;done
是否有某个定时任务运行过于频繁? 是否有些用户提交了隐藏的定时任务?
在出现故障的时候,是否正好有某个备份任务在执行?
十三、应用系统日志
这里边可分析的东西就多了, 不过恐怕你作为运维人员是没功夫去仔细研究它的。关注那些明显的问题,比如在一个典型的LAMP(Linux+Apache+Mysql+Perl)应用环境里:
Apache & Nginx;查找访问和错误日志, 直接找 5xx 错误, 再看看是否有 limit_zone 错误。
MySQL;在mysql.log找错误消息,看看有没有结构损坏的表,是否有innodb修复进程在运行,是否有disk/index/query 问题.PHP-FPM;如果设定了 php-slow 日志, 直接找错误信息(php, mysql, memcache, …),如果没设定,赶紧设定。
Varnish;在varnishlog 和 varnishstat 里, 检查 hit/miss比.看看配置信息里是否遗漏了什么规则,使最终用户可以直接攻击你的后端?
HA-Proxy;后端的状况如何?健康状况检查是否成功?是前端还是后端的队列大小达到最大值了?
结论
经过这5分钟之后,你应该对如下情况比较清楚了:
在服务器上运行的都是些啥?
这个故障看起来是和 IO/硬件/网络 或者 系统配置(有问题的代码、系统内核调优, …)相关。
这个故障是否有你熟悉的一些特征?比如对数据库索引使用不当,或者太多的apache后台进程。
你甚至有可能找到真正的故障源头。就算还没有找到,搞清楚了上面这些情况之后,你现在也具备了深挖下去的条件。当然还可以借助ITIL工具对CMDB资产的关联进行深入分析。继续努力吧!
第五篇:运维部门工作计划
运维部门工作计划(精选多篇)
运维部2014年下半年工作计划
2014年4月2日至3日,省邮政公司召开了“2014年计划建设及信息网运维工作会议”,及时布署了2014年的相关工作。黄石邮政局计划4月14日至18日,按一天会议时间,召开2014的工作总结及2014的工作布署会,会中及时传达和贯彻省公司相关会议精神。
要求陈进一同志4月11日之前完成信息网运维工作2014的总结及2014的工作安排,并提交到公司邮箱,总部将及时审议并至迟下星期一提交到黄石邮政局计财科,供其作会前准备使用。
完成情况:陈进一同志已按时完成
运维部2014年下半年工作计划
依据 “改革为动力、以创新促发展、以管理创效益”的2014年部门工作总体思路,突出抓好奥运期间信息网、邮运网的运行安全,在上半年完成的工作基础上继续推进以下几方面的工作:
一、信息网方面:
1、进一步加强信息网运行维护管理工作,确保信息网的安全运行。
2、继续做好信息网的建设和应用工作,加强长效业务和高效业务的科技开发和支撑力度,着力推进科技项目转化为生产力的工作。
3、进一步加强邮政设备和计算机网运维基础管理工作。
4、继续抓好应用软件开发工作。
5、进一步做好邮政设备和计算机网组巡工作。
6、为有效地支持新建、改建网点建设,将配合相关部门参与建设方案中线路、设备的布局设计,根据需要拟订
计划,组织做好网点改造过程中设备的安装、调试等工作。
7、继续组织做好全局设备的管理工作。
8、根据江苏省邮政信息网管理运行维护指标体系,并结合部门kpi指标要求,完成综合网、金融网运行维护管理工作,确保综合网、金融网的安全运行,各项技术和运行指标达标。
二、邮运网方面:
1、进一步巩固和完善邮运网路组织,继续加强网络运行管理。
2、进一步完善邮件分拣封发体制、关系。城区投递局进一步实施分拣前置,提高封发质量和封发的有效性,达到全面提高网络运行效益和效率的目的。
3、进一步加强中心局生产作业系统运行质量的管理。
4、完善邮区中心局生产作业系统应急机制。
5、深化和扩大邮区中心局“三化”改革的成果,在速递内部处理环节实施
“三化”改革,提高速递专业的市场竞争能力、实现速递生产管理从简单粗放向科学精细转变。根据生产流程和操作管理工作,修改完善“三化”实施方案,并强化对执行情况的监督检查,全面提高网络运行质量和综合管理水平。
三、车辆方面:
1、完善和健全车辆的基础管理制度,规范车辆使用,做好车辆管理规范化、标准化工作。结合我局的特点,进一步细化,制订符合我局实际的邮政车辆管理制度、考核办法,规范基础管理资料,提高车辆的管理水平。
2、继续开展车辆检查工作,做到制度化,经常化,努力提高车辆的完好率。
3、加强邮政车辆动态管理。加强对车辆运行、维护、消耗、新旧程度等情况的分析,及时掌握车辆的动态,以提高车辆管理的科学性。
五、其他工作
1、加强对基层的的调研工作。深
入到挂钩单位了解生产、经营等情况,帮助分析、解决提出的实际问题,促进其业务的发展。
2、完成对全区相关责任单位08的考核工作。
3、编制09年部门工作计划,制订相关预算工作。
4、做好邮政储蓄银行独立运行、速递一体化运行过程中的支撑工作。
5、加强奥运期间,信息网、邮运网和车辆性能安全运行的定期或不定期的检查工作。
6、加强对县局的对应管理。
7、完成局交办的其他工作。
运 行 维 护 部
二〇一四年六月二十四日
运维部下半年工作计划
为了使运维工作顺利进行,运营部下半年工作计划如下:
1、进一步推进服务器的规划部署、搭建,以及对服务器构架、网络进行优化和调整。
2、利用监控平台nagios实时监控服务器、网络设备及业务系统的运行状态、性能。根据监控和处理结果,及时记录相关信息,定期汇总运营信息。
3、优化公司网络、邮件服务器、语音系统以及解决常见的操作系统、网络和应用故障。
4、负责突发性事件的快速响应和处理,解决服务器和网络故障。
5、与开发人员配合沟通,解决运行过程中的相关问题。
6、对日常运营数据的整理分析,然后对服务器状态监测,游戏出现问题的解决。
7、配合商务及市场部做好相关工作。
运维计划
为了使得运维工作顺利进行,运营部在运维前期作出运维前期计划,列出几点工作,与安全部商讨运维将如何开展,并成立运维小组,小组成员由余亮和殷海宾组成。
1、安全部负责服务器搭建。
2、安全部负责服务器测试。
3、安全部负责利用监控平台实时监控服务器、网络设备及业务系统相关设备的运行状态、性能。
4、安全部负责根据监控和处理结果,及时记信息。
5、运营部负责记录运营日志并根据运营日志,定期汇报运营信息。
6、安全部负责解决常见的操作系统、网络和应用故障。
7、安全部负责游戏服务器的规划部署,对服务器构架和网络进行优化和改进。
8、安全部负责突发性事件的快速响应和处理,解决服务器和网络故障。
9、运营部负责游戏日常技术运营维护、事务处理。
10、运营部负责游戏相关数据的分析和总结。
11、运营部与开发人员配合沟通,解决相关游戏问题。
12、运营部对日常运营数据的整理分析,然后服务器状态监测,游戏出现问题的解决。
13、运营部负责定时充值统计,道具消耗统计等等游戏的用户数据的统计。
14、运营部负责服务器状态监督,比如多长时间达到满服,要增加服务器都需要报告,或者游戏运营过程有问题都要及时和版本沟通,然后和产品经理沟通以及测试。
15、工作时间为24小时倒班制。
16、信息安全负责运维的硬件操作,运营部负责运维软件操作。备注:运营部享有除公司外最高决定权。
运营部殷海宾2014-11-1
如何开展运维工作
运维工作主要由计划性检修和突发性故障构成。加强计划性检修,可以有效减少突发性故障。
运维工作工作的重点应是计划性检修。有计划的运维工作主要是通过以
下四个环节开展。
一、计划的制定。计划按关系分为整体计划和子计划。大目标和小目标,有针对性地,大系统的运维计划之下可细化为各个专业组的工作计划,比如大型科技类场馆的展陈运维的大计划下,可细化为强电系统、弱电系统、机电系统、基础装饰系统等各专业组的小计划;按时间分为年计划、季计划、周计划等。年计划是全年的目标和工作安排,一般只在开展工作种类和开展时间上作大致安排;季计划,则将计划中规定的修理项目进一步具体化;周计划主要是按实际需要临时安排的工作计划,如针对近期设备运行情况临时制定的检修计划等。现代场馆运维多采用招标外包团队的模式,借助专业的第三方来完成维保工作,在计划的制定上做为甲方运维人员需要审核计划的可行性和科学性,并指导、协助外包团队修正工作计划。
二、计划的落实。计划制定后重在落实。计划的落实主要体现在计划工作 的内容、计划时间、所需工时、负责人和主要参与人员、准备工作,以及计划完成后的验收标准等。在计划的执行过程中应该有相关的书面记录生成,存档备查。在计划的执行过程中
如有新情况出现应及时调整计划并落实。计划的落实过程中涉及的物品设备,要有计划性采购储备,这就涉及到备品备件管理,运维工作中应建立完善的备品备件管理制度,合理有效地管理备品备件。在保证运维需要的前提下减少库存,降低成本。结合单位的财务制度,明确采购、入库、出库、报废、盘库等一系统制度流程,并按要求落实。
三、执行监督。指在运维工作开展过程中,应该加强对运维团队的监督管理,以保证安全生产。主要监督运维团队有无按计划开展工作,工作过程中有无违规操作,有无安全隐患;工作过程有无按要求形成相关记录;以及最终有无完成运维任务,是否达标等。
四、培训考核。加强对运维团队的
培训是使之能顺利完成工作的保障。由于现代大型科技类场馆所涉及的设备品种多,数量大,应用复杂等特点,所以应对运维团队进行持续性培训,使之能及时掌握相应的专业知识和掌握设备运行的最新状况。此外对运维团队的管理应引入考核的机制,包括培训后的考核和日常工作绩效的考核。考核应是有据可依,有明确的、无异议的、合理的考核标准。
处理突发故障,首先要冷静处理,缕清开展工作地思路。根据以往维修经验和专业知识,在最短时间内判断故障点,判断不清时要有步骤地排查,避免无序乱查;合理安排维修人员,提高效率。对于突发故障中所涉及设备或部件,应建立应急采购机制,包括流程、途径等,以提高故障处理效率,减少对正常开馆的影响。
此外,运维中还有两个重点:应急预案的制定及演练、备品备件 的管理。
应急预案,针对运维过程中可能会出现的紧急情况,应该制定切实可行且行之有效的应急预案,并在保证日常工作的情况下进行演练。以保障在紧急情况发生时有序地开展工作,排除情况。运维中常说一句话“不怕出问题,就怕出了问题不知该怎么办。”