第一篇:智能化运维之IT系统统一监控预研报告
IT系统统一监控预研报告
目录
IT系统统一监控预研报告..........................................................................................1 1 2 2.1 2.2 2.3 3 引言....................................................................................................................3平台建设的目标..................................................................................................3 建立健全企业IT运行监测指标体系.................................................................3 完善公司业务监测指标体系,保障业务连续性.................................................4 管理业务系统容量...........................................................................................5平台架构.............................................................................................................5
3. 1平台技术架构...............................................................................................5 3.1.1 3.1.2 3.1.3 采集层..........................................................................................................6 处理层..........................................................................................................6 展现层..........................................................................................................6
3.2平台功能架构....................................................................................................7 4 对新核心系统建设的要求....................................................................................8
4.1规范系统日志输出.............................................................................................8 4.3 提供服务持续可用性监控方法........................................................................10 5 结论..................................................................................................................11 引言
随着信息系统规模持续扩大,业务应用的不断增加,服务用户对象的日益增多,IT运维管理人员逐渐面临着三大难题:
(1)设备和业务种类繁多,各类资料信息分散,导致位于一线的IT运维监控人员感知故障的速度晚于信息系统的使用用户,且故障发生后缺乏对信息系统的整体把控;而后台管理人员也往往因为信息系统性能数据和故障数据的匮乏而缺少对系统运行健康度的了解。
(2)核心机房可能分布于多个地点,部署范围广泛,设备繁杂,对于大批最网络设备、主机服务器、应用系统没有一个统一的监控平台,不能制定统一的故障预警管理策略,故障预警效率低,业务恢复时间慢;
(3)对关键核心业务系统的运行健康程度缺乏评估手段和预警措施,只能被动等待问题发生,无法提前采取技术手段和管理手段规避问题。
在此背景下,总分公司一线运维人员数量多但是经验不足,后台运维工程师经验丰富但是数量少,这些矛盾促使我司在新系统建设时需同步建设一套一体化的IT运维监控和服务预警平台,协助以自动化的手段完成信息系统的监测和维护。平台建设的目标
2.1 建立健全企业IT运行监测指标体系
首先,平台的主要目标是加大对公司内部各遗留及专有监控系统的整合力度,提高IT运控中心对公司内其他分支机构IT系统管理、检测和把控能力,建立并完善IT系统监控、IT运行事件响应、IT系统故障处理、IT健康度报告、IT运行问题跟踪和反馈机制,引人自动化IT运维管理工具,从而在公司内部建立健全运行管理控制能力,实现IT健康度和业务连续性治理。
在此基础上,进一步优化监控策略,实现对设备及服务项全面、细粒度的监测,预警和管理,主要包含以下方面:
(1)打造多平台环境下安全稳定髙效的检测代理及检测工具;(2)在实现对各类业务系统、硬件和网络设备、机房环境等实时检测的基础上,完善对新核心系统的全流程监控,根据性能数据进行预警,并将性能数据和故障数据引入事件管理平台进行后续治理,以可视化的方式向运维人员提供一览式的IT服务健康状况视图;
(3)构建集成监控平台,对平台的检测插件、检测机制、预警算法、视图展现等监控资源进行统一管理,实现大屏集中式告警,便于后台管理人员直观地看到系统整体健康程度;通过视图的灵活组合可以快速定位故障点,结合知识库缩短处理时间。
因此,IT运维自动化是一组将静态的设备结构转化为根据IT服务需求动态弹性响应的策略,目的就是实现IT运维的质量,降低成本。
2.2 完善公司业务监测指标体系,保障业务连续性
随着公司信息化的发展,IT技术已经从业务支持逐步走向与业务的融合,并成为公司稳健运营和发展的支柱。公司内部很多业务流程都已经在IT部门的支持下实现了流程的再造和优化,提炼并制定了相应的流程图、流程文件及流程运作机制。但是目前我们对于公司内部业务风险的管控尚处在初步阶段。各类业务流程依然面临着来自内部和外部的各种业务风险。例如内部业务风险主要来自于员工和服务商对信息系统的不当应用,如非授权操作或误操作;外部业务风险主要来自于外部的不安全事件,如黑客攻击、机房环境变化等。对应用系统进行业务监控,能够及时识别业务风险,有效进行相应的主动规避操作,避免造成损失。
2.3 管理业务系统容量
通过业务监控平台可以密切监控业务系统性能,包括系统的业务处理量、处理性能、各资源使用状况等,通过对系统资源瓶颈的分析,可以降低或提高业务系统容量; 平台架构
3. 1平台技术架构
运维平台能够对各类计算机设备、网络设备、安全产品、应用系统等IT设备运行状况和各种网上行为进行集中监控,对各类设备进行全面集中的统一管理,及时发现各类异常情况、快速定位各类事件故障并自动形成“工单”、自动分派,再由调度系统进行分派,由系统按预定流程规则进行自动化处理或人工处理的运维业务信息管理系统。使运维工作由被动变主动,由手动处理变成自动处理,并大大降低了运维人员的工作强度,具备良好的延展性,如下图所示:
如上图所示,一体化运维监控平台的系统整体框架由下及上划分为3层数据采集息(采集层)、数据处理层(处理层)和数据使用层(展现层)。此外,通过平台的管理控制台,在各个层面都能够对平台进行全方位的配置管理。
3.1.1 采集层
采集层主要负责采集信息系统的性能数据和故障数据,通过在信息系统服务器上部署Agent,或者通过SNMP协议采集等多种方式与外围系统对接,获取所述基础数据。采集层被动地接收平台服务器发出的采集指令,执行相关的信息采集插件,将采集到的数据放人队列和数据库中,便于后续的分析和数据挖掘。
3.1.2 处理层
数据处理层根据不同监控对象的自身特点和运维管理需要,灵活定制相应的性能指标集,定义所述性能指标集中每个指标的监测范围、数据来源, 计算方法、预警阈值、测量频度参数,通过实时和历史性能图表,进行监测、分析和确定系统性能瓶颈,若超过预警阈值的状况,自动建立事件,并通知运维人员,由调度系统进行指派,由运维人员手动处理或按照流程规则由自动化运维工具处理。
3.1.3 展现层
展现层分信息系统全局视图、系统健康度巡检报表、检测数据査询三个部分。全局视图可以展现实时监视告警情况,利用巡检报表,系统管理员可以分析系统性能状况,并记录进事件管理平台。上述综合展示通过业务视图、逻辑拓扑、重要设备、告警统计各个不同视图,将运维管理工作所关注的内容有序、实时、全面地呈现出信息系统资源和业务系统的整体运行状况。3.2平台功能架构
一体化IT运维监控模型基于松耦合体系架构,采取灵活模块化组装、云计算灵活部署结构,实现“监控、管理、管控”三个方面协同处理过程,其功能架构如下:统一访问门户通过一次登录,即可对所有的平台功能进行操作,针对不同的登录用户,可以提供专门的个人桌面和辅助工具。
监测台可以定义服务视图,将性能,流量,报表,拓扑等系统管理所关心的信息在不同样式的视图上集中体现出来。
运行服务平台以IT管理流程为核心,对运维的主要工作进行规范化的管理,并实现设备维修、值班的管理。
统一事件管理平台能够提供统一的企业级网络事件管理。通过从各种网络设备和管理平台收集网络事件信息,并进行必要的分析和自动化处理工作。
集成数据网管系统,提供数据网管标准接口以供信息交互,完成事件的统一管理,使网络和系统中的各种资源得到更加高效的利用和综合管理。
系统管理提供对服务器、存储设备、操作系统、数据库、中间件、综合管理,实现系统故障告警管理、系统性能管理、拓扑与配置管理。
接收来自防火墙、人侵检测、端口扫描等安全系统的告警,并将这些告警实时呈现给信息网络安全部门,以采取进一步的响应动作,保障网络系统的正常运行,并对网络流量进行监听和分析。对新核心系统建设的要求
4.1规范系统日志输出
目前核心业务系统的日志输出没有统一的规范,有些日志采用log4j进行输出,有些直接在系统中采用System.out在nohup.out文件中进行输出,给运维监控分析排查问题带来较大的困难,建议在新系统的建设过程中,统一规范日志的输出:(1)规范日志信息级别
日志信息输出的优先级从高到低至少应分为五档,分别是Fatal、ERROR、WARN、INFO、DEBUG。这些级别用来指定这条日志信息的重要程度。在测试阶段可以打开所有级别的日志,系统上线后只允许输出INFO以上级别(含INFO)。
各级别的日志信息作用如下:
致命(Fatal)——严重的错误,系统无法正常运行,如硬盘空间满等。这个级别很少被用,常暗含系统或者系统的组件迫近崩溃。
错误(Error)——系统可以继续运行,但最好要尽快修复的错误。这个级别用的较多,常常伴随Java异常,错误(Error)的环境不一定会造成系统的崩溃,系统可以继续服务接下来的请求。
警告(Warn)——系统可以正常运行,但需要引起注意的警告信息。这个级别预示较小的问题,由系统外部的因素造成的,比如用户输入了不符合条件的参数。
信息(Info)——系统运行的主要关键时点的操作信息,一般用于记录业务日志。但同时,也应该有足够的信息以保证可以记录再现缺陷的路径。这个级别记录了系统日常运转中有意义的事件。
调试(Debug)——系统运行中的调试信息,便于开发人员进行错误分析和修正,一般用于程序日志,关心程序操作(细粒度),不太关心业务操作(粗粒度)。系统出现问题时,必须抛出异常,在处理异常时记录日志,且日志级别必须是前三个级别(FatalErrorWarning)中的一种。
(2)日志中除包含错误信息外,还需包含如下信息:
a)
Web应用系统发生异常时,日志信息中需包含,系统操作用户的信息,发生异常时的业务数据、系统功能、程序代码信息及完整的SQL语句; b)接口类服务发生异常时,日志信息中需包含,接口调用的URL,调用端和被调用端的实地址,交互报文,报文的检查结果,接口响应时常; c)
在日志中,记录关键程序和数据库交易的处理时长,并根据事先预定的阈值,在日志中以醒目的方式完整的显示超过阈值的程序代码的方法名或SQL语句,以便运维监控人员分析,排查性能隐患。
4.2 预留应用系统监控接口,便于监控系统采集相关指标
在核心的建设过程中,需预留监控接口,应用监控系统通过调用核心系统的监控接口,来采集包括但不限于以下指标:
a)从web页面对应用程序功能进行语义监控,比如“页面加载错误”、“Error500”、”Error404”;
b)对用户访问质量的监控,页面加载时常;
c)对程序主逻辑进行监控,判断主逻辑是否正常;
d)如果主逻辑正常,则对程序自身占用资源的合理性、程序的性能、和程序的分支功能进行判断;
e)另外对程序占用的资源情况进行监控:CPU资源的占用,内存资源的占用,文件句柄的使用情况,网络句柄的使用情况,文件状态的进程数; f)服务的监控指标,数据加载的情况,模块的处理能力(平均耗时,队列长度,线程池的使用率),模块间通讯的状态(平均连接时间,读、写错误数),模块运行时间;
g)系统用户的操作习惯,完成功能模块操作的时长;
4.3 提供服务持续可用性监控方法
服务化是应用系统发展的方向,但服务的监控及问题的排查,一直困扰运维人员,尤其是多层服务之间调用问题的排查是相当困难的(例如:服务调用 A->B->C->D,最终结果依次返回 D->C->B->A,中间任何环节出现问题,结果都返回不到A)。建议在新系统的建设过程中考虑提供服务的自测工具和监控方法,服务的自测工具以便让运维人员进行手动的排查问题; 监控方法,主要是将系统服务的监控纳入监控管理平台,由监控平台对系统服务进行7*24小时不间断的监控。
另外,在服务的设计中,建议考虑服务的配对规则,以便在服务间调用发生异常后能快速的通过配对规则识别出服务的调用方和被调用方,进而快速的定位问题,排查问题,解决问题。结论
IT系统一体化运维监控平台需包含性能监控、故障监控、决策分析、数据挖掘以及关键业务流程监控等多种功能,在此基础上通过数据分析技术,建立智能、高效、易用、实用、灵活的面向业务流程的全方位、多层次的IT运维智能决策支持系统,有助于提升信息管理的效率。
第二篇:IT运维监控管理系统招标文件可行性研究报告
招标要求.......................................................................................3 1.1 1.2 总体设计要求...................................................................3 项目建设目标与原则.......................................................3 IT运维管理平台功能要求..........................................................6 2.1 网络监控与管理要求.......................................................6
2.1.1 系统工作模式..............................................................6 2.1.2 网络安全设备管理.....................................................6 2.1.3 面向网络的一体化管理.............................................7 2.1.4 网络拓扑管理..............................................................7 2.1.5 设备管理......................................................................9 2.1.6 性能管理....................................................................10 2.1.7 故障管理....................................................................12 2.1.8 流量管理....................................................................13 2.1.9 报表管理....................................................................16 2.1.10 安全边界管理............................................................17 2.2 资源监测管理.................................................................18
2.2.1 服务器系统管理........................................................18 2.2.2 数据库管理................................................................19
2.2.3 中间件管理................................................................23 2.2.4 基础应用平台及通用服务管理...............................24 2.2.5 基础运行环境管理...................................................26 2.3 告警监控管理.................................................................26
2.3.1 告警管理....................................................................26 2.3.2 告警通知....................................................................27 2.4 统一监控展现.................................................................27
2.4.1 灵活拓扑展现............................................................28 2.4.2 网络监控展现............................................................29 2.4.3 业务监控展现............................................................29 2.4.4 资源监测展现............................................................30 2.4.5 节点监测展现............................................................31 2.4.6 告警信息展现............................................................31 2.4.7 灵动可视化平台........................................................32 2.4.8 扩展展现集成接口...................................................32 2.5 报表管理.........................................................................32 招标要求 1.1 总体设计要求
(1)系统平台设计应该符合信息行业和本行业的标准,系统内部数据采用标准的格式,系统构架采用标准开放的应用框架和组件结构。
(2)为保证系统平台的统一性,要求软件/模块必须使用同一品牌,所有软件/模块必须拥有完全自主知识产权,不能依托于其他第三方的平台。支持主流操作系统和ORACLE数据库,全中文界面,提供友好、直观、易懂的图形呈现,提供强大的信息交互与管理能力。
(3)系统要求运行在开放的TCP/IP网络环境下,基于J2EE平台开发,结合C++、CORBA标准和技术,采用B/S + C/S架构,支持IE7,IE8等标准浏览器,实现系统界面、业务逻辑、数据集成等功能,采用标准接口进行系统间的数据交换与数据共享。
(4)监控子系统要求支持远程监控和代理、CLI等多种方式监测。支持对Windows、Linux、Unix(HPUX、AIX、Solaris„)平台系统的监测,支持Syslog安全日志的管理;支持多种告警方式,能够以Email、NetSend、外部命令、Snmp设置、Trap转发、Agent执行脚本、短信等通知方式进行告警;支持对所
有监控范围内IT资源的当前和历史运行情况进行统计,并生成各种分析报表和图表。
(5)平台要求支持统一身份认证的单点登录、统一权限管理和统一界面展现功能;
(6)系统平台要求提供友好的操作管理,能够根据不同管理层次的管理要求灵活定制不同的管理界面。
(7)系统要能够提供良好的集成接口,支持与第三方标准产品的集成部署;
1.2 项目建设目标与原则
IT运维管理系统平台项目建设的总体目标是实现对企业的网络、设备、主机、安全系统、数据库、中间件、应用系统等IT资源的可视、可控、可管理,从根本上提高IT运维管理水平,为企业核心业务系统提供有利保障;加强对IT系统及IT资源的监控与维护能力、提高维护工作效率、改善维护工作的质量,进而保证各系统维护水平的可持续性提升。
IT运维管理平台的建设应遵循开放性、先进性、安全性、可靠性、易用性等原则:
1.战略性原则
a)提供具有针对性、可行性和可靠性的技术解决方案 2.开放性原则
a)采用符合国际国内通用的标准协议
b)支持主流计算机平台、操作系统以及数据库厂商的各类软硬件产品。3.先进性原则
a)采用国内外监控和服务管理领域先进的技术和解决方案
b)在方案中要将监控和服务有机的结合起来,实现无缝集成。4.安全性原则 a)保证数据安全
b)不增加现有应用系统的复杂性,更不会降低现有应用系统的稳定性。
c)有严格的身份认证,实施对用户真实身份鉴别 d)采取分级用户结构,提供用户权限管理,防止未授权的用户访问;
e)有安全审计功能,配置审计时对生产系统不产生影响; f)日志安全存放,并有格式化的输出,便于检索和查询 5.可靠性原则
a)管理系统应该在系统结构、设计方案、设备选择、技术服务等方面综合考虑,保证系统能够安全无故障运行
b)安装在被监控对象上的代理或探测工具占用被监控对
象的资源在5%以内; 6.易用性原则
a)提供简洁、方便、有效的管理工具和界面,有完整的系统文档。
b)提供可扩充性的接口设计以便于维护人员的日常管理和维护;
c)采用CS+B/S结构;用户界面应有容错能力,所用术语应具有一致性;
d)用户进入系统的相应功能模块后,该模块所涉及的各项功能尽量在统一的一个界面中显示和完成,减少新界面的弹出;
e)系统采用集中、无需代理的方式运行,无需在被监测信息系统、服务器上安装任何代理软件,只需在一台网管机上安装,即可自动对整个信息系统进行监测和管理,不改变现有系统的应用配置,对现有系统性能影响甚微,安装实施、维护使用十分方便。7.知识产权保护原则
a)要求本项目涉及的所有产品符合国家对软件产品的有关规定,并具有相应的产品认证或许可,无版权纠纷。IT运维管理平台功能要求 2.1 网络监控与管理要求 2.1.1 系统工作模式
系统采用多层架构、信息总线技术,具备良好的性能和扩展性,系统为用户提供了C/S和B/S的两种展现模式,为不同关注层面的用户服务。以方便管理人员使用C/S对网络进行专业管理,运维人员使用B/S对网络进行值班监控。
系统具有拥有灵活、高效的网络采集引擎,通过对象识别、采集并发及针对的厂商扩展脚本,可准确、可靠的提供网络设备交互服务。系统利用ICMP、ARP、SNMP、NetBIOS、CLI等标准进行网络探测和信息采集,对发现的网元对象进行识别、分析、保存,形成统一的网管资源库,并在此基础上进行拓扑计算,生成物理、网络等不同层次的拓扑结构。
通过主动(ICMP、SNMP、CLI)与被动(Trap、、NetFlow、SFlow、镜像、NetStream)两种方式,系统可以从设备上获得各类性能指标和流量数据,经过长时间数据的跟踪记录,最终挖掘分析生成各种报表,展现网管部门需要的网络流量与负荷信息,以供对网络状态的合理评估与决策。
在对网络的不间断实时监测中,系统能够收集针对网络、设
备、终端及链路的各种事件,并利用过去在网管过程中学习得到的处理规则,系统可以对这些事件进行智能分析,并关联所有符合故障特征的相关事件,最终在故障发生前、或故障发现时发出正确告警,以便网络管理人员高效、及时的定位并解决问题。2.1.2 网络安全设备管理
全面支持CISCO、华为、中兴、北电、Foundry、Extreme、Avaya、H3C、DLink 等各种不同厂商、不同型号的网络与安全设备,提供各类设备的基本信息、CPU / MEM负载状况,设备可用状态、连续运行时间、响应延时、端口速率、ICMP连通性等设备属性与监测信息,亦可自定义SNMP监测内容。网络设备监测项主要包括:
设备CPU利用率:监测网络设备的CPU使用率。
设备内存利用率:监测网络设备的内存使用量、内存使用率。 端口速率监测:监测网络设备中指定端口的入速率、出速率、入丢帧速、出丢帧速、单播入帧速、单播出帧速、非单播入帧速、非单播出帧速、入错误帧速、出错误帧速。
端口上下线监测:监测网络设备指定的端口的上下线状态。 自定义SNMP监测:可监测多个SNMP表达式(支持四则运算、时间差值运算等)对应的采集结果。 ICMP连通性监测:监测与网络设备的连通性。
2.1.3 面向网络的一体化管理
管理界面友好,能够提供实时的底层网络、设备、系统、数据库和应用服务运行状态的有效监控和统计、网络边界安全保障、告警事件列表及IP资源管理等功能,每个区域可以把各功能管理项获取的底层数据按照IT基础设施内在的关联关系,根据运维人员的使用习惯进行了人性化的重新整合呈现,改变过去传统网管生硬的专业指标分割罗列的风格。
在支持典型功能外,还可以从管理人员的角度出发,把平时经常关注的设备监测视图进行重新组织显示,从管理人员的角度进行查看。
提供web客户端,管理员在网络的任何位置,甚至是外网,都可以通过浏览器访问网络监控系统的后台服务器,实现随时、随地统揽全局。2.1.4 网络拓扑管理
提供能够提供准确直观的 1.发现的设备种类全面
系统支持多厂商的网络设备,可以支持的厂商包括CISCO、Juniper、Huawei华为、ZXR中兴、H3C、Enterasys凯创、Extreme、Foundry、Harbour港湾、CDRS神州数码、AVAYA、Nortel北电、3COM、ARRAY、D-Link、Maipu迈
普、Red-Giant锐捷、NetScreen、Topsec天融信、Riverstone等。
2.拓扑发现技术手段先进
支持通过SNMP、ICMP、NetBIOS、ARP、Traceroute、Telnet等多种手段自动发现、识别设备。在支持众多国内外设备的基础上,系统还对网络类型有很好的兼容性,可以很好的发现VPN、VLAN网络拓扑,提供拓扑的动态跟踪和更新功能,能够更加有效的反应网络拓扑现状。
提供网络拓扑动态发现和跟踪技术,可以通过单设备拓扑、多设备拓扑、网段拓扑、种子节点拓扑等多种方式的拓扑发现网络拓扑准确地展现出网络的当前拓扑情况。3.拓扑显示视图多样
系统基于Java平台,支持远程管理协议采集,系统对B/S、C/S混合支持。支持大规模的网络管理问题,系统支持将大型网络通过按照地域、部门等划分成多个相对较小的子网实现分级管理、提供远程管理工具辅助用户对大型网络进行监控和管理。用户可以根据自己的使用习惯选择合适的拓扑视图加以监控。能够提供以下拓扑图:
物理拓扑——反映被管网络的实际连接的二层网络拓扑图,方便用户直观掌控网络的实际连接情况;
网络拓扑——反映被管网络各个子网之间的连接关系拓扑图,方便用户从IP层逻辑组织网络的管理; 子网拓扑——反映同一网段内终端与二、三层设备的连接关系拓扑,方便用户进行终端设备连接状态的监控及故障诊断;
Web拓扑——系统支持网络拓扑图基于浏览器的展现,通过浏览器的方式监测网络的运行情况,WEB拓扑图通过3-N级的方式展现网络拓扑、设备状态、端口状态。用户可以通过浏览器访问,通过浏览器来查看网络运行的情况。这种显示方式的好处是方便用户穿过防火墙,随时随地进行拓扑浏览监控。
全屏拓扑——可以提供全屏拓扑,以便可以更为方便的全局浏览拓扑,同时也方便进行大屏展现
4.拓扑显示信息丰富
在拓扑图上可以浏览网络资源的详细信息,包括: 在拓扑图上集成设备状态、链路带宽流量、告警故障的展现,使用不同颜色、粗细、图标表示被管理对象的状态信息;
提供快速查找和定位设备功能,可以通过设备名称、IP地址、MAC地址等信息,在拓扑图上准确定位设备,并显示出此设备的网络连接信息;
自动记录设备的所有活动情况,如接入网络、设备迁移及上下线信息。
便捷的浮动信息显示,浮动显示各类设备和链路的关键信息;
集成丰富的右键管理菜单;
集成一些常用管理工具,如多实例ping、remote ping、traceroute、telnet、MIB浏览器
拓扑图无级缩放、全屏显示以及背景图设置。 手工修改网络设备的配置信息 2.1.5 设备管理
系统设备管理全面及时,能够提供设备管理的快照,提供管理的设备列表,并能够提供手、自动可选的设备配置备份功能。
1.设备管理的快照
在拓扑中可以轻松点击被监控设备进入设备运行监控界面,以Dashboard的方式浏览网络设备状态的CPU、内存、链路流量等当前运行参数,若设备出现告警事件或阈值告警,则在网络拓扑图上相关网络设备节点图标以不同的颜色显示,提示管理员进行处理。
2.直观清晰的设备列表
设备管理将系统所发现的所有设备以列表形式展现出来,用户可以方便的查看到设备的名称、类型、IP地址、MAC地址。用户即可以查看所有设备,也可以按类型查看或按子网查看。
用户可以查询所管理的各子网网段内IP地址的分配、使用情况,以及占用该IP地址设备的上联设备及端口的详情等。3.手、自可选的设备配置备份
系统集成主流厂商思科、华为、华三和神码等网络设备的配置备份功能,管理员可以设置备份策略,根据管理员配置的策略,系统自动将网络设备的配置信息备份到备份服务器上。减少设备出现故障时进行设备配置恢复的时间。
对于非主流厂商设备,可以通过TCL脚本编写交互工具的方式获取相应设备配置备份来实现兼容性的扩展。
系统提供了手动备份与自动备份两种备份功能。4.详细的设备信息分析统计
系统可以帮助用户统计网络设备及终端设备的详细信息,不仅包括设备名称、别名、厂商、型号等基本信息,也包括设备端口的类型、端口号、IP地址、MAC地址、端口速率、MTU、端口状态以及对端端口的详细信息,此外还支持SNMP
设备的端口各类出入栈二层桢传输统计情况,如丢包率、错包率等。
系统还提供动态的网管信息展现,如端口列表、ARP表、TCP/UDP表、转发表、CDP表、STP表、设备部件表等。2.1.6 性能管理
本系统管理平台提供了完善的被管理网络数据采集,分析,统计和报表功能,能够通过SNMP、ICMP采集方式,对网络设备的CPU、内存、流量等运行性能指标进行轮询采集。系统进行实时采集数据分析,并保持对网络性能和设备性能的跟踪和趋势分析。1.监测指标丰富
系统支持网络性能实时监测,能监测所有网络设备的当前运行负荷状况,包括:当前CPU利用率、当前内存利用率、入流速、出流速、入包速率、出包速率,到网络设备的端口流量、丢包率、错包率、Ping延时和丢包等运行参数超过预设阈值时,并能在拓扑图上根据用户定义阈值以醒目颜色显示。同时,系统提供对主机操作系统CPU、内存和硬盘使用情况的实时监控。此外,系统还提供对典型Web服务的可用性监控,如HTTP/HTTPS、FTP、DNS、DHCP、LDAP等常见应用服务,并且系统同样支持对主机和Web服务监控的阈值告警功能。在实时监测的基础上,系统还提供对历史性能数
据进行统计分析功能。
网管系统提供的实时性能监视可以实时监控网络设备的端口流量和丢包率等性能指标,并可以方便的给出这些指标的趋势、平均值和最大值,为故障的预测提供有力的分析工具。
通过系统能够设置性能的采样周期,能够以图形方式显示性能指标,并可根据用户的需要定义监测的指标。2.多层面性能监测
系统为网络管理员提供多角度的监测。除了提供网络、物理拓扑显示的图形性能提示外、还为网管员提供主动的面向设备的负荷监测、面向链路的流量监测、面向终端的活跃度监测等多层面的性能监测。 面向网络设备的负荷监测
能够监控到网络设备的CPU和内存使用情况,通过监控网络设备的负荷情况,将被动管理化为主动预警,随时可发现网络的隐患。
面向链路的流量监测
链路性能直接体现网络上数据传输质量。网络上的延迟过长、瓶颈或丢包错包率增高都将会影响网络提供服务的质量。在拓扑图上通过节点的颜色变化、链路的颜色变化、总览列表的带宽占比统计,可以让用户从集成化界面中全面评估网络的整体性能状态,快速定位出网络的瓶颈和隐患。 面向终端的活跃度监测
终端活动快照列表记录了所有终端设备的当前运行状况,内容包括:设备名称、设备IP地址、上联交换机端口、当前在线状态、上次Poll时间、当前流速、当前包速、平均包大小,方便用户进行故障诊断和病毒分析。此外,还提供终端活跃度历史统计。3.监测配置简单
系统配置界面友好、过程简单,且配置完即可生效。同时,系统具有自动评估监测的能力,能够自动生成配置。另外,性能的阈值可在配置时设定,性能达到或超过阈值可触发各种形式的告警,如:邮件、短信、声音等。2.1.7 故障管理
通过系统故障管理,系统能够对故障信息进行搜集、分类、归并、压缩及告警通知,帮助网络管理人员即使定位故障源、故障类型及故障波及范围等,帮助管理员来解决日常出现的各种故障,从而确保在规定的时间期限内使网络重新投入运行。
系统能够自动获得整个IT环境的各种事件,包括网络设备的故障,性能的过载,流量的异常,服务器的异常性能,各类应用的故障,各类终端的变更等等。通过系统故障监控台,用户能
够对整个IT环境的运行情况一目了然。1.统一的故障分析引擎
系统通过内置的事件分析引擎,对获取的事件进行实时的压缩、归并,建立集中化的以故障为导向的集中告警展现。方便运维人员实时查看网内所产生的故障。
通过对事件进行过滤、归并、相关性分析、传递等分析处理。将处理过的事件保存在数据库中。支持对故障持续时间较长的告警级别自动升级处理,支持用户自定义故障类型。
对事件的严重级别加以分类,并分别通知相关人员(如:普通故障就只通知网络管理员,重大故障同时通知主管领导和网络管理员);不同的用户可以为自己定义自己的过滤和通知策略。
故障管理能够实时监视并截获网络运行过程中所出现的故障,确定故障位置,以声音、电子邮件、短消息等多媒体方式通知网络管理员,并给出故障原因。2.多种告警类型
系统根据故障来源及故障信息所属专业将告警信息分为以下几类:
网络故障告警
监测到链路或设备故障时,尤其是骨干链路Up-Down、核心设备离线等,发出故障告警信息。 网络性能告警
监测到网络设备、服务器的端口流量、丢包率、错包率、Ping延时和丢包、CPU利用率、内存利用率、磁盘利用率等运行参数超过预设阈值时,发出故障预警信息。 网络安全告警
非法设备接入告警:未经过合法登记的设备接入网络后,系统自动进行告警,并根据配置采取主动拦截等联动处理。
IP地址变更告警:IP/MAC/PORT地址绑定之后,如果出现用户私自更改IP地址的情况,系统发现将主动发送告警。
主动接收设备Trap信息
系统能够主动接收网络设备、防火墙等设备发出的Trap故障信息,并在告警台统一展现给用户。3.直观的告警列表
系统把告警事件按节点和严重级别进行排序,并提供包括来源、描述、发生时间、告警名称、告警等级在内的详细列表。4.灵活的告警通知
系统提供了丰富的故障通知方法,包括:声、光、Windows消息、EMAIL、短信等方法,用户也可自己编写处理程序进行处理。
5.集成多种故障诊断工具
系统提供了各种工具帮助用户进一步监测故障的原因,包括:SNMP工具、Telnet、Ping、Tracert、NetBIOS、RemotePing等等,辅助用户排除故障。2.1.8 流量管理
系统为用户提供了细颗粒度的流量分析管理工具Flowmon,实现从端口到应用的广泛流量分析和统计。
通过Flowmon,系统能够实时监控系统流量,而不是历史数据回放;系统无须配置成本高昂的硬件探针即可实现设备实时流量的采集分析,从而避免在网络中引入新的故障点。1.支持多种流量采集手段
系统提供多种流量采集的方式,支持端口镜像流量、sFlow流量、Netflow流量等,Flowmon可以同时支持多个网卡和多种采集并行的流量分析,并为数据分析提供一致的访问界面。
考虑到网络数据流量分析的数据量十分庞大,系统不会保存所有的原始流量数据信息,而是仅仅保存分析加工后的归并
信息,从而降低服务器的存储要求。2.多维度实时流量分析
系统支持对流量实时分析,当流量数据采集到Flowmon之后,系统会对流量数据开始进一步的分析,提取有效的数据信息,主要通过以下处理过程:
数据过滤:可以通过地址、端口、协议等条件设置数据过滤器,滤去不需要的干扰数据。
流向分析:对数据包包头或者xFlow的包信息进行解码,获取数据包的流向信息,用于分析数据的来源和目的地,通过分析矩阵获取每个网络节点的流向情况。
层次分析:系统对数据包进行1-7层的划分,用于分析全局的数据流量。
协议分析:系统会进行协议级别的数据分析,系统采用了CSPAE分析引擎进行TCP/UDP数据流分析,可以分析大多数的常见TCP/UDP协议,包括:HTTP、POP3、SMTP、FTP、SNMP、DNS等常见协议。
应用分析:系统会对一些动态协议进行应用级别的7层包头分析,从而可以掌握BitTorrent、eDonkey、MSN等P2P和即时通讯协议的流量情况。3.通过流量分析辅助网络的异常判断
全局统计
通过对流量的分析,Flowmon可以对采集到的数据进行整体的评估分析,让用户了解网络的整体情况,主要包括:
全局流量统计:从整体角度对网络流量的数据包情况进行统计,包括数据包的长度、TTL、总体流量、总体协议分布、总体TCP/IP协议分布、TCP/UDP端口分布等。 终端流量统计:从整体对终端流量的进行统计和排序。 协议统计
系统从协议角度对网络数据行为进行分析,并按照终端形成排名,便于管理员掌握网络中协议的分布和重点终端的数据行为。通过协议流量排名分析,可以有效地发现ARP病毒、蠕虫异常流量、BT流量、网络异常流量等行为。
协议整体分布:从全局协议、TCP/IP协议两个级别提供协议的分布。
全局协议的排名分析:从终端角度对全局的协议进行排名分析(按照TCP/UDP/ARP/ICMP/IPX/IGMP/OSPF等分类)
TCP/IP协议排名分析:从终端角度对TCP/IP协议的组成进
行
排
名
分
析
(按
照HTTP/FTP/Mail/Telnet/…/SNMP/BitTorrent/eDonkey/Messenger等进行分类)
会话统计
系统通过对流量的流向进行分析,并对TCP会话进行监测,从而获取各个网络节点的流量和会话统计信息。主要包括:
终端流量通讯矩阵:以矩阵的方式展现终端之间的通讯关系和通讯流量。
终端流向统计:本地网络和外部网络,多个VLAN之间各个终端的流量统计排名和总流量。
终端会话统计:终端TCP建立会话的统计,按照TCP的端口进行展现。 终端统计
系统从单个终端节点的角度,分析单个终端的网络数据行为,主要包括以下几个方面:
终端总体分析:包括活动时间、总的数据流量和包数、基本协议对比等
最近24小时的流量统计:每小时的发送、接收流量的统计
数据包的统计:从TCP会话、TCP 标志包、异常数据包三个方面对数据包进行统计
终端协议分布:终端使用的各种协议的分布图
其他统计:包括ICMP协议统计、最后一次的数据通讯统计等。
2.1.9 报表管理
系统能够为用户提供性能、告警、状态、资源多个角度的统计和分析报表。
系统具备报表自定义扩展能力,通过报表设计器,可以定制更符合需求的报表。用户对相应的系统监测数据进行统计后,能够以报表形式展现分析统计结果。报表包括:网络运行统计、节点延时统计、节点端口流量统计、设备CPU负载统计、设备内存占用统计、主机CPU负载统计、主机内存占用统计、Oracle数据库运行统计、服务运行统计等 1.端口I/O流量报表
通过网络设备的端口对流量进行统计,并以报表的形式进行展现统计结果。2.设备故障日/月报表
系统平台提供统一事件管理来解决分割管理的数据融合问题,通过以告警事件为导向,提供了清晰的、集中的事件管理。可以让管理人员对整个IT环境的各种硬件和软件系统的实时事件信息收集,对各类事件信息进行过滤、、压缩、归并等相关性分析与处理,智能化压缩处理海量告警事件,分析出真正的问题所在,实时呈现出完整的事件信息,并将
这些信息分发给负责服务水平监视的操作管理员。
系统支持以日/月为单位实时呈现所有的网络、系统、应用、安全、桌面等被关注的资源。3.设备清单报表
以直观的方式显示设备当前的运行状态。
系统能够根据设定,统计指定的子网内各设备上端口的运行情况。让管理员能够直观的掌握设备上的端口数量以及端口的使用情况,科学有效地分配设备的端口使用,提高网络环境的运行效率。4.性能报表
系统能够根据不同层次管理员设定的不同监测参数组合,自动生成所需的性能分析报告,提供的性能报告能够针对网络所有的被管理资源(服务器、数据库、中间件)的关键性能指标(CPU、内存、磁盘、进程使用情况)进行详细的展现,系统还能根据设定自动将历史报告发送给相关人员,提高决策效率。5.自定义报表
系统提供的内置报表,若无法满足现有需要,可以通过客户化工作。
2.1.10 安全边界管理
系统提供IP地址资源管理,对网络边界的安全和IP地
址的户籍进行管理。系统通过内置的设备合法性监测引擎,在不额外消耗网络带宽的情况下,自动发现和监测网内终端设备的基本属性(IP地址、MAC地址、主机名、连接的交换机端口等),系统能够通过IP/MAC/主机/组织/人等信息绑定,建立IP资源信息库。IP地址使用情况详细列举出系统发现的各子网内IP地址的使用情况,包括IP地址、设备名、端口号、端口名称、IP状态、上联设备、上联设备IP、上联设备端口等。
边界按照IP地址的“户籍表”,监控网络中IP的使用情况,对非法使用的IP地址进行拦截,将非法的IP终端隔离出网络,确保用户不能随意修改IP地址和防止IP地址盗用。
网络边界管理提供了IP地址使用的高级审计功能,方便对IP地址的使用进行历史审计和追查。
系统能自动跟踪终端的变化情况。发现有未经登记的设备、或违反IP/MAC/交换机端口绑定规则的终端设备进行告警。
系统能够通过IP/MAC/PORT绑定实时发现是否有非法设备接入局域网络及是否有用户私自更改IP地址的行为;根据安全策略配置通过手动或者自动的方法将非法接入设备隔离出网络,或者将已被拦截的设备重新开通网络连接。有效保障了网络的安全。
拦截与放行设备:手动或者自动(根据安全策略配置)将非法设备隔离出网络,或者将已被拦截的设备重新开通网络连接。
IP/MAC/PORT绑定:IP/MAC/PORT地址绑定之后,能够实时发现是否有非法设备接入网络及是否有用户私自更改IP地址的行为,如果用户私自更改IP地址,系统主动发送告警信息。
终端合法性监控:系统通过业务监控系统的合法性监测引擎,能在不额外消耗网络带宽的情况下,自动监测网内终端设备的基本属性(IP地址、MAC地址、主机名、连接的交换机端口等),对私自变更设备信息进行告警。2.2 资源监测管理
系统集网络安全设备、应用服务和基础支撑系统等监测管理于一体,支持SNMP、Syslog、CLI(Telnet、SSH、WMI)、JMX等远程监控手段和Broadview UniAgent代理监测,各类标准应用协议仿真,拥有了500多种监测器,提供对整个业务网络的7X24不间断监控。 强大监测插件体系
无需二次开发,通过监测插件,不断增加监测器数量,扩展监测范围与内容。众多监测器工作独立,互不影响,保证整个监
测体系的稳定运行。
灵活的监测时间调度机制和智能化的监测阈值模型
自定义监测时间与监测阈值,形成多样化、组合型监测策略,满足复杂环境下不同的监测任务要求。
主机代理Agent监测和远程无代理监测两种监测模式
多方式、多手段的自由组合,兼顾业务网络各部分性能影响,适应不同监测条件。2.2.1 服务器系统管理
系统能够管理和监测Windows、Linux、IBM AIX、AS/400、HP-UX、SUN Solaris、SCO Unix等不同操作系统的服务器或集群的运行状态和性能数据,包括服务器的基本信息、CPU负载、内存利用率、应用进程、文件系统、磁盘空间和吞吐、事件与错误日志等信息的分析与监视。帮助用户及早发现服务器系统的性能瓶颈与故障隐患。服务器监测项主要包括:
主机基本信息采集:主机的基本信息,包括:CPU数目、机器型号、系统名称、系统版本、IP地址、内存大小、总线程数目、磁盘名称等。
主机CPU使用率:监测主机系统的CPU使用率。
主机内存使用率:监测主机系统的内存使用量、内存使用率。 主机磁盘使用率:监测主机系统的指定磁盘使用率。 主机磁盘IO监测:监测主机系统的磁盘TPS数、磁盘写操作速率等、每秒完成IO读写次数、每秒读写扇区数、每秒读K字节数、平均I/O队列长度等。
应用进程监测:监测主机系统中指定应用进程的内存使用量、内存使用率、CPU使用率。
系统服务监测:监测主机系统中指定服务的运行状态 主机当前登陆用户信息:当前登录用户登陆的时间、终端IP、终端名称
主机端口速率监测:监测主机系统中指定端口的入速率、出速率、入丢帧速、出丢帧速、单播入帧速、单播出帧速、非单播入帧速、非单播出帧速、入错误帧速、出错误帧速等。 主机重要文件监测:监测主机系统中指定的文件大小。 Job基本信息采集(AS/400):监测Job的名称、CPU使用率、类型、状态、所属用户等。
ICMP连通性监测:监测与主机的连通性。
HACMP集群状态监测:监测集群的可用状态及子节点的状态。
自定义指标监测:系统提供了通用监测器,用户可以通过编写shell或者groovy脚本自定义监测指标 2.2.2 数据库管理
根据预定义的监测项目对Oracle、SQL Server、Sybase、DB2、Informix、MySQL等多种数据库,按照属性相关性分为数据库工作状态、数据库表空间的利用情况、数据文件和数据设备的读写命中率、数据碎片的情况、数据库的进程状态、数据库内存利用状态等属性监测组,分组监测数据库系统的性能、事务、连接等性能数据。 DB2数据库监测
基础监测:最后一次备份时间、数据库状态、数据库激活时间、当前连接数、连接总次数
缓冲池信息监测:各缓冲读写次数、命中率 锁监测:死锁数、锁等待率、锁升级率 锁表信息:锁状态、锁模式、表空间、Schema 排序信息监测:应用排序数、排序溢出百分比
表空间监测:已使用页、表空间类型、页长、总页数、表空间状态、空闲率、空闲页、使用率、预取大小、扩展数据块大小
表空间容器监测:使用率、总页数、已使用页、容器类型、表空间名称 Oracle数据库监测
基础监测:表空间使用率、连接会话数
高级队列监测:ready消息数、错误的消息数、消息平均访问时间、消息总数
归档目的地监测:归档目的地类型、归档目的地状态、归档目的地可用空间、归档目的地可用空间百分比、归档目的地位置
基本信息采集:使用spfile启动、只读模式、归档路径、例程开始时间、限制模式、归档模式、例程名、并行状态、位长、DB版本、DB名称、主机名、实例状态 检查点监测:发生检查点数、完成检查点数
数据文件监测:文件大小、读次数、写次数、读时间、写文件块数、读文件块数、读写文件块数、写时间 全表扫描配置: RSRATIO值、LTSCANRATIO值 资源锁定监测:锁定时长 碎片监测: FSFI值
PGA配置:PGA内存及各区域大小、实例处理性能等
进程资源消耗监测:
可用PGA百分比、可用PGA、已分配PGA、已使用PGA 命中率监测:共享区字典缓存区命中率、多次解析(重装)的条目比率、高速缓存区命中率、共享区库缓存区命中率、磁盘排序与内存排序比率、回退段等待次数与获取次数比率
递归调用信息监测: 递归调用百分比、时间间隔的递归调用百分比、用户调用数、递归调用数、递归-用户调用比率、递归调用速率
Redo日志配置:重做条目的平台大小、多种请求成功/失败比率、错误次数等
Rman备份监测: 增量备份大小、全备份大小
回滚段:大小命中率、等待率、等待次数、活动事务数、翻转次数、扩展次数、一致更改率、收缩次数、用户回滚率
会话监测:会话ID、用户名、CPU时间、排序次数、缓冲区命中率、读次数、写次数、提交次数、占用游标数、扫描次数
SGA配置:共享库缓存大小、SQL缓存大小、数据字典缓存大小、共享池大小、重做日志缓冲区大小、高速缓冲
区大小
SQL监测:使用内存、执行时间、SQL语句、用户 转存空间监测:转储空间使用率
表空间监测:未使用Extent数量读时间、最大Extent数量、已使用率、已使用量、未使用量、未使用百分率、允许最大空间、是否自动扩展、写时间、Segment管理方式、表空间类型、当前Extent数量、下一个Extent大小 表状态监测:增长速度、索引大小、数据大小、表空间、用户
撤销空间监测状态监测:快照太旧错误计数、无空间计数 作业队列监测:破损作业数量、过期作业数量、失败作业数量
MySQL数据库监测
基础监测:缓存查询数、连接数 数据库大小监测:数据库大小 SQL Serve 基础监测:连接会话数、CPU使用率、数据文件大小、日志文件大小
基本信息:阻塞进程数、处理器名称、Windows版本、处
理器数目、主机名、内存(MB)、数据库数目、会话数目、启动时间
数据库大小:数据大小、数据库大小、未分配大小、未使用大小、索引大小、保留大小
文件监测:路径、增长方式、容量、文件组、数据库、大小
会话监测:最后处理时间、命令、数据库、CPU时间(ms)、内存(KB)、程序、建立时间、用户、状态、主机 Informix数据库监测
基础监测:回滚数、死锁数、写缓存命中率、读缓存命中率、数据库连接数
检查点监测:检查点速率、检查点等待速率 DbSpace监测:数据空间使用率
磁盘读写监测:页写速率、页读速率、物理磁盘写速率、物理磁盘读速率
锁监测:锁请求速率、锁超时率、锁等待率、死锁率 日志读写监测:物理日志页面写速率、物理日志写速率、逻辑日志页面写速率、逻辑日志写速率、逻辑日志记录写速率
共享内存监测:块写速率、缓冲区写命中率、缓冲刷新到磁盘速率、Foreground写速、缓冲区等待速率、LRU写速率、顺序扫描速率、Latch等待速率、缓冲区读命中率 排序监测:内存排序速率、磁盘排序速率 事务监测:事务提交速率、事务回滚速率 Sybase数据库监测
基本信息采集:DBMS名称、DBMS版本、系统信息、产品版本、主版本号、产品名称、次版本号
数据库监测:使用百分比、已使用大小、数据大小、空间大小、索引大小、未使用段大小、数据段大小、段总大小、索引段大小
会话监测:数据库、命令、已用内存、CPU时间、IO读写次数、程序、主机、用户、状态
事务监测:系统事务交易总数、每秒回滚事务数、每秒事务数
设备监测:属性值
数据库:CPU使用率、数据库空闲表空间、数据库表空间、连接会话数
2.2.3 中间件管理
产品支持对Websphere、WebLogic、MQSeries、Tomcat、Tuxedo、Tibco、Resin、TongWeb、等各类不同中间件,提供包括配置信息、连接池、线程队列、负载监测、通道情况监测等多类监测组,分析与监测中间件的各项运行状态参数。中间件监测项主要包括:
系统信息采集:监测中间件基本信息,包括:操作系统、操作系统版本、当前可用堆栈及大小、当前目录、重启次数、开启线程数。
JVM使用监测:监测JVM的堆栈大小和使用率。 JDBC链接池监测:监测指定JDBC连接池资源连接情况。 JTA事务监测:监测中间件中数据处理事务的活动情况。 线程池监测:监测指定线程类的线程平均数、空闲线程平均数以及线程吞吐量。
Servlet监测:监测指定Servlet执行和调用情况。
EJB监测:监测指定EJB激活次数、钝化次数、缓存个数、事务提交次数、事务回滚次数、事务超时次数、访问次数。 WEB应用监测:监测指定Web应用中Session的当前个数、最大值以及累积个数。
JMS队列深度监测:监测中间件中JMS消息队列活动情况。 MQ通道情况监测:监测MQ的通道情况,包括:每秒接收字节、每秒发送字节、通道状态、发送间隔、事务数。 MQ队列深度监测:监测MQ服务的消息队列的队列深度。 Tuxedo负荷监测:监测Tuxedo的机器状态是否被激活、每秒处理的队列服务数每秒入队的队列服务数、当前客户端数、当前WorkStation客户端数。
TongWeb数据连接池监控:监测国产中间件Tongweb数据库连接信息,如最大、最小连接数,可用、创建、关闭、等待连接数等
TongWeb应用性能监控:主要监测系统线程情况、请求队列情况、吞吐量、发送接收字节数等信息; 2.2.4 基础应用平台及通用服务管理
状态提供对IIS、Apache、-Domino等基础应用平台的基础信息、连接测试、基本负载等重要信息的监测。
有效实时地分析HTTP/HTTPS、DNS、FTP、DHCP、LDAP等常见通用服务的运行状态和参数,深入分析服务响应速度变化的技术原因和规律,从根本上解决服务响应性能的问题。 Domino服务器监测
基础监测:监测Domino服务器的内存占用值、指定数据库的使用率、待发邮件数、僵死邮件。
基本信息采集:采集Domino服务器的基本信息,包括:Domino版本、数据库存放路径、CPU个数和CPU类型信息。
负载监测:监测Domino服务器当前负载情况,包括:每分钟交易数、每分钟最大交易数、交易总数、当前用户数、最大用户数、当前任务数。
复制(Replication)监测:监测Domino服务器复制情况,包括:成功复制次数、失败复制次数、删除文档总数、增加文档总数、修改文档总数。
邮件服务监测:监测Domino邮件服务情况,包括:死邮件数、路由邮件数、待路由邮件数、已投递邮件数、待投递邮件数、平均邮件大小、最大邮件大小。
缓冲池监测:监测Domino缓冲池的使用情况,包括:缓冲池大小、缓冲池使用值、缓冲池最大值、扩展管理池使用值、扩展管理池最大值、NSF使用值、NSF最大值。 扩展管理池监测:监测Domino扩展管理池的使用值、最大值。
Apache负载监测:监测服务器是否连接,采集CPU负载、正
常运行时间、响应时间、累计访问数、累计访问数据处理、每秒请求数、每秒处理字节数、每请求处理字节、忙作业数、空闲作业数等指标。 IIS监测主要包括:
连接监测:监测IIS服务运行时间、服务运行时间、尝试登陆/秒、尝试连接/秒、当前连接数、最大连接数。 传输字节监测: 发送字节/秒、接收字节/秒、传输字节/秒、服务运行时间、接收文件/秒、发送文件/秒、找不到文件的错误数、服务运行时间、传输文件/秒。
用户监测:服务运行时间、最大非匿名用户数、非匿名用户/秒、匿名用户/秒、当前非匿名用户数、当前匿名用户数、最大匿名用户数。
WEB请求监测:post请求/秒、head请求/秒、其他请求/秒、服务运行时间、get请求/秒。
WEB服务器可用性监测:监测http、https和Web Service服务器是否连接以及是否正常运行,可以监测指定http的URL路径是否包含或者不包含指定内容。
标准邮件服务器监测:监测pop3、smtp邮件服务器是否连接以及是否正常运行,可以监测具体的邮箱的邮件数以及邮箱使用量。
基础服务监测主要包括:
DNS服务监测:监测DNS服务器是否连接以及是否正常运行,可以监测指定域名是否正确解析。
FTP服务监测:监测FTP服务器是否连接以及是否正常运行,设定已FTP方式登录该资源的阈值,监测指定文件是否存在。
通用资源监测主要包括:
TCP端口监测:可监测多个TCP端口,并采集连接时间,可指定端口开启或者关闭时告警。
通用SNMP监测:可监测多个SNMP表达式(支持四则运算、时间差值运算等)对应的采集结果,并可设定告警阈值。2.2.5 基础运行环境管理
对于IT环境系统,系统支持各种智能设备的快速监测,同时通过SNMP、数据库接口等其他接口方式可以实现客户化的扩展监控,监测内容包括基础运行环境的温度、湿度、漏水、烟感和电源、UPS、智能空调等。2.3 告警监控管理 2.3.1 告警管理 事件分析
系统具有强大灵活的事件分析功能,能够智能识别各类不同来源的原始事件。通过内建的智能事件分析引擎,对标准化后的原始事件进行可靠过滤、重复压缩、对齐归并与依赖关联,自动修正告警记录,最终形成有效告警。 自定义事件解析规则
用户可自定义编辑和导入解析规则库文件,自主制定事件解析规则,同时支持第三方MIB库的装载与自动解析。 基于iBDM的事件关联分析
事件的产生以及其影响都不是独立的。基于业务影响依赖模型iBDM的事件关联分析,自动发现关联,追溯事件影响、定位问题,发现问题根源。 告警台
作为告警管理平台,呈现最新告警信息,并以最近24小时、最近一周、最近一个月等不同区间统计最近的告警记录,提供自定义刷新、告警确认与消除等告警管理操作。 分等级告警
产生的告警信息分为提醒、警告、次要、重要、紧急五个等级,用户可以根据告警等级安排告警处理的优先次序。 分类查询
借助按资源与按节点的分类导航,快速搜索分类告警记录;支持通过告警信息的事件等级、时间、类别、名称、资源等组合条件进行自定义查询。 告警的关联特性
点击具体告警,会列举告警关联的事件,同时展现事件的详细信息、问题资源信息和依赖关系图等,方便分析故障详情。2.3.2 告警通知 多样的通知方式
支持短信、邮件、语音等告警通知手段。
支持外部命令、UniAgent执行脚本、NetSend、Snmp设置、Trap转发等告警处理动作。告警处理动作将按预定义,自动在告警发生后执行,先一步尝试恢复业务正常运行。 灵活的通知策略
根据不同的告警事件来源为它们指定不同的通知和处理方式,组成全面告警通知策略。 强大的扩展功能 2.4 统一监控展现
通过统一监控展现功能,能够将不同类型的设备、系统、应用等资源的监控平台进行集成,避免使用多个系统进行监控管理。通过综合的展现平台来同事展示各种监控视图,以便于运维人员在一套系统上统揽全局。
运维监控通过集成底层监控产品,能够提供从资源、节点、网络、业务等多角度、层次化的监控信息集中展现,并可通过服务台和个人桌面集成底层监控平台的监控界面和数据,以支持上层的运维工作。2.4.1 灵活拓扑展现
IT运维管理系统中的灵动拓扑展现与灵动可视化平台实现同步,系统可以根据运维人员在灵动平台中创建的各类视图来显示资源配置、运行状态等信息。
灵动拓扑展现不仅可以展现IT资源的逻辑物理关系,还可以查看视图中资源的运行状态。拓扑图中的任一设备或者链路都会以浮动框的形式显示其基本信息与运行状态。同时,通过点击节点,可跳转至相关联的视图或相关联资源的详细监控界面。
IT运维管理系统作为运维与监控平台,其自身收集与处理了大量IT部门运维所需要的各方面信息,包括:资源配置库、监控性能与状态等。这些信息需要通过多种方式进行展现,而IT运维管理系统正是通过灵动可视化平台来提供此能力。
灵动可视化平台集模型编辑和模型展现于一体,方便用户绘制网络拓扑、业务拓扑、机房视图及其他结构图。其使用最新的Flex富客户端展现技术实现,可以自由的组合数据源提供的信息,以图形、表格、拓扑等形式,提供于用户,并支持用户的操作交互,以进一步挖掘数据。
2.4.1.1 展现能力
灵动可视化平台提供了超过600个基础模具库,涵盖了普通图形、各种厂商设备图标、设备面板等各类图形组件。通过将这些图形组件组合在一起,并为其关联恰当的业务数据源,按需表现多种逻辑物理环境。如局域网络拓扑图、业务系统图、机房布局图、设备面板图等。2.4.1.2 交互挖掘
系统具有基于Flex展现技术,还具有基于WEB的交互能力,在平台提供的图中,用户可以通过鼠标点击,与图中的元素(图形、表格)等进行交互,可以获取到进一步的资源详情、挖掘数据与切换观察视角。
用户也可自定义图表事件,进一步扩展图形交互,集成其它监控系统的页面功能。2.4.1.3 编辑扩展能力
由于系统的业务架构经常会产生变化,因此系统实施时确定的各种拓扑图也会随之改变。为了提供现场的编辑能力,系统需提供所见即所得的编辑工具,无须使用各种复杂的配置脚本,而通过WEB上的画图工具,完成图形的编辑与创造。
2.4.1.4 数据可视化感知
灵动可视化平台可展现的信息,通过数据源的支持,可以让灵动图形中的各类对象有了灵活生动的展现,平台可以通过数据信息、状态的绑定,实现拓扑可视化的动态展现和交互,灵动平台支持多数据源提供,默认采用CMDB配置资源库,根据CMDB配置库提供的定义信息分类组织数据对象,用户可直接拖动这些数据对象到图中,以完成用户理想的视图。
2.4.2 网络监控展现
IT运维管理系统中的网络运行监测与网络监控平台实现同步,集成网络监控平台的相关功能,系统可以将各种网络监控指标进行统计后分类以视图的方式显示。 网络拓扑
网络拓扑不仅可以展现网络主拓扑图,还可以递进式挖掘多级子拓扑,进行逐层嵌套组织显示。拓扑图中的任一设备或者链路都会以浮动框的形式显示其基本信息与运行状态。同时,通过点击节点或资源链接,可跳转至相关对象的详细监控界面。 网络监控视图
网络监控视图提供了关注网络整体运行表现的全局视角,网络的各类指标均在其中得到体现,如反映管理对象的系统统计信息、反映端口速率排行前10位、CPU使用率前10位、内存使
用率前10位、节点连通延时前10位的列表信息、最新网络告警事件列表及统计排名等。内容的增减与组织方式可根据用户的需要与习惯随意调整。2.4.3 业务监控展现
IT运维管理系统的业务监测视图以业务系统为核心,集成业务监控系统的相关功能,统一展现支持业务系统的网络/安全设备、系统、中间件、数据库、通用服务和基础应用等各类资源,紧贴用户思维,由粗线条到细颗粒度地逐层展现业务系统的运行状况,满足企业或单位以业务为最终服务目标的IT管理思想。2.4.3.1 业务应用拓扑
业务应用拓扑支持有向关联,业务系统各关联资源根据业务影响方向组成业务支撑网络。针对业务网络的告警事件,依靠基于iBDM的事件关联分析,自动分析判断节点间依赖关系,快速定位业务故障根源。2.4.3.2 业务监测视图
业务监测视图提供业务系统的基本信息、资源组成和运行状态,并通过平均修复时间(MTTR)和平均无故障时间(MTBF)等SLA综合指标评估业务服务水平。通过业务监测视图,用户可深入浅出地分析业务系统当前的运行状况,大大降低IT系统管理难度。
2.4.4 资源监测展现
为了便于查找故障,分析故障根本原因,往往需要查看故障产生的具体对象。IT运维管理系统的资源监控视图集成业务监控系统的相关功能,从资源总览、资源汇总和资源详情视图分层分类地细致展现各类资源的性能详细指标。 资源总览
汇总所有监测资源信息,以全局和分类统计其可用状态和健康状态,并列举当前问题资源。 资源汇总
针对具体资源类型,统计展现所有该类资源的运行状态,包括:该类资源的可用性和健康性、可用资源比率与健康资源比率、当前出现问题的具体资源等常规指标和该类自有的其他指标。 资源详情
针对业务应用的具体资源,根据不同的资源分类(如网络设备、服务器、数据库、中间件等),详细展现资源的基本信息、负荷状况、稳定性、响应延时各项关键性能指标和健康度与可用度的状态分析,轻松掌握资源当前的运行状况。2.4.5 节点监测展现
网络中拥有独立IP的网络实体,我们称之为节点。单个节
点可能部署了多项被监测资源,如操作系统、数据库、中间件等。IT运维管理系统通过集成业务监控系统的相关功能,提供了基于节点的整体监测,汇聚节点内各资源的监测数据,从总览视图、详情视图(一级、二级视图),递进式地展现被监测资源的详细参数。
节点总览视图
节点总览视图从总体上统计各个分类节点的不可用节点数、节点总数、及总资源数等,同时以柱图方式直观显示节点的不可用节点数占节点总数的比例。 一级节点视图
一级节点视图集合了同分类的所有节点,各节点单独展现内部资源健康状态。 二级节点视图
二级节点视图详细给出节点所包括单个资源的详细运行情况,如图所示,此
服务器节点不仅监测了服务器的Windows 操作系统的运行状态,还包括其网络设备、DNS服务和POP3 服务的运行情况。2.4.6 告警信息展现
为了查找发生故障的原因,往往需要查看一段时间内的告警信息来进行分析。告警管理可以对告警信息按资源、按节点的进行查询,并展示了各个时间段的告警信息。2.4.7 灵动可视化平台 2.4.8 扩展展现集成接口
扩展展现集成(SSO)通过Portal技术,以B/S方式实现IT运维管理系统与其他监控产品的融合,为用户提供可扩展、多元化的信息汇聚与功能集成。
借助统一身份登录和权限验证,IT运维管理系统可以深度集成其它监控系统,为不同角色的管理和技术人员提供相应的个性化工作界面,提高IT运维服务效率。2.5 报表管理
全面的性能与告警报表
依据对监测数据的自动汇聚、抽取、分析,提供基础架构性能与告警、资源比较、指标排名、指标趋势等各类层次化统计分析报表。从业务运行状态到微观性能指标,自定义查询业务应用系统及其关联资源的当前和历史运行情况。 业务运行报表
支持按业务的方式对业务应用可用性、MTTR和MTBF进行统计。 节点报表
支持按节点的方式对其监测数据的进行汇总分析,提供基础架构性能指标趋势等各类层次化统计分析报表,并支持自定义时间段进行查询。
“所见即所得”的报表
支持报表收藏功能和订阅。支持导出为Excel、PDF文件和立即发送报表到指定Email邮箱,还能够为不同的用户订阅相关报表,自动定时发送到指定Email邮箱,提供系统优化、决策分析和业务规划的量化参考。
第三篇:杭州正非科技视频监控系统整体运维解决方案
视频监控系统整体运维解决方案
视频监控系统整体运维解决方案
杭州正非科技有限公司
联系人:涂经理 手机:***
视频监控系统整体运维解决方案
目录
目录
1、背景............................................................................................................................................4
2、解决方案概述.............................................................................................................................5
3、总体架构设计.............................................................................................................................5
4、功能方案.....................................................................................................................................7
4.1、数据采集层......................................................................................................................7
4.1.1、网络监测...............................................................................................................7 4.1.2、应用与存储监测.................................................................................................10 4.1.3、视频图像质量诊断.............................................................................................13 4.1.4、传输设备监测.....................................................................................................14 4.1.5、分布式采集、集中管理.....................................................................................14 4.1.6、统一事件平台.....................................................................................................15 4.1.7、告警监控台.........................................................................................................16 4.1.8、综合监控展示.....................................................................................................17 4.2、资源数据库....................................................................................................................19 4.2.1、数据库建模.........................................................................................................19 4.2.2、配置变更控制.....................................................................................................19 4.2.3、配置可视化浏览器.............................................................................................19 4.2.4、分区化、独立管理模式支撑.............................................................................20 4.2.5、高性能、大容量系统设计.................................................................................20 4.3、运维服务管理层............................................................................................................20 4.3.1、值班服务台.........................................................................................................20 4.3.2、事件管理.............................................................................................................21 4.3.3、巡检管理.............................................................................................................21 4.3.4、值班和值班日志管理.........................................................................................21 4.4、综合管理层....................................................................................................................22 4.4.1、统一报表管理.....................................................................................................22
视频监控系统整体运维解决方案
4.4.2、统一访问.............................................................................................................22
5、部署方案...................................................................................................................................22 5.1、部署模式........................................................................................................................22 5.2、运行环境配置................................................................................................................22
视频监控系统整体运维解决方案
1、背景
随着IT系统和安防系统日趋庞大和复杂,整体运维管理工作面临着越来越大的压力和挑战。信息技术部门和运维部门总是被动的管理网络、服务器、硬件,无法快速定位故障,重复维修,运维成本高而效率低下。随着监控系统的加入,加剧了以上这些问题的严重性,所以监狱/公安/交警部门需要高效、专业的IT运维管理系统和安防监控运维系统相结合的大运维管理系统。
正非科技多年致力于大运维系统的研究与实践,自主研发IT运维系统和安防监控运维系统相结合的大运维系统,可以有效的帮助监狱/公安/交警部门的管理人员对监狱/公安/交警部门的设备进行管理和控制,大大提高监狱/公安/交警部门的设施的安全性。
大运维管理平台主要包括以下四部分内容: 创建资源数据库,理清资源。
1、理清资源是实施有效运维的前提。创建资源信息数据库,实现对外场设备(包括摄像头、视频编解码设备、立杆、取电方式等)、传输设备(光纤收发器/光端机、GPON/EPON等)、内场设备(网络设备、主机/虚拟机、存储设备、安全设备、内场维护人员、设备生产厂家和集成商技术支持人员、最终用户等)、虚拟资源(IP地址、文档资料等)等的统一管理。
资源数据库管理包括从设备登记、设备变更、设备维修、设备报废的整个过程,以便更好地跟踪和管理用户所有的资产。
2、集中监控,实现全网自动化巡检管理。
建立集中监控,自动巡检,及时向值班人员报告结果。
通过集中监控,定期对视频前端设备(摄像头、卡口、编解码器),传输设备(光纤收发器、EPON等),内场设备(网络与安全设备、主机/虚拟机、存储设备)、机房动力环境等进行可用性和健康度检查,及时发现故障并快速定位故障设备,显著降低运维人员的工作量,提高管理效率。
3、建设符合监狱/公安/交警部门的特点的运维管理系统的设计,规范日常值班与维护工作。
结合监狱/公安/交警部门的的业务特点,根据运维管理体系的设计,规划日常值班与巡检管理、故障修复管理、视频资源配置管理等运维标准化流程,实现日常运行维护工作的规
视频监控系统整体运维解决方案
范化、标准化,并沉淀运维知识与经验。
4、自动考核统计,量化运行维护质量。
基于运维管理平台基础数据进行统计分析,量化前端设备的在线率、量化运维人员的工作量、量化各类设备的综合可用率等,从宏观上综合分析所有监测对象的运维状况,并研判系统运维发展趋势,为业务系统优化、运维规划提供依据,为领导层进行系统升级、改造、扩容提供更加有效的工具,为业主单位对承接单位或者维护单位团队的运维服务考核提供数据支撑。
2、解决方案概述
全面解决方案
产品可按照用户需求和维护特点进行选配,满足用户在不同阶段的运维特点。 开放性接口设计
产品提供了丰富的API开放接口,可以方便的实现与第三方管理产品的集成和整合,符合国际/国内的标准。
跨平台系统部署
纯B/S架构,具有良好的跨系统性。 组件式平台搭建
可以更具自身业务特点,选择部署一个或多个系统功能模块。同时可以根据业务需求变化,通过部署新模块的方式对系统功能进行扩展。
3、总体架构设计
产品构架分四层:数据采集层、资源数据库、运维服务管理层、综合管理层。
视频监控系统整体运维解决方案
图
1、总体架构
数据采集层
主要实现对生产环境中I基础设施的集中监控管理,包括了对视频前段设备、传输设备、网络设备、主机/虚拟机、存储设备、安全设备、视频质量等性能采集和时间处理,并利用监控可视化平台提供可视化展现,同时支持与第三方系统(如机房动力环境系统、第三方网管系统等)集成,方式可以是数据集成和界面集成。
资源数据库
帮助用户建立统一的资源数据库。通过一系列业务建模、自动采集、调和、变更控制等手段,保证生产环境中配置项的完整性和精准性,为上层服务流程提供数据支撑。
运维服务管理层
通过规范服务流程和技术服务工作,建立一套标准的运维服务流程,围绕值班管理、服务台、事件管理、巡检管理等ITIL最佳实践,进行运维服务的流程化、规范化管理。通过完善知识库建设,实现知识库共享,从而提高信息服务效率,提高用户的满意度。
综合管理层
包括了统一运维门户、报表平台、全文检索、权限管理等主要模块,目的是保证平台不同角色的运维人员可以通过浏览器访问到跟自身职责对应的功能和视图,是信息的集中呈现窗口和日常工作的平台。
视频监控系统整体运维解决方案
4、功能方案
4.1、数据采集层
4.1.1、网络监测
能够持续自动地发现、识别和跟踪被管范围内的网络设备,自动计算出网络拓扑连接,采集网络设备的运行状态和性能参数,全面、直观地反映出网络设备和线路的整体状态。网络监控管理系统功能模块主要包括网络故障监控模块、网络性能监控模块、网络拓扑管理模块等。
网络故障监控
网络故障监控模块实现对网络故障事件的监测和定位,实时采集故障信息,实时发现那些可能导致网络运行不正常的事件,并通过告警阀值设置、实时告警显示等,准确预警和定位网络中的故障。
网络故障事件可分为网络设备故障事件、重要网络链路故障事件、网络协议故障事件等。网络设备故障事件包括网络设备出现物理宕机(如停电等)、逻辑宕机(如误操作或负载引起宕机等)、网络设备硬件故障等事件。
对网络设备故障事件的监控手段支持主动和被动两种方式,一种是主动采集方式,使用snmp、ping、rping等协议采集网络设备重启后连续运行时间、网络设备可达性等信息,通过设定连续运行时间、设备响应时间等阀值,在超过阀值后产生网络故障事件报警;另一种是被动收集方式,通过采集网络设备syslog/trap发出的故障日志信息(网络交换机设备、路由器设备发出的故障日志、防火墙切换日志等),设定信息告警级别,产生网络故障事件监控报警。
重要网络链路故障事件包括网络设备连接重要网络链路的端口物理宕(端口物理故障等)、逻辑宕(误操作shutdown端口等)、重要网络物理线路中断等事件。对重要网络链路故障的监控手段主要有两种,一种是使用ping、rping等协议测试线路的联通情况;另一种是通过采集网络设备syslog/trap发出的设备端口故障日志信息,设定信息告警级别,发出重要网络链路故障的告警。
网络协议故障事件包括网络协议运行过程中,产生的运行故障(如ospf协议运行无法
视频监控系统整体运维解决方案
到达full状态等),从而可能导致网络运行不正常的事件。对网络协议故障事件的监控手段主要是通过采集网络设备syslog/trap发出的网络协议故障日志信息,设定信息告警级别,发出重要网络链路故障的告警,或通过其他专门网络协议监控工具监控网络协议的运行情况,并通过对网络协议监控工具告警事件的处理、过滤、整合,将告警事件显示在统一的网络监控管理系统界面上。
网络性能监控
网络性能监控模块实现对网络基础设施环境性能的监控,定时采集网络性能信息,及时发现那些可能会导致网络服务质量出现明显下降的情况及故障隐患,并通过告警阀值设置、实时显示告警等,主动预警网络隐患;通过报表等工具,进行网络环境性能统计、性能趋势分析,为网络排错、网络优化、网络改造等提供依据。
根据网络监控对象,网络性能可分为网络设备性能、重要网络链路性能、网络协议性能等,网络性能主要指网络设备的CPU利用率、内存利用率、防火墙等网络安全设备的连接数、网络负载均衡设备的流量、重要网络链路的带宽利用率、Drop包率、Error包率、CRC校验错误包率、网络协议的运行性能等。
对网络设备性能的监控手段,主要是通过snmp协议采集网络设备性能,设定性能阀值,产生网络设备性能监控报警,对网络整体运行环境进行预警。
网络拓扑管理
能够自动发现网络设备间的拓扑连接,并实时跟踪和更新网络拓扑变更信息,将网络拓扑重大变更,以告警事件方式发送给统一的运维监控系统予以展现。
视频监控系统整体运维解决方案
拓扑发现
网络拓扑管理模块主要实现如下功能:
1、发现网络拓扑结构中所包含的主要网络设备的厂商的设备型号;
2、实时显示骨干网络的连通性;
3、发现和建立真实的网络连接关系,使网管系统能够真实的反映网络的实际连接状况,反映设备之间物理及逻辑的连接情况;
4、具备自动发现网络拓扑图和定制视图的功能;
5、支持灵活的拓扑视图定制功能,能够根据网络管理需要,通过过滤条件,灵活建立拓扑的逻辑图和子图;
6、网络拓扑管理模块生成的网络拓扑图中能够及时反映网络设备运行状态的变化,将设备产生的告警事件信息展现在网络拓扑图中;
7、自动网络拓扑的呈现能够根据用户的权限进行定制,不同的用户只能监控自己权限范围内的网络拓扑图;
8、网络拓扑管理模块能够建立网络资源数据库,对网络资源进行统一的管理。协议分析
网络协议分析模块实现对网络流量状况的监控,通过专门的网络流量管理工具,根据源ip地址、目的ip、协议号、服务号、自治域号等采集重要网络链路流量、网络整体流量等信息,从业务、地域、用户多角度协助管理员分析用户网络流量行为,为网络排错、网络优化、视频监控系统整体运维解决方案
网络改造等提供参考依据。
4.1.2、应用与存储监测
实现了对主机(虚拟机)、数据库、中间件、实战应用、存储系统的故障监控和性能分析。
操作系统/虚拟机监控
支持广泛的操作系统类型,如HP-UX、IBM AIX、Solaris、Linux、Windows 2000/2003/2008、AS400等多种系统平台,同时支持ESX等虚拟化平台。
1、Windows和Unix系统的监控:
(1)CPU利用率,显示系统、用户、空闲时间的百分比;(2)虚拟内存(Virtual memory)利用率;
(3)文件系统使用情况,显示磁盘空间使用情况;
(4)监视文件系统的使用率(空间使用率及I节点使用率等),当使用率超过特定阈值时向系统管理员报警;
(5)日志文件的变化情况,可跟踪操作系统、数据库及用户应用系统的日志文件,根据日志中出现的特定信息进行报警或自动执行用户预定义的动作;
(6)进程的运行情况,如进程多个实例、子进程、进程对CPU/内存的占用情况等等。当重要进程因意外原因终止时,可根据需要自动重启,并将报警信息写入事件日志。
(7)监控服务器网卡的运行状态和网络传输情况,如网卡是否DISABLE,网络是否中断或丢包等。
(8)可通过开发接口监视业务系统或指定业务进程的运行状态。
2、虚拟机系统的监控:
由于服务器虚拟化具有节省电力、空间、管理成本,并能充分利用服务器计算资源和快速部署新业务的特点,虚拟化技术已经逐渐成为主流的计算解决方案。
支持对Vmware ESX/ESXi的深度监控。
(1)系统发现的物理服务器和虚拟服务器及其相互之间的映射关系;
(2)监控虚拟服务器配置、磁盘、网络、性能等指标,对可用性进行自动评估;
(3)对虚拟服务器上部署的VM虚拟进行监测。
视频监控系统整体运维解决方案
针对 Vmware ESX/ESXi的监控有以下特点:
(1)对从统一控制台即可监控虚拟机的所有物理和虚拟组件;(2)保证VMware ESX/ESXi主机服务器以及其中的虚拟机正常运行;(2)在影响到最终用户前,及时发现和排除问题;(4)采用无代理监控模式,易于配置和管理实现。数据库系统监控
支持对包括Oracle、DB2、Sybase、Informix、MS SQL Server等在内的业界主流数据库。数据库可用性监控:能够监控数据库引擎的关键参数,例如:数据库系统设计的文件存储空间、系统资源的使用率、配置情况、数据库当前的各种锁资源情况、监控数据库进程的状态等。在参数到达门限值时通过事件管理机制发出警告,通过短信、邮件报告给数据库管理员,以便及时采取措施。
数据库文件系统监控:对数据库设备或其敏感文件所在的文件系统进行监控。空间使用情况:对数据库中的表空间进行监控,包括该表空间的分配空间、已用空间,和表记录数的情况。
数据库死锁:为避免死锁的发生,要求自动监控可用的锁资源,同时也对多个应用企图修改同一信息引起的锁冲突进行监控。
数据库进程的监控:监控数据库进程的状态,在数据库进程关闭时,给出严重警告。
中间件系统监控
支持对WebSphere、WebLogic等J2EE中间件系统的监控。
监控J2EE服务器的运行状况和资源消耗情况;包括服务器的连接数、服务器连接端口数、客户端的平均连接时间、客户端查询服务器状态的平均时间;
监控J2EE各部件(如JSP、Servlet、Java Bean、EJB)的性能和资源消耗情况;包括: Servlet、Java Bean、EJB中每个部件的平均执行时间、提交的交易请求情况等; EJB、Servlet的多种统计数据,包括被分配的Beans、在使用的Beans、空闲的Beans、超时的Beans数、等待的Beans、Servlet响应时间;TOP N Servlet和JSP的详细信息;TOP N EJB的详细信息;TOP N EJB方法的详细信息。
监控Java虚拟机的运行情况,如:垃圾回收平均的持续时间、垃圾回收的次数、垃圾回收的累积时间、JVM堆栈中的可用内存、JVM使用的CPU时间、JVM线程使用的CPU时间、使用最多CPU时间的JVM线程使用的CPU时间等;
视频监控系统整体运维解决方案
监控JDBC的运行情况,如可用的数据库连接数、连接上执行的SQL语句的效率等; 监控JMX的运行情况;
JMS服务器的状态及其详细信息,如消息大小、发送消息的数量、成功情况。支持对WebSphere MQ的监控。检查MQ通道运行状态;
检查MQ死信、错误队列深度变化情况;
队列的最大字节数,当前队列的字节数,当前队列的处理速度,队列管理器状态,错误日志。
存储监控
(1)支持的被监控的存储设备类型:
支持对业界主流厂家的SAN、磁盘阵列、磁带库等存储对象的监控。也支持通过与自带监控软件的接口进行设备监控。
(2)磁盘阵列监控主要功能:
支持符合SMI-S1.1规范的主流厂家(IBM、HP、EMC等)的磁盘阵列的集中监控和管理; 监控物理磁盘及磁盘控制器;
监控环境参数,如温度、风扇、电源电压等; 监控内部和外部的光纤连接; 监控逻辑磁盘、卷。(3)SAN监控主要功能:
监控SAN的环境参数,如温度、风扇、电压电源等;
监控光纤交换机的连接情况,包括端口状态、light、连接情况和速率等; 报告每个光纤连接的利用情况,包括每小时或每天的数据流、带宽利用率等; 监控物理磁盘和逻辑磁盘。服务可用性监控
实时监控各类实战应用和网络基础服务的可用性(如DNS、HTTP、HTTPS、TCP、FTP等),系统通过实时抽取业务系统用户访问次数,访问失败次数,访问超时次数等访问信息,支持阀值告警,当各业务系统的访问情况超出阀值时,在应用视图上通过颜色变化进行告警。
同时对应用系统模拟业务操作(如WEB模式的应用系统,通过模拟用户进行WEB登录的方式对系统运行是否正常、能否正常响应等进行测试),进行服务可用性和客户感受分析。
视频监控系统整体运维解决方案
4.1.3、视频图像质量诊断
系统支持多种诊断检测项目,包括:
清晰度 亮度
检测由于镜头聚焦不当、镜头老化导致的视频模糊
色彩
检测视频画面过暗、过亮
对比度
检测由于摄像头故障导致视频画面大面积偏色
噪声
检测视频对比度异常
叠加性干扰
检测由于各种干扰引起的噪声
强横纹
检测视频画面出现叠加线条干扰
稳定条纹
检测视频画面出现强横纹干扰
视频编码
检测视频画面出现滚动条纹干扰
信号丢失
检测视频画面出现的马赛克(块)效应
检测由于摄像头故障、线路故障等引起的视频 信号丢失
抖动 冻结
检测视频画面出现冻结异常
检测由于不稳定、外部强烈震动等引起的摄像 头持续性抖动
视频监控系统整体运维解决方案 视频剧变
视频遮挡
检测视频由于受到强干扰而发生剧烈变化
PTZ
检测画面被恶意遮挡
检测球机的PTZ功能是否正常
流媒体/网络状况 检测网络传输视频数据是否正常
支持全部的全球眼监控平台包括中兴,华为,科达、互信互通、中星电子、公众等。此外也支持主流的监控平台厂商,包括华
三、中兴力维、贝尔、先进视讯、声迅电子、蛙视、中盛益华等等;
4.1.4、传输设备监测
SBI实现对光纤收发器、EPON(以太网无源光网络传输设备)设备进行监控,实时轮询和采集设备的在线状态和性能指标。
4.1.5、分布式采集、集中管理
分布式采集、集中管理技术是相对集中式管理而言的。在分布式管理模式下,集中管理服务器把采集指令下发到采集探针,完成分管区域的数据收集处理,有效的分担了集中管理服务器的负载,尤其适合有物理隔离的大型数据中心或分布在不同地理位置的大型行业客户。
探针自带了存储功能,在网络临时中断或服务端临时关闭的情况下,探针会临时保存监测数据,待网络和服务端恢复后再向服务端传输数据,保证监测数据的完整性。探针支持在常见的操作系统下如Windows、类Unix下运行,并以服务方式自动启动,当采集探针由于某些原因无法正确运行时,探针会自动重启并迅速执行监测任务,保证监测数据的连续性。
视频监控系统整体运维解决方案
分布式采集示意图
4.1.6、统一事件平台
利用实时数据总线和高速事件处理算法,系统每分钟能处理几千条告警事件,事件经过标准化、过滤、归并、关联分析、丰富等过程最后形成准确的告警信息。当网络发生故障风暴时,系统提供了队列机制保证事件处理高效稳定,满足大型网络的实时告警监视的需要。
对于有一定技术能力的运维技术人员,可利用系统提供的事件规则处理语言,以实现更灵活的事件处理规则及扩展。通过告警的规则定义的可视化界面,帮助技术人员优化统一事件平台告警处理规则,提高告警的自动化识别和关联分析能力。
视频监控系统整体运维解决方案
事件分析处理原理
4.1.7、告警监控台
大量的事件经过处理,形成了最终需用户关注的告警,直观的呈现在告警台上,随后可对告警进行生命周期管理。在告警台上,可对告警进行确认、清除、删除或者派发工单操作,可查看告警资源当前的性能情况,分析故障根源,并利用CMDB关系对故障影响做初步判断,还可查看告警资源历史故障及工单派发、短信通知情况。独特的告警导航,可即时显示当前告警分类是否有新的未处理告警,帮助运维人员运筹帷幄,掌控全局。
视频监控系统整体运维解决方案
图1.告警监控台
系统对企业IT环境实施全天候的实时监测,一旦发现运行故障或者监测指标超过预定的告警阈值时,系统就会根据预先配置的动作策略内的告警通知方式立即通知运维人员,通知方式包括触发紧急事件工单、声音告警、邮件通知、短信通知等。
4.1.8、综合监控展示
系统提供了电信级的数据中心可视化利器——灵动可视化平台,它具备实时响应、快速设计、所见即所得的特点,可用来直观展现业务、网络、机房、机房环境等多种视图,方便管理员实时掌握整体运行情况。此外,还可以利用其独具特色的幻灯片功能,把各类视图投影在网络运营中心大屏上。
视频监控系统整体运维解决方案
图2.机房与机柜视图
视频监控系统整体运维解决方案
4.2、资源数据库
4.2.1、数据库建模
考虑到实施数据库项目的复杂性,提供最佳实践模型,可帮助用户快速落地数据库建设,有效缩短时间周期。
采用了面向对象的建模思想,提供配置项的类别、属性、关系、字典以及表单的继承和派生,并支持通过建立和应用规则来触发管理动作,扩展管理行为,如某些配置项发生变更时,可根据规则定义是否生成新的配置项版本等。数据库建模过程相当容易,全面操作都是基于可视化的界面,最大限度的适应不断变化的业务场景的管理要求。
4.2.2、配置变更控制
提供了多样化的配置变更管理方法,在管理的便捷性和严谨性取得平衡。系统支持对配置项的变更审核模式有三种:一种是走配置变更流程的审核方式,一种是简单审核模式、还
有一种是通过设定规则自动审核。三种方式适合不同的场景。
对于核心业务的配置项信息,可以选择走配置变更流程的审核方式,管理员用户选中变更区中的待审核配置项记录后,系统自动生成配置变更工单,工单审批通过后,系统自动执行审核操作。
对于简单审核模式,就是由具有配置项审核权限的管理员用户选中变更区中的待审核配置项记录后,执行配置审核操作。系统自动记录下配置审核的操作记录(如审核时间、审核人等)。该种审核方式比较适用于非核心业务的配置项信息。
对于设定规则自动审核模式,适用于变更频繁但不重要的配置信息,可保证数据准确性和合法性的基础上,大幅减少了人工审核的工作量。
4.2.3、配置可视化浏览器
资源配置项的可视化是及其重要的功能,提供了集编辑和展现一体的纯web化的CI浏览器,独特的“画布”功能,不仅能够帮助用户全面直观地查看配置项之间的关系,还能通过连线操作所见即所得的方式维护配置项关系。“画布”也支持完全的定制化,可通过勾选关系类型、显示层次数、切换布局模式、隐藏等实用功能过滤不必要的CI,方便得到更精简
视频监控系统整体运维解决方案 的视图。
4.2.4、分区化、独立管理模式支撑
支持对配置项进行分区化管理,可对数据库建立不同的管理域,为地域跨度较大、各分支机构有自治管理诉求的企业或组织提供了便捷的解决方案。使用一个平台即可实现资产配置数据大集中,既满足了上级对下级的管理要求,又不失管理上的变通性。
4.2.5、高性能、大容量系统设计
数据库的设计充分考虑了大容量环境的管理需求,在功能的全面性、用户体验以及性能吞吐、容量方面相比竞争者具备明显的优势,目前可支持40用户并发数情况下管理100万配置项的能力,单条数据查询调用达到毫秒级,绝大部分界面操作从发起到呈现小于3秒。
4.3、运维服务管理层
运维服务管理子系统是IT运维工作及对外服务接口的平台,它遵循ITIL管理框架,提供可视化的BPM流程引擎,实现流程定义、流程相关角色权限和流程跟踪控制、审计与统计以及流程关联等功能。系统基于流程引擎内置了服务台和事件等常用流程,并涵盖了巡检作业、运行值班、值班日志等实用功能。
4.3.1、值班服务台
值班服务台主要承担以下职责: 故障监控和接收用户服务请求; 故障与用户服务请求的初步支持; 确认故障,并创建和派发工单;
跟踪工单的执行,确定故障恢复并关闭工单。
值班服务台可支持IT服务水平、能力、效率和质量的提高,改善服务部门和业务用户之间的关系。同时值班服务台能够制定和执行排班计划以及日常机房、设备巡检计划,并通过监控视图对相关设备进行巡检。
视频监控系统整体运维解决方案
4.3.2、事件管理
实现对故障处理的闭环管理,由事件工单创建、事件工单派发、事件工单流转、事件升级和事件工单关闭等环节组成。
4.3.3、巡检管理
巡检计划主要是对城市视频监控系统的所有对象进行巡检、常规检查等的作业计划,使得运行维护人员能够准确、高效的完成各项日常维护任务。
1)为使巡检更加规范,巡检管理应建立巡检项的标准操作要求,并在实际的巡检过程中严格执行这些要求。应能在巡检记录进入系统时对不规范的内容进行限制。
2)为使巡检更具通用性,巡检计划应有较为灵活的模板,并具有自定义功能,自定义功能包括添加、编辑巡检计划表,但应控制相关的权限。
3)系统应提供与巡检计划相关的配置项的维护管理功能,提供特定的界面,支持对与巡检计划相关的配置项的维护管理功能,并支持相应的增、删、改、查等操作。
4)通过集成,实现与各个模块的互动,并与信息中心的值班制度联动,以此作为响应内部用户和外部用户需求的统一入口,采用集中联系点模式。
5)提供值班日志功能,便于值班用户记录每次值班的事务处理情况。
4.3.4、值班和值班日志管理
根据运维习惯,系统提供了日历化值班表、多班次排班、值班日志管理等多项实用业务功能,并与自助服务台、值班服务台进行充分结合。有效的值班管理可保证服务连续不间断,有助于运维团队人力资源合理配置,做到各项工作权责明晰,有迹可循。
所有运维人员需要填写工作日志,描述当班的工作内容,工作日志需要经过相关负责人审核。工作日志包括值班日志和巡检工作日志等。
视频监控系统整体运维解决方案
4.4、综合管理层
4.4.1、统一报表管理
系统内置灵活易用的报表设计器,通过抽取监控和维护管理各类数据,只需通过简单的鼠标拖放,便可利用精巧的数据绑定功能,完成各种样式报表的量身定制。
如:核心网络畅通率、一类(二类)摄像头在线率、卡口设备可用率、各级联网平台的存活率、各类设备(如根据品牌、型号、地域进行分类)平均无故障时间、外包团队SLA达成率、租用线路的阻断时间等。
4.4.2、统一访问
统一访问为用户提供了各种小部件构成的集中管理界面。通过与其他子系统的集成,将监控、资产和管理流程等信息在门户中进行统一展示,使各项IT运维服务工作通过统一管理门户得到有序处理。门户整合了各子系统单点登陆、权限管理以及访问日志管理等功能。
5、部署方案
5.1、部署模式
根据各个监狱/公安/交警部门的视频监控系统和运维管理现状,整体运维系统可采用集中部署模式。
在监狱/公安/交警部门的监控中心部署整体运维系统。实现分布式采集,集中数据处理,集中运行展现、分区运维管理。
5.2、运行环境配置
服务器配置
建议采用高性能服务器作为运行平台,系统运行所需的标准服务器配置(以1万个点位规模计算)包括:
视频监控系统整体运维解决方案
Web+数据库服务器:1台 运维服务管理服务器:1至2台
运维服务管理服务器的硬件配置:
CPU:建议Intel Xeon E5-2640或以上 内存:16G或以上 硬盘:1T USB接口:不少于2个;
操作系统:Windows Server 2008或以上版本 Web+数据库服务器配置:
CPU:建议Intel Xeon E5-2640或以上 内存:16G或以上 硬盘:1T USB接口:不少于2个;
操作系统:Windows Server 2008或以上版本
第四篇:用电信息采集系统运维服务报告
用电信息采集系统运维服务报告
一、用电信息采集系统(以下简称采集系统)承担着用电信息自动采集、高效共享和实时监控的重要任务,是.智能用电服务体系的重要基础和用户用电信息的重要来源。系统经过近三年建设,已投入大规模应用,城区用户已实现全覆盖,开始向乡镇延伸,抄表率等指标也纳入同业对标考核体系。随着系统的大规模建设,系统的运维服务工作将是建设后期的重点。
二、系统运维现状及问题
当前建设的采集系统主要是将智能电能表、集中抄表终端作为系统的底层基础设施,以低压电力载波、微功率无线、RS-X185 , GPRS/CDMA、光纤专网等为主要通信载体,结合先进的控制手段和软件技术,对电力用户的用电信息进行采集、处理和实时监控的系统。初步统计截止目前国家电网28个直属省公司均已建成用电信息采集系统,己安装智能电能表约1.1亿只,在运行集中抄表终端(指集中器和专变终端)约百万只。如此庞大的系统,如何保障它可靠、稳定的运行,将是后期工作重点。在当前的运维工作中主要存在如下问题:
1、缺乏专业化的维护队伍
采集系统由于其资源技术的特有和保密性,在现阶段调试和售后维护基本依靠各供应商来完成,运维工作内外部的定位和分工不是很明确,虽有供应商承担一部分工作,但因为成本和责任的问题易出现内外部维护人员积极性不高、相互推谱、相互依靠的问题。导致服务质量不高,内部人员技术掌握不深入、不全面,而且从人员结构上来说,无相应的岗位设置或相应岗位缺乏专业人员,缺乏一支具备系统和专业知识的运维队伍。
2、运维工作缺乏系统性
采集系统属于集成系统,整个系统涉及的供应商多且分散,在进行运维服
一、前言
用电信息采集系统(以下简称采集系统)承担着用电信息自动采集、高效共享和实时监控的重要任务,是.智能用电服务体系的重要基础和用户用电信息的重要来源。系统经过近三前言 年建设,已投入大规模应用,城区用户已实现全覆盖,开始向乡镇延伸,抄表率等指标也纳入同业对标考核体系。随着系统的大规模建设,系统的运维服务工作将是建设后期的重点。
二、当前建设的采集系统主要是将智能电能表、集中抄表终端作为系统的底层基础设施,以低压电力载波、微功率无线、RS-X185 , }PRSICDA}}A、光纤专网等为主要通信载体,结合先进的控制手段和软件技术,对电力用户的用电信息进行采集、处理和实时监控的系统。初步统计截止目前国家电网28个直属省公司均已建成用电信息采集系统,己安装智能电能表约1.1亿只,在运行集中抄表终端(指集中器和专变终端)约百万只。如此庞大的系统,如何保障它可靠、稳定的运行,将是后期工作重点。在当前的运维工作中主要存在如下问题:
1、缺乏专业化的维护队伍
采集系统由于其资源技术的特有和保密性,在现阶段调试和售后维护基本依靠各供应商来完成,运维工作内外部的定位和分工不是很明确,虽有供应商承担一部分工作,但因为成本和责任的问题易出现内外部维护人员积极性不高、相互推谱、相互依靠的问题。导致服务质量不高,内部人员技术掌握不深入、不全面,而且从人员结构上来说,无相应的岗位设置或相应岗位缺乏专业人员,缺乏一支具备系统和专业知识的运维队伍。
2、运维工作缺乏系统性
采集系统属于集成系统,整个系统涉及的供应商多且分散,在进行运维服务时各自为政,形成马路警察各管一段的现象,缺乏系统全面的运维思路。如:服务器是生产商,外网是通信运营商,智能电能表是电表供应商,终端设备是终端供应商,本地通信介质是相应的载波微功率芯片供应商。出现问题只是一味的头痛医头,脚痛医脚,不能从整个系统的角度出发审视和解决问题。
3、系统运维缺乏持续性和连贯性
系统运维现状及问题 随着国家电网公司统一招标模式的开展,竞争淘汰机制加剧,部分供应商难以适应此种竞争形势,被淘汰出局。更多供应商则面临地域分散、售后服务成本增大等诸多问题,而且很多地区与供应商签订的合同承诺售后服务期限已到,各供应商为降低成本导致售后服务出现断档和衔接不上的情况。
4、系统运维缺乏前瞻性
当前在采集系统运维中的思路是发生问题及时解决、处理,以提高抄表率等指标为工作目标。但对于系统运维工作来说不光需要的是能迅速地定位、解决问题,更重要的是在故障发生前能够发现隐患并消除隐患,使系统长期稳定地运行。这就要求我们在系统运维过程中,需要有一定的前瞻性,防患于未然。如果运维人员能在故障发生之前,在例行巡检之中,及时检测到故障的先兆,将故障解决在萌芽期,这样不但可以避免故障发生后,由于抢修的慌乱、业务中断所造成的经济损失。而且还可以避免故障严重化对整个系统所造成的损伤,从而延长系统的使用寿命。而这一切不但要求维护人员有深厚的功底,丰富的维护经验,还要有洞察秋毫的高度敏感性。
三、运行维护顾名思义由运行及维护两部分内容组成。运行维护不仅仅是保证系统正常运行,问题出现时能迅速定位、解决问题。而更重要的是在故障产生前,能够通过例行的巡检工作及时发现故障隐患、消除故障隐患,使设备长期稳定地运行。对设备良好、有效的维护,不仅能够减少系统的故障率,并且可以延长设备的使用寿命。基本原则就是在例行运行维护工作中及时发现、解决问题,防患于未然。目前常见的两种运维模式分别是外维和内维。
1、内维模式
指通过内部人员来承担整个系统的运行维护工作。用电信息采集技术是集电能测量技术、计算机技术和网络通信技术于一体的一门综合技术。要求维护人员在有电能计量知识和安装技能之上,还要学习采集系统工作原理,掌握终端应用功能、设置、安装和故障处理技能,根据岗位要求学习计算机原理、网络通信、采集通信和电表通信规约、了解继电保护等相关专运维解决方案及建议 业知识。不仅人员和岗位需求量大,而且专业化程度要求较高,所以此种模式在当前国家电网公司的发展状况下,存在很多弊端。
2、外维模式
指将系统运维外包给专业的服务公司,把过程交给专家,自己控制结果,外维服务正成为现代企业发展的趋势。这样不但可以降低系统运营成本,而且系统运营效率也大为提高。智能电能表、终端和系统主站等并不能够保证为企业效益做出贡献,我们需要的是采集系统对企业业务的支持,需要的是运用采集系统的结果。运维服务外维作为专业服务的一种,具有以下几点基本特点:
(1)基于企业战略发展的选择
尽管服务外维的出现是源于降低企业在系统运营维护方面的日常开支,缩减管理成本,但是现在企业选择外维服务更多的是出于培育企业核心竞争力的考虑。企业将更多的精力和资源投入到自己擅长的核心业务中,而辅助性的业务、非核心的业务则交给外部的专业人士来承担,以获得更高的整体运营效率。服务外维正成为企业实施长期发展战略的重要选择。
(2)履行服务的系统性和延续性
服务外维可以是一种长期的委托行为,一般合同履行的时间比较长,三年、五年,或者十年、几十年。有些合同也比较短,在一年以内。许多外维服务合同规定一段时问的试用期,作为对外维服务商的考察和绩效指标体系设计的基础。
(3)以采集系统之上的业务流程为外维对象
传统外维服务涉及各个行业,而采集系统外维服务的外维对象则是针对采 集系统或者采集系统之上的业务流程。随着外维服务的发展,特别是业务流程 外维的发展,采集系统外维服务包含的内容也会更加广泛,介入内部管理的层 面更加深入,以第三方的角度审视业务流程。
综上所述,采集系统运维外维模式将会成为其实施长期发展战略的明智选 择,具有重要的意义。
三、运维组织分析
用电信息采集系统是集信息通信、计算机网络、海量数据处理、电力自动化技术及营销管理于一体的集成系统,涉及业务层知识面广、技术层知识面深,必须具备足够技术和业务水平的公司方能站在系统全面的角度进行运维工作,以其服务的专业性、前瞻性、持续性来推动系统的运维工作的良性进行。
1、组织简介
南瑞集团是国家电网公司直属产业单位,2012年经过产业重组整合得到进一步发展壮大,主要从事电力系统二次设备、信息通信、智能化中低压电气设备、自动化设备等的研发、设计、制造、展与外延式扩张相结合,产业实力雄厚,销售及工程服务。集团坚持内涵式发 下设31个产业公司,京、武汉、合肥等10多个地区,形成电网自动化及工业控制、分布在南京、北信息通信、继电保护及电力电子、智能化电气设备等优势明显、业务突出的产业群,具有300多个自主知识产权的高新技术产品,初步形成覆盖智能电网各环节的完整产品链。
2、组织结构
南瑞集团组织结构划分主要分职能部门、支撑机构、专业机构、产业群四大板块,其中产业群主要包括:营销与工程总包、电网自动化及工业控制、信息通信、继电保护及柔性输电、发电及水利环保、智能化电气设备、非晶合金变压器、电线电缆八大产业。信息通信板块涵盖了智能用电的整个产品链,从智能用电硬件设备的研发、制造、生产及用电信息采集系统软件的技术开发、实施,到整个系统的维护与售后服务都有着完备的技术力量支撑,完全具备承担采集系统整体运维工作的能力和资格。
四、运维服务内容及费用核算
从用电信息采集系统的运行性能、稳定可靠性、在线状态、业务管理三个方面实现对用电信息采集系统的运维管理,基本服务内容如下:
l、服务内容
服务内容的需求是多方面的,从服务能力来区分,可以分为基础服务(包括工程服务、维护服务)、专业服务、运营咨询服务等多个方面。
(1)用户现场技术人员值守
可根据用户的需求提供长期的用户现场技术人员值守服务,保证系统的正常运转。现场值守的技术人员每天查看系统运行情况,进行整体系统性能评估,针对运行情况进行优化并提出合理化建议。(2)现场巡检服务
现场巡检服务是我公司对客户的设备及网络进行全面检查的服务项目,通过该服务可使客户获得设备运行的第一手资料,最大可能地发现存在的隐患,保障系统稳定运行。同时,我公司将有针对性地提出预警及解决建议,使客户能够提早预防,最大限度降低运营风险。(3)重要时刻专人值守服务
我公司深刻知道保证重要时刻设备稳定运行对客户成功尤为关键,因此,我公司可对客户提供重要时刻的专人现场值守支持,包括结算日或客户认为可能对其业务运营产生重大影响的时刻。
(4)系统运行分析与咨询管理服务
系统运行分析与咨询管理服务是指我公司工程师通过对系统运行状况、系统问题进行周期性检查、分析后,为客户提出指导性建议的一种综合性服务。(5)技术培训
不定时对系统的使用进行现场培训,提高客户技术实力和专业水平。
2、服务流程
我公司采用的服务方式主要为两种:一种为技术人员现场值守,另一种是定期巡检结合故障现场服务。
技术人员现场值守运行维护服务的基本操作流程如下图所示:
定期巡检结合故障现场运行维护服务的基本操作流程如下图所示:
3、费用核算
按照目前采集系统系统部署、终端类型、运行模式及地点分布,运维费用预算按进行核算,大致核算方式如下:
第五篇:运维部兼任网管监控中心管理岗位述职报告
运维部兼任网管监控中心管理岗位述职报告
一、个人岗位主要职责
主要工作职责: 协助杨主任做好运维部工作,兼任网管监控中心管理工作;
1、负责每日24小时网络监控;
2、管理网管监控中心日常生产工作;
3、定期分析网络运行质量及业务响应工作情况并进行考核;
4、负责电路调度及考核工作;
5、网间通信质量管理,协调处理有关互联互通重大、疑难问题;
6、网间业务码号开放管理;
7、组织落实交换专业的日常维护工作,制订维护作业计划;
8、制订交换专业应急调度预案,落实各项网络安全措施,确保交换专业网络的稳定运行;
9、负责交换专业的技术支撑工作,确保网络安全运行。
二、个人岗位量化指标
(一)交换专业
主要工作任务:
1、加强网络运行分析,合理优化网络,提高网络运行质量;
2、组织落实各类数据统计、报表上报工作。管控数据及标准:
1、合理组织安排交换网络调度;
2、落实应急调度预案,降低障碍处理时间,确保S1/2类故障,处理时限应不超过4小时;
3、省公司考核:交换方面,长途电话网网络接通率≥97%;本地来话接通率≥98%;本地去话接通率≥97%;
4、省公司考核:网间信令数据传送准确率达到(来源于新世纪范本网)95%以上;
5、报表上报及时率100%。
(二)互联互通
主要工作: 进一步提高互联互通网络运行质量,协调处理网间不规范主叫和异常话务问题。
1、负责协调处理本地网网间通信障碍;
2、负责网间扩容改造协调(中继增开、交换
机扩容等);
3、网间业务码号开放管理。
管控数据及标准: 根据管理局规定:要求网间话务传送每小时不规范主叫次数不大于50次。
1、一般障碍处理,处理沟通时限为24小时,如超时未解决或对方没有对障碍原因进行书面回复时,上报省公司处理;
2、重大事故后4小时内口头上报省公司,24小时内做出简要书面报告,事故处理结束后的5日内做出专题书面报告。
3、在进行网间扩容改造时应视改造内容提前通知相关运营商,并做好网间应急预案;
4、网间中继扩容因符合信产部相关技术标准(公用电信网间互联中继电路扩容技术要求)。
5、按省公司要求:每月5日前完成报表上报工作。
6、根据码号开放文件规定按时开放码号。
(三)网管监控
主要工作:
1、组织电路故障处理、派发、指挥调度,收集故障分析报告。
2、组织电路调度、测试、开通测试报告收集。
3、根据市场部的要求提供资源满足情况和投资需求。
管控数据及标准:
1、制订并严格贯彻执行各类管理制度;
2、故障处理及时;
3、分析认真,及时提交报告和报表;
4、电路调度准确合理,开通及时;
5、响应大客户中心的方案和重保需求。
三、上半年指标完成情况
1、完成交换专业各项维护作业计划,完成上半年网络运行质量分析材料汇总上报。
2、完成各交换设备扩容、局数据修改,日常故障处理工作,完成了省公司上半年的各项考核指标。
3、定期进行本网固话用户话务流量,IP电话业务流量分析,用户模块端口占用率分析,动态对全区模块进行资源调度,提高了模块端口占用率。
4、分析完成了112用户故障数据的统计工作,通过详细的故障用户数据分析,用户故障类型统计,强化相关的故障处理流程,有效降低了故障历时,减少了用户的投诉数量。
4、节前积
极进行各交换设备巡检、故障排查工作,消除了节日期间的故障隐患,定时对各局向话务进行采集分析,对话务量接近门限值的局向作动态跟踪,及时通过增开电路来疏通话务。
5、完成07年交换专业应急调度预案修订及本地网互联互通应急转接预案制订,确保了长途、本地网络节日期间高效、稳定的运行。
6、制定实施技术方案5个,累计完成省公司各项报表92份,调单40项,反馈及时率99%。
7、制订完成本地网码号升位方案和工作计划,完善升位前相关信息的统计与采集分析,顺利完成全省升位演练配合工作。
8、加强了与各运营商的沟通,节前与其它运营商商讨网间话务疏通应急预案,并及时对网间话务进行测算,对高话务量的网间中继与对方进行积极的协调与沟通及时增开电路,确保了网间通信正常。
9、配合完成中兴第二关口局建设、本地调测及初验,完成第二关口局设备交换组网方案制定,配合了网间传输第二路由构建协谈。
10、春节后对于电信拦截我方码号的情况进行积极处理,及时加强相关的观察与信令跟踪,掌握证据,上报省公司电信封堵码号情况表并提供拨测表,保持与电信进行不断的沟通、协商、处理。
11、退租了1条高港长江导航处联通公司的2M电路,6条广电2M电路以及1条电信16900互联网电路,及时核实了我方资源,减少了租用资源,节约了公司运维成本。
四、上半年管理工作主要成绩
协助主任工作,量化落实运维部思路,使各项管理规范化、制度化。
1、在做好日常监控管理、网络优化的基础上,较好的完成了一季度的维护工作。
2、认真履行中心的工作职责,尽一步完善了中心各项规章制度。
3、加强了值班制度、交接班制度、机房管理制度的执行,对违规行为适度进行考核。
4、制定了机房卫生值日制度并下发执行。
5、对仓库物品整理归类,各专业的备品备件、仪器仪表进行了整
理,补全了各项台帐。
五、目前工作中存在的主要问题
1、个人技术水平及管理水平有待进一步提高;
2、中心的凝聚力和创新力还不够高,急需提高整体队伍的素质,加强人员的培训,提高中心人员的维护水平以及障碍处理能力。
六、下半年工作主要思路
1、进一步提高语音网络接通率;
2、加强24小时网络监控工作;
3、合理优化现有网络,提高现有网络质量;
4、加强网管监控人员技术培训。
七、近期最重要的工作及工作思路
1、做好全网号码升位的准备工作,能顺利完成本次升位任务;
2、盘活资源,合理利用网络资源;
3、强化汛期24小时网络监控工作,保障全网网络安全。