第一篇:舟山城一卡通有限公司技术部管理制度-浙江舟山大宗商品交易所
浙江舟山大宗商品交易所 风险防控办法(暂行)
一、工作原则
1、统一指挥、密切协同、快速反应、科学处置。各系统实行谁主管 谁负责、谁运行谁负责。按各自职责划分,分级处理,层层负责。
2、预防和处置相结合,以防为主。加强风险排查,减少故障隐患,做好应急处理各项准备,严格执行信息技术部相关规定和制度。
3、果断处理,有效应对。发现故障要紧急报告,快速启动应急预案进行处置,最大程度减少各类故障对交易系统造成的危害与影响。
4、重大故障、严重故障、较大故障要报主管领导。对已处理的重大故障和严重故障,事后必须做故障分析,查清故障原因,确定故障性质和责任,采取防范措施,避免同类故障再次发生。
二、应急准备
1、信息系统管理员、网络管理员、数据库管理员、主机管理员、安全管理员等关键岗位必须有主、备岗,并熟练掌握应急预案、操作步骤和方法,确保能够有效应对各类故障事件。当系统发生故障,主要负责人必须立即组织抢修,不得拖延。
2、信息技术部相关工作人员必须保持7*24小时联络通讯顺畅,将维持交易系统稳定运行作为第一工作原则。
3、与相关单位签订通信、消防、电力设备、空调设备、软硬件产品的应急及服务保障协议,确保在应急处置中相关单位能提供及时有效的技术支持。
4、储备一定数量的通信、消防、应急、照明等设备或物资以及交易系统重要设备的相关配件,确保应急处置中应急物资的及时供应。
三、故障分级
系统故障等级共分四级:
I级
重大故障
在系统运行期间,关键设备(包括传输或其它专业所属设备)、软件故障造成所有交易所业务中断超过4小时。
II级 严重故障
在系统运行期间,关键设备(包括传输或其它专业所属设备)、软件故障造成下列情况之一的系统故障:
(1)所有交易所业务中断超过1小时但不超过4小时;(2)交易所个别重要业务中断超过4小时。
III级 较大故障
在系统运行期间,关键设备(包括传输或其它专业所属设备)、软件故障造成下列情况之一的系统故障:
(1)所有交易所业务中断超过半小时但不超过1小时;(2)交易所个别重要业务中断超过半小时。
IV级 一般故障
除上述故障外的其它故障。
四、应急预案
1、网络故障应急预案
1.1网络故障发生时,值班人员首先检查机房设备情况,判断故障节点,查明故障原因。
1.2确认原因后,启用备用线路和设备,保证网络的正常运行。然后联系网络维护人员,及时处理和排除故障。
1.3当确认原因为短时间无法恢复或自行无法修复的,应及时向负责领导汇报,并通知相关维护单位或设备厂商,及时处理故障。
2、信息安全应急预案
2.1服务器系统文件及数据库必须进行有效备份,当服务器系统被攻击后遭到破坏,应立刻启动备份系统对服务器操作系统及数据库进行修复和还原,保证服务器的正常运行。
2.2当发现网站出现非法信息、网页内容被篡改时,技术人员应立即对非法信息进行清理,根据相应日志和审计记录进行分析,强化安全防范措施,并将网站恢复使用。
2.3当通过入侵检测系统发现有黑客正在进行攻击时,应先将被攻击(或病毒感染)的服务器等设备从网络中隔离出来,判断攻击来源和目的,跟踪并锁定攻击来源,分析攻击所利用的漏洞,修复并恢复系统。
3、服务器和数据库故障应急预案
3.1发生服务器和数据库系统故障后,应及时组织启动备份服务器系统,由备份服务器接管相关业务应用。
3.2联系相关维护人员迅速查找故障原因,如短时间无法恢复,应该及时向负责领导汇报。
3.3如维护人员能够自行处理应立即用备件替换受损件,如无法处理,应立即联系设备提供商委派技术人员维修。
3.4如需重启故障服务器的必须通知相关领导后方可重启,重启系统成功后,需检查数据丢失情况及相应的应用系统是否正常。
4、电源系统故障应急预案
4.1当机房发生市电供电突然停电或是电源异常时。首先应和电力公司或IDC机房提供运营商联系确认正常停电以及预计停电时间。检查不间断电源的电池可供电时间,确保设备正常运行,如遇到突然断电,应及时将空调等不在UPS电源供电范围内的设备及时断电,预防突然来电时瞬间电流过大导致设备损坏等现象。
4.2当确定停电时间超出机房UPS承载范围后,首先确定停电的范围以及受影响的设备范围。并及时通知各相关部门做好停电应急准备。然后通知各维护负责人到达现场,做好各设备的电源停电准备。
4.3如是灾备中心在UPS供电电量仅剩10%之后,严格按操作手册停掉各服务器的电源,最后停核心交换机和路由器,等待电力恢复。如是生产中心UPS供电量仅剩10%之后,应将生产系统切换到灾备系统后,再严格按操作手册停掉各服务器的电源,最后停核心交换机和路由器,等待电力恢复。
4.4当确定停电原因是在本身供电系统范围内,立即汇报给负责领导,并及时联系相关维护人员达到现场检修。
4.5恢复供电后,严格按照操作程序逐步恢复机房设备和UPS的供电,以防瞬间电流过大造成设备损坏。
5、消防火灾应急预案
5.1当机房发生火警时,在机房工作的人员应及时紧急撤离,并立刻拨打119报警和通知相关领导,做好火灾的处置工作。
5.2在确保自身安全的情况下,应尽量使用灭火器进行灭火,减少电子设备的损坏。同时采取关闭电源总闸等措施,尽量减少可能造成的损失和破坏。
5.3火情结束之后,机房相关人员应全体赶赴现场。同时立即联系相关厂家,及时评估事故损失情况,研讨恢复网络系统正常运行的最佳解决方案。
6、自然灾害和盗抢应急预案
6.1当发生地震、洪水等不可抗自然灾害后,首先应该组织人员撤离现场。当确认灾害不会造成人生伤害后,再回到机房检查设备,积极做好灾后恢复工作,确保在最短时间内恢复机房正常运行。
6.2发生盗抢事件后,要保护好现场然后报警,并向领导汇报情况。待现场处理完毕后,要组织相关人员估计损毁情况,并联系相关厂家,积极做好恢复工作。
五、故障通报
1、发生严重故障或重大故障时,由部门领导直接向公司总经理和上级部门汇报。
2、发生较大故障时,由部门领导直接向公司总经理汇报。
3、如遇特殊情况也可越级上报。
4、发生一般故障时,由系统维护人员直接向部门领导汇报。
5、当出现值班人员不能解决的故障时,值班人员应立即上报系统维护工程师和部门主管。
6、故障处理完毕一天内,系统维护工程师写出故障报告,上报部门主管,较大故障以上要报公司高层。
7、当发生故障时,机房值班人员应将故障发生经过详细进行记录。
8、出现故障后,由技术部指定专人向相关部门通报故障影响范围和处理情况等。
六、各组职责及联系方式
1、技术支撑组
技术支撑组负责公司IDC机房和办公机房的主机、网络设备、数据库、操作系统等的管理和建设。包括IBM小型机、IBM存储、IBM PC Server、CISCO交换机、Neusoft防火墙、radware负载均衡等设备和相应的操作系统,确保交易所所有设备的正常运行。
2、信息支撑组
信息支撑组负责大宗商品交易服务平台应用系统的设计、建设、优化、维护、培训、指导等工作,保证其安全、可靠、正常运行。应用系统主要包括交易系统、门户网站、金融系统、物流系统、口岸通关、数据共享和数据交互平台等。