机房故障管理办法
为了减少机房故障的发生率并提高故障发生时的处理效率,特制定此管理办法,机房所有人员均需按此办法严格执行。
故障分级管理
一、故障处理规范
1、障碍定界
l 我方障碍:立即博备用网址_立即博赌场-游戏平台采用各种方式进行合作的厂商因为自身软硬件等原因引起的障碍及业务中断。
l 外部障碍:除我方障碍之外的原因引起的障碍及业务中断;
2、系统分类
l 关键业务系统:用户影响面大、影响业务收入额较大、或对立即博备用网址_立即博赌场-游戏平台有特别意义和影响的业务平台或系统。
l 基础系统:如机房供电系统、空调系统、消防、机房网络核心层、机房网络汇聚层等。
l 关键用户系统:指在特定的时间范围内,由于用户本身对门户网站的影响和意义不同,或由业务中心和信息化建设领导小组拟定的需要特别对待的部分客户系统。
注:
关键用户清单由业务部门整理提交,报本部门领导审批后,提交信息与教育技术中心存档,各生产维护部门必须将关键用户清单作为故障处理的必备资料。清单可根据实际需求随时增减用户,清单修改后需及时报运维部运维管理。关键业务系统、关键用户清单由运维管理组织进行定期或不定期审核,保证其有效性。
二、故障分级管理
(一)重大事项定义:
1. 数据网(或骨干)网设备系统瘫痪。
2. IT系统故障,影响上层应用软件运行,造成系统基本功能无法实现,持续时间超过1小时;导致关键数据丢失,且无法恢复;导致大面积实时业务中断,或业务中断造成严重后果;
3. 供电系统故障,导致一、二干局站或重要局站通信阻断;机房空调故障,造成本地网内某专业网络通信阻断的故障;供给计费、网管等重要设备电源的大型UPS输出中断;任何原因引起的电源设备着火、内部短路故障。导致IDC机房功能受损的动力环境系统故障。(即:机房支撑系统发生故障造成通信、系统故障)
4. 突发事件:包括通信设施遭受火灾或突发的恐怖袭击。
(二)重大故障定义:
业务平台重大故障是指对业务平台(关键业务系统)所承载的业务产生重大影响的故障,包括业务平台在运行中出现的系统瘫痪、服务中断以及导致系统基本功能不能实现的故障等。
(三)一般故障:除重大事项、重大故障外,对业务造成了影响或中断的故障。
(四)未定级故障:未对业务造成中断或影响的故障。
故障上报制度
一、重大事项及业务平台重大故障上报要求
1、机房应遵循日常通信维护工作请示汇报制度,一旦发生重大事项或业务平台重大故障,要立即上报信息与教育技术中心,并协调各业务部门通知业务受到影响的用户。信息与教育技术中心在接到上报后应立即将情况向信息化建设领导小组汇报。
2、故障期间,信息与教育技术中心随时向信息化建设领导小组汇报故障处理进展情况。
3、重大事项口头报告内容应包括事项发生时间、地点、状况、影响范围、事项原因初步判断、已经或即将采取的措施。简要书面报告内容应包括事项发生时间、地点、状况、影响范围、事项原因初步判断、事项初步处理措施、事项预计恢复时间等。专题书面报告内容包括事项发生的时间、地点、状况、影响范围、事项原因、事项历时、处理结果、责任认定、未来防范措施等。
4、业务平台重大故障口头报告内容应包括故障发生时间、地点、预计业务受到影响的范围、故障原因初步判断、已经或即将采取的措施。简要书面报告内容应包括故障发生时间、地点、状况、业务受到影响的范围、故障原因初步判断、故障初步处理措施等。专题书面报告内容包括故障发生的时间、地点、状况、业务受到影响的范围、故障原因、处理结果、责任认定、未来防范措施等。
5、如因时间关系,维护人员未能在重大故障专题书面报告中说明故障确切原因的,应在故障处理结束后3个工作日内向信息与教育技术中心提交补充专题书面报告,补充上报故障确切原因。
二、一般性障碍及关键用户重大故障上报要求
1、机房维护人员发现故障应及时上报信息与教育技术中心,在受理技术支持派发的故障处理任务后,应及时进行处理,如判断不能处理的应在10分钟内报上级技术主管处理,故障处理规定时限内不能及时修复的故障应及时上报监控中心。并作为故障处理第一责任人承担故障处理和处理结果反馈的责任。
2、故障期间,机房维护人员应及时向信息与教育技术中心上报故障进展情况。
故障分析
一、技术支持故障分析
技术支持以月度为单位,从故障时长,影响范围及发生频率等角度对故障进行统计分析,并将信息上报领导及反馈信息与教育技术中心,以便于提出改进措施。
二、各专业故障分析
由专业牵头人员(如机电工程师,机房班长)对影响范围大,发生频率高的故障以专题形式进行分析,必要时可与发展中心等相关部门进行沟通商议,并提交详细的分析报告,事后对机房所有人员进行培训,以避免类似故障的再次发生。