运维应急预案共3篇(维保应急预案)
下面是范文网小编收集的运维应急预案共3篇(维保应急预案),欢迎参阅。
维保应急预案
一、日常应对紧急故障的准备
为应对紧急故障发生日常应做到以下几点: 1、建立应急小队
故障急小队应由维保人员(吴育群、王鑫、王程)组成,每次紧急事故的处理人员应根据事故的大小和现场确定,每次事故派遣人员应不少于两人。 2、备用易坏部位的备品备件
为确保发生紧急故障时能及时更换损坏部件,应购买相对应的备品备件以作应对,如法兰、弯头、垫片、喷头、模块、探头、手报、继电器、小型抽水泵等。 3、保持通话畅通
维保人员应保持24小时电话畅通,随时接听紧急电话,确保及时赶到现场。 4、对用户单位进行消防操作培训,强化消防意识
平时对用户单位安保人员进行消防操作培训,如关闭蓄水阀门,控制阀,开启关闭配电箱、控制箱等有助于对突发事件的处理和控制,减少财产损失。 二、发生紧急故障时应对方法
在紧急故障发生时维保人员应在2小时之内赶到故障发生地点,进行维保抢修。
1、接到维保单位紧急故障电话,首先应询问具体故障情况,包括故障发生时间、故障部位、故障现象、故障持续时间、故障危害程度。如故障比较严重,应让用户单位保卫人员立即将故障发生现场戒严起来,阻止外来人员进入故障现场,以免发生不必要的人员伤害。
2、了解紧急故障的情况后,应赶紧制定故障解决方案。为减少故障时间、避免财产损失,故障解决方案应在维保人员到达前制定完成。故障解决方案至少应在两套,一套主用,一套备用。制定的故障解决方案,应是安全的、可行的、符合故障现场要求及国家规范的、能够达到解决故障效果并且不带来任何损失的方案。紧急故障的解决方案制定应由维保负责人员及维保人员共同参与讨论,维保负责人员制定,并得到部门领导审批同意。紧急故障解决方案应包括以下内容: (1)故障分析 (2)解决方法 (3)执行步骤
(4)执行人员的职责及分配 (5)需要协助的事项
如需用户单位人员协助,应在到达故障现场之前联系好,并将需要协助的事项交代与用户单位协助人员,提前准备好。
3、解决紧急故障应按提前制定的方案逐步执行,不得随意更改。在执行方案过程中维保人员应注意用电安全、用水安全、机械使用安全。不得随意乱接乱搭电线,不得随意拆卸阀门。在用电前应测试电流电压;在拆卸阀门管件之前应确定拆卸的位置是否准确,管道内是否待压待水及老化程度等;在使用机械时应安操作规范使用。
4、故障解决完毕之后,应做详细的记录留底,便于以后的维保及故障原因的查明。故障解决记录应做成表格形式,一试两份,用户单位一份,维保单位一份,并让用户确认签字,证明故障解决。为了故障再次发生,还应制作故障汇总记录, 故障汇总记录应包括故障发生的时间、地点、原因及故障解决的经过、结果。为下次解决紧急故障节约时间,积累经验。
江苏省钟星消防工程有限公司
编制人:闫 波
维护应急预案
维稳应急预案
三维应急预案
客运站应急预案
信访维稳应急预案
项目事故应急预案
1.编制目的
建立健全项目事故应急机制,提高XXXXXXXX应对项目实施过程中突发事故的能力,保持实施体系稳定,保障客户方权益和客户满意度,促进业务健康、可持续发展
编制依据
依据XXXXXXXXPMO发布《项目质量事故预防与处理制度》,制定本预案。
事故分级
按照突发事故严重性和紧急程度,突发质量事故分为特别重大质量事故、严重质量事故、一般质量事故和轻微质量事故四级。
a) 重大:由于项目组的不规范操作、不规范管理,对系统生产环境造成严重的数据丢失、系统崩溃、当机,以及造成重大经济损失,严重影响客户满意的质量事故,定义为重大质量事故。
b) 严重:由于项目组不规范的情况下对系统生产环境所做操作,而造成对系统生产环境的严重影响(如造成数据丢失、数据混乱)、造成一定程度经济损失,但能通过应急措施补救、挽回部分损失的事故,定义为严重质量事故。
c) 一般:由于项目组在未得到客户方授权的情况下对系统生产环境所做操作,而造成对系统生产环境数据损坏或混乱,但未造成较大程度经济损失,通过应急措施可以有效保证数据完备的事故,定义为一般质量事故。
d) 轻微:未对系统生产环境造成数据影响,但不符合规范化操作和管理要求,对系统整理质量存在较大风险,且造成项目资产的不完整,造成轻微经济损失的。如未对代码做及时定期的备份,导致代码版本的不完整或代码版本管理混乱的,定义为轻微质量事故。
适用范围
本预案适用于XXXXXXXX负责实施、管理的全部项目。 2.组织指挥与职责
应急责任人
项目经理为项目应急责任人。
应急协调人
项目经理必须在发生质量事故后2小时内,向所在部门经理客观反馈问题,由项目经理初步判定项目事故等级。
级别在一般(包含)以下的事故,由项目经理作为应急处理协调人,负责总体监督、协调。
级别在严重(包含)以上的事故,由部门经理作为应急处理协调人,负责总体监督、协调。
专家组
实施支持中心作为实施专家团队,负责应急处理支持,由应急责任人在接到事故时,进行协调通报。
级别在严重(包含)以上的事故,实施专家团队必须指定专人参与事故应急处理,负责支持进行项目影响评估、损失弥补方案等工作。
涉及外包项目
整体或部分外包项目发生事故时,外包商必须指派项目经理的直属上级作为应急处理外包方协调人,外包方项目经理作为外包方负责人,由外包方负责人直接参与项目事故应急处理,协调人负责资源协调;涉及外包人员事故,该人员必须直接参与应急处理。事故应急处理完毕后再根据公司制度对上述公司或个人执行惩罚。
涉及第三方供应商
涉及第三方供应商的项目事故,第三方商必须指派专人负责,直接参与项目事故应急处理,事故应急处理完毕后再根据公司制度执行惩罚。
3.事故处理程序
事故响应 事故发生后,应成立事故应急处理小组,由责任人、协调人、专家组组成,第一时间响应事故处理。
事故通报
根据《项目质量事故预防与处理制度》和事故级别,及时进行内部通报,内部通报后即时向客户方相应人员进行通报。
事故分析
事故发生2个工作日内,应急责任人必须到达客户现场,并由专家组或其他技术人员开始事故分析,找寻事故发生原因,进行事故损失评估,制定修复方案。
修复
根据事故原因,修复系统问题,杜绝后续问题复现。根据修复方案,进行事故修复,降低事故损失。
善后
出具系统事故报告,并由客户方签字,至客户方签字标志事故处理结束。
运维故障应急预案
V
精品资料
深圳市 XX 科技有限公司
修订记录
版本编号
版本日期 2014-5-13
修订人 CC
说明 初稿
1 机房失火,断电,断网
紧急预案
1) 全国各区域陆续反馈访问网站出现无法访问。
精品资料 2) 运维人员通过监控状态, 无法远程登录服务器, ping 不通服务器。 并紧急联系机房人员,
询问初步情况,则可判断是否出现机房失火,断电,断网。 3)技术部给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一 部分是对公司内的通告, 包括事故的影响、恢复的时间;
一部分是对公司外,描述因为系统升级,而导致网站不能访问。 再次紧急联系机房供应商,询问故障的发生原因,故障的严重性,是否后续能正常恢复 服务。
5)如故障严重,先能否挽救服务器,以存储服务器为优先。若存储服务器受损,则想办法恢复数据;若无法恢复数据,则修改通告内容,告知业务部门要重新导入全部数据。 6)视故障影响范围,统计出未受影响的服务器。
7) 如果是机房失火,断电,断网导致机房不可用,则尽快联系新的机房,开始重新搭建服务。
8) 评估网站恢复的时间点,修改通告内容。
风险预防
杭州和深圳均实施数据跨机房备份。
2.区域性网络故障问题
紧急预案
1) 全国某个区域短时间内有多个客户反映无法访问网站,其他区域访问正常。
2) 运维人员通过监控状态,远程登录服务器查看机房服务器服务状态,判断是否存在服务异常。
精品资料
4)
3) 如机房服务正常,运维人员测试出现故障区域的网络连接与 dns 解析是否正常。4)如果网络连接或者 dns 解析不正常,则可认为出现了区域性网络故障问题。5)给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是 对公司内的通告,包括事故的影响、
恢复的时间; 一部分是对公司外受影响的区域客户,描述因为客户所在区域网站故障,而导致网站不能访问。 6)尽快联系当地运营商,询问网络故障的情况及恢复时间。
风险预防
网站 CDN 镜像。
3.域名失效故障
紧急预案
1) 全国各区域陆续反馈访问网站出现无法访问。
2) 运维人员通过监控状态,远程登录服务器查看机房服务器服务状态,判断是否存在服务异常。
3) 如服务器服务正常,再通过
DNS 检测工具并发现域名 IP 指向异常,则认为出现了域名失效故障。 4)给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是 对公司内的通告,包括事故的影响、
恢复的时间; 一部分是对公司外, 描述因为域名运营商
DNS 解析故障,导致网站不能访问。
5) 登录并查看域名供应商平台设置解析配置,
若是域名供应商配置有问题, 则修正该配置;
若是 DNS 解析平台故障,则寻找另外的
DNS 解析平台,重新配置 DNS 解析。
精品资料 6) 告知业务部门,临时处理解决方法。发出修改 hosts 的 bat 脚本给各区域销售和客服团队,并告知允许脚本前要先退出
7) 跟进全国域名解析的进展。
QQ 管家。
8) 全国域名恢复后,撤出通告,并通知内部人员。
风险预防
1) DNS 加固安全锁。
2) 每个月更换域名供应商和
DNS 解析平台的密码。
4.机房网络设备,服务器故障
紧急预案
1) 全国各区域陆续反馈访问网站出现无法访问。
2) 运维人员通过监控状态,远程登录服务器查看机房服务器服务状态,判断是否存在服务异常。
3) 如无法正常登录服务器,
ping 服务器不通,并紧急联系机房人员,并询问初步情况,则
判断是否出现机房网络设备,服务器故障。
4) 给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是
对公司内的通告,包括事故的影响、
恢复的时间; 一部分是对公司外, 描述因为网站升级改造,导致网站不能访问。 5)逐个设备,服务器登录检查,找出有故障的设备,服务器。再次联系机房人员,检查相 应的设备,看是否能正常恢复运作。
6) 收到机房人员的反馈后,若设备,服务器还可用,则与机房供应商共同执行修复措施;
精品资料 若设备,服务器完全损坏,则让机房供应商协助购买新设备, 服务器或者借用现有设备,服务器。
7) 配置新设备,服务器搭建运营环境。
风险预防
1) HA 热备,消除重点设备的单点问题。
2) 确保配置文件均有备份。
精品资料
Welcome To Download !!!
欢迎您的下载,资料仅供参考!
精品资料