在故障的当下,定位故障原因是大忌,这往往让故障时长变得不可控,因为会直接影响MTTR(平均修复时间),影响用户的业务使用。不过有人会有疑问,不知道故障原因怎么知道如何解决?从经验来看,你一定有一些简单粗暴的原则去隔离故障,比如说服务器重启,链路禁用,DNS切换等等。
4、故障发生后,仔细的复盘
每一次故障发生后,运维人需要牵头去复盘故障,刚刚说了我们恢复是第一要务,所以故障的根本原因我们可能还不知道,此时就需要运维、测试和研发一起仔细的去看整个的故障过程,看看到底哪儿有什么问题?基本上也是从刚才说的四个方面来评估。不断的审视我们运维的能力和IT的能力,说“故障是运维最好的老师”的原因也在于此,它能够不断驱使我们走向更高的成熟度。
运维是复盘的首要负责人,复盘是为了找到根因(Root Cause),根因和故障现象不同,举个例子,故障现象是交换机故障,根因是因为技术架构没有对交换机故障做到容错,根因是运维对这种故障缺乏有效的临时应对机制。
复盘是为了让我们走向更好的运维阶段!
5、故障发生后,复盘措施有讲究
故障复盘后,我们一定会写改进措施,对于这些改进措施,还是有些讲究的,看过一些故障报告,非常的不合要求。我个人的经验如下:
故障的措施必须是可落实,且具体的,要落实到具体的负责人,具体的时间
故障的措施优先是必须技术的,然后是流程,最后是人的
故障的措施可以分为长期措施和临时措施
故障的措施一定要仅仅扣住故障的根因,避免流于形式和表面
故障的措施切忌“亡羊补牢”式的,需要全面细致的分析
故障的措施一定要保证后续的持续跟进
一叶可以障目,但也可以一叶知秋,就看我们是否真的去认真对待。你们真的重视故障了么?你们真的重视运维了么?故障不能带来运维人的春天,从根本上去意识到运维的重要性,那才是运维人真正的春天。
小编推荐阅读《明日之后》秋日森林宝箱位置探索攻略技巧大全(揭秘宝箱位置,轻松获得珍贵道具)
阅读姜子牙打野技能加点攻略与技巧大全(王者荣耀姜子牙打野出装及技能加点详解)
阅读《一起来捉妖春节活动技巧攻略指南》(尾火虎打法技巧详解,助你顺利抓妖)
阅读《暗区突围听声训练全攻略最新指南》(游戏迷必读,提升听觉技能的最佳方式)
阅读《崩坏3》鬼铠重磁暴斩解析最新(属性、技能、加点一网打尽,玩转鬼铠重磁暴斩)
阅读《鬼泣巅峰之战》铭文升级攻略技巧指南,让你的英雄更加强大!(打造超级英雄,从铭文升级开始!)
阅读《别惹农夫》小青隐藏皮肤解锁攻略技巧大全(掌握这个关键,你也能拥有小青的另一面)
阅读英雄联盟手游32新符文效果一览大全最新(掌握新符文,搭配出最强阵容!)
阅读反斗联盟小护士勋章搭配推荐攻略秘籍(打造最强小护士,让你成为团队中的主力!)
阅读混沌之钻获得途径大全最新指南(黑色沙漠手游中如何轻松获取混沌之钻)
阅读《和平精英》祝福卷轴分布位置一览大全最新指南(找到祝福卷轴,开启属于你的福利!——以游戏为主的地图指引)
阅读《王者荣耀》云缨装备获取技巧攻略(一步步教你获得最新皮肤,)
阅读《DNF》阿拉德谋略战智慧试炼攻略秘籍大全(打法技巧、关卡攻略、神器使用)
阅读《坎公骑冠剑》速度解析攻略指南(闪电都比不上的极速体验,游戏技巧大揭秘)
阅读探索《幻塔》攻略指南中艾达死士的秘密(跟随任务线一步步揭开谜团,探索了解游戏中的角色人物)
阅读