通行的做法,就是用可用性来做运维的数据看板。可用性的计算方法有简单的方法,也有复杂的方法。简单的方法就是在监控系统中搞一些探针来模拟用户监控,最后我们能得出故障的时长和可用性的时间,这样我们可以建立每天、每周、每月、每Q的可用性,可以做到分业务、分服务(更细粒度)等等;复杂的方法在模拟数据的基础上,可以把事件系统记录的时间数据拿过来作为评估的标准。另外可以把可用性上升到质量层面,这个里面涉及到的评估维度(成本、用户体验、满意度)就更多了,数据获取的来源也变得更多,有些是来自于客服系统,有些是来自于舆情监控,有些是来自于运维容量系统,有些是来自于事件系统等等,不过最终呈现的指标就是一个---质量。
运维的数据看板,最好能变成产研侧KPI的一部分,同时在运维和研发侧,需要周期性的把这份数据推送到他们面前。有了KPI,同时有了持续滚动机制,一定能建立起很好的业务质量意识。
一直觉得,数据文化,是运维能够建立影响力的重要一步,否则你就是一个支撑的支撑部门!
2、故障发生前,设定技术准则和要求
运维需要和研发建立整体的技术标准和规范要求,这块是腾讯做得非常好的地方,把海量服务提炼成多个关键词【海量服务运营之道】,网上可以搜索到。当然这些关键词对于很多企业来说,想理解准确,也会非常的困难。因此从运维的角度来说,我们需要设定一个路线图,最终服务于这个技术目标。比如说之前我提到的【运维三部曲】里面讲到了先做标准化(修炼运维内功),然后做公共服务化(修炼架构内功)、最终服务无状态化(修炼业务内功)。
运维一定要把标准化作为核心要务来推进,建立标准化的运维环境,建立标准化的技术栈(和研发确定),建立标准化的高可用方法论,最终这个业务的可用性一定是有保证的。
3、故障发生时,恢复是第一要务
故障发生的时候,“恢复、恢复、恢复”必须是运维人脑子里面要时刻记住的。
小编推荐阅读
《明日方舟》最强先锋干员推荐指南(打造最强先锋战队,从干员推荐到培养全解析)
阅读《魔兽世界》怀旧服技巧指南大全(挑战圣光的召唤任务,为部落联盟赢取荣誉)
阅读探寻江湖中的宝藏——寻找《烟雨江湖》西子君剑线索的攻略技巧最新(游戏中怎样获得西子君剑线索?)
阅读星露谷物语下水道屏障破解攻略技巧指南(助你轻松突破下水道难关,快速获得丰厚奖励)
阅读《燃烧意志路奇加点攻略技巧指南》(航海王游戏中路奇如何加点,最新推荐汇总)
阅读王者荣耀史诗皮肤卡意思一览大全(探索王者荣耀史诗皮肤的故事,了解背后的涵义)
阅读《重返深渊锁镰》武器攻略大全最新(每把武器攻略,助你通关游戏)
阅读《DNF》游戏牛郎星的光辉快速获得攻略技巧(跨越星际尽享荣耀)
阅读探秘梦幻模拟战手游雾风的技能属性攻略(雾风技能解析,让你成为游戏中的绝佳战士)
阅读怎样选择合适的门派成为《我的侠客》游戏高手?(掌握门派特点,选择最佳武功路线)
阅读《以阴阳师樱之忆为例,详解如何预约樱之忆》(预约方法、注意事项、常见问题讲解)
阅读