您的位置：首页 > 业内资讯 > 从“支付宝故障”说起：我们的互联网为何如此脆弱?

从“支付宝故障”说起：我们的互联网为何如此脆弱?

来源：互联网运维杂谈　|　时间：2015-06-18 11:52:21 |　阅读：137　|　标签：携程支付宝　 |　分享到：

通行的做法，就是用可用性来做运维的数据看板。可用性的计算方法有简单的方法，也有复杂的方法。简单的方法就是在监控系统中搞一些探针来模拟用户监控，最后我们能得出故障的时长和可用性的时间，这样我们可以建立每天、每周、每月、每Q的可用性，可以做到分业务、分服务(更细粒度)等等;复杂的方法在模拟数据的基础上，可以把事件系统记录的时间数据拿过来作为评估的标准。另外可以把可用性上升到质量层面，这个里面涉及到的评估维度(成本、用户体验、满意度)就更多了，数据获取的来源也变得更多，有些是来自于客服系统，有些是来自于舆情监控，有些是来自于运维容量系统，有些是来自于事件系统等等，不过最终呈现的指标就是一个---质量。

运维的数据看板，最好能变成产研侧KPI的一部分，同时在运维和研发侧，需要周期性的把这份数据推送到他们面前。有了KPI，同时有了持续滚动机制，一定能建立起很好的业务质量意识。

一直觉得，数据文化，是运维能够建立影响力的重要一步，否则你就是一个支撑的支撑部门!

2、故障发生前，设定技术准则和要求

运维需要和研发建立整体的技术标准和规范要求，这块是腾讯做得非常好的地方，把海量服务提炼成多个关键词【海量服务运营之道】，网上可以搜索到。当然这些关键词对于很多企业来说，想理解准确，也会非常的困难。因此从运维的角度来说，我们需要设定一个路线图，最终服务于这个技术目标。比如说之前我提到的【运维三部曲】里面讲到了先做标准化(修炼运维内功)，然后做公共服务化(修炼架构内功)、最终服务无状态化(修炼业务内功)。

运维一定要把标准化作为核心要务来推进，建立标准化的运维环境，建立标准化的技术栈(和研发确定)，建立标准化的高可用方法论，最终这个业务的可用性一定是有保证的。

3、故障发生时，恢复是第一要务

故障发生的时候，“恢复、恢复、恢复”必须是运维人脑子里面要时刻记住的。

小编推荐阅读