您的位置：首页 > 业内资讯 > 谷歌是如何做到几乎从不宕机的？

谷歌是如何做到几乎从不宕机的？

来源：互联网　|　时间：2016-04-12 13:52:58 |　阅读：123　|　标签：谷歌　 |　分享到：

不过目前Google已经进入到一个新的阶段，它更愿意讨论SRE的相关问题了。（这主要是因为Google想推销自己的云服务，以便外界公司能够用上自己的软件服务。）不仅如此，Google还专门写了一本书来探讨关于SRE的问题。

好吧，这本书的名字就是Site Reliability Engineering。此书刚刚被O’Reilly（译注：一个专注于科技类书籍的出版公司）出版，而来自Sloss的那篇论文被作为此书的第一章。如果你对DevOps感兴趣，那么此书在必读之列；即使不感兴趣，这本书的开头——序言、介绍以及第一章——也足以让我们了解到Google这个全世界最大的网络帝国的驱动之道。

对于很多科技公司——其实也可以是科技圈之外的所与人——而言，系统管理（或者说运作，随你怎么称呼）是收尾工作，是计算机科技最烦人的一个方面之一。但是Sloss，也就是外界所知道的Google内部负责“不间断运行”的副总裁，却把这个问题反过来看，辩称网站可靠性“是所有产品最基础的功能”，毕竟，“如果一个系统不能工作，那么它一点用处都没有。”

黑格尔的对立统一理论

Sloss就是SRE的原点。早年Google招他来负责公司的运营项目时，他创立了这个项目。“当你要求一个软件工程师去设计一个运作团队的时候，SRE就产生了”，他说，“我设计并管理这个团队；这个团队运作起来就像我自己是一个SRE一样。”

Todd Underwood目前是Google的一个SRE总监；他认为Google雇佣Sloss这样的码农是一件非常自然的事情。“当Google还处于早期发展阶段时候，就已经有软件工程师很清楚地意识到哪里会出问题以及如何解决这些问题，但是他们中没有人愿意亲自去处理这些事情。”

这其实是一件麻烦事。但是Chef的CTO（首席技术官）Adam Jacob也认为要想成长为一个大体量的公司，做出这种转变也是应该的。“将软件开发和实际运营连接在一起是一件非常自然的事情，你不可能将两者自然分开；尤其是当你历史地看待这个问题的时候，你可能会更加意识到这一点。”

小编推荐阅读