Google云服务故障原因公开，只因为同时做了两项升级

谷歌宕机| 2016-08-25

本月 11 日 13 时 13 分到 15 时，Google 位于美国数据中心的 App Engine 服务出现大面积故障。其中 3% 的应用出错概率超过 50%，18% 的应用访问出错概率在 10% 到 50% 之间，14% 的应用出错概率在 1% 到 10% 之间，有 2% 的应用出错率在 1% 以下但依然高于正常水平。剩余 63% 的应用访问正常。

昨天 Google 在其云服务官方日志中公开了故障原因，原来只因为工程师们在例行维护时同时做了两件事。

出于负载均衡的考虑，Googe 的工程师配置了新的数据中心，把老数据中心一定比例的 App 迁移到了新的数据中心，然后把流量从之前的服务器导向新的数据中心。

至此相安无事，但不凑巧的是，数据中心的多台路由器正在软件升级，需要滚动式重启，网络流量处理能力不如平常。

同时，新迁移的许多应用由于启动缓慢，导致旧服务器大量重复向新服务器发送启动应用的请求，进一步加重路由器负载，最终造成偶然丢失外部用户的访问。

对此意外，Google 方面表示将会加大对硬件的投入，修正导入流量的方式，并修改针对新服务器的重试请求。

本文文字及图片出自 tech2ipo.com