6月13日凌晨,谷歌云突发全球性服务中断,持续时间超过3小时,导致OpenAI的ChatGPT、电商巨头Shopify、支付服务Square等依赖其基础设施的众多平台陷入瘫痪。
根据谷歌云的状态页面显示,此次宕机始于太平洋时间上午10:51。谷歌方面表示,“我们正经历多个GCP产品的服务问题”,工程团队随即投入到紧张的调查当中。然而,随着时间的推移,问题的严重性逐渐凸显。当天晚些时候,谷歌不得不承认客户“仍在经历不同程度的影响”,并且对于服务何时能够全面恢复,公司并未给出明确的预计时间。
那么问题来了,当一家科技巨头的服务器故障能让半个互联网“停摆”,我们是否过度依赖中心化云计算?
从技术故障到全球连锁反应
据谷歌云官方事故报告,此次宕机源于“身份和访问管理(IAM)问题”,导致亚太、北美、欧洲等多个区域的服务无法正常响应。尽管谷歌工程师在90分钟内定位问题并启动修复,但故障的“雪崩效应”已迅速蔓延:
Shopify在社交平台上无奈发声,称“注意到影响多项服务的问题”。Shopify依赖谷歌云提供的基础设施来保障其日常运营,宕机期间,众多商家的店铺访问、订单处理等功能都可能受到阻碍,进而影响到无数消费者的购物体验,潜在的经济损失难以估量。
而OpenAI也未能幸免。OpenAI表示,其在单点登录“及其他登录方式”上遇到了问题,并在社交媒体告知用户“工程团队正在努力缓解这些问题”。对于OpenAI这样的AI企业而言,登录系统的故障可能导致用户无法正常使用其开发的如ChatGPT等热门AI产品,不仅损害用户体验,还可能影响到企业的声誉和未来发展。
不仅仅是Shopify和OpenAI,此次谷歌云宕机还波及了众多其他网络服务。据Downdetector网站数据显示,在太平洋时间上午11:30左右,谷歌云的报告事件超过1.3万起,尽管到下午早些时候这一数字有所下降,但已足以说明此次事件受关注程度之高。
云安全和内容分发网络巨头Cloudflare也受到牵连。其发言人明确表示,“这是谷歌云宕机导致的”,虽然核心服务仍正常运行,但使用谷歌云的“有限”服务受到了影响。Cloudflare的状态页面显示,“我们看到许多服务出现间歇性故障,正在持续调查,并将在评估每项服务的影响后更新此列表”。
为什么一次云故障能“击穿”全球服务?
中心化架构的“阿喀琉斯之踵”。云计算的核心优势是集中化资源调度,但这也成为最大风险点。此次故障中,谷歌云的身份和访问管理(IAM)一旦失效,依赖其API的第三方服务便如“多米诺骨牌”般倒下。
冗余设计为何失灵?尽管云服务商承诺“99.99%可用性”,但复杂系统间的依赖关系可能导致冗余策略失效。例如,OpenAI虽采用多云备份,但其核心推理服务仍深度集成谷歌云,故障时切换不及。
企业“上云”的代价:便利性与风险并存。云服务降低了企业的IT成本,但也让它们将命脉交予少数供应商。此次事件后,已有专家呼吁推行“多云混合架构”,避免将鸡蛋放在一个篮子里。
云计算需要一场“去中心化革命”?
技术层面:边缘计算能否分担压力?将部分计算任务下沉到本地设备或边缘节点,减少对中心云的绝对依赖。
商业层面:“多云战略”升温其他云服务商或借此争夺谷歌云客户,企业可能重新评估供应商绑定风险。
保险与追责:云服务商的SLA(服务等级协议)赔偿能否覆盖企业损失?Shopify等平台或发起集体诉讼。
监管呼声:有议员提议将云计算纳入“关键基础设施”监管,要求巨头公开容灾方案并接受第三方审计。
写在最后
此次宕机暴露的不仅是技术漏洞,更是数字化时代的系统性风险。正如一位工程师在社交媒体上的调侃:“我们以为云是天空,没想到它只是另一家公司机房的天花板。”未来,企业或需在效率与韧性之间寻找平衡——毕竟,当“云”成为水电一样的基础资源,它的稳定性已关乎全球经济脉搏。
上一篇:龙泉驿格力空调在哪里