亚马逊宕机15小时,韩国数据中心大火!全球数字基石比想象中要脆弱。

亚马逊:DNS解析之殇

亚马逊AWS此次故障始于美东时间10月20日凌晨,其核心节点美国东部1区出现“显著错误率和延迟”现象。

亚马逊宕机15小时,韩国数据中心大火!全球数字基石比想象中要脆弱。

故障的触发原因是“区域性DynamoDB服务端点的DNS解析问题”。简单来说,就是客户端无法将数据库域名正常解析成正确的IP地址。

在解决DNS问题后,第二波故障接踵而至——依赖于DynamoDB的虚拟机服务EC2的内部子系统也出现问题。

亚马逊对EC2实例启动等操作进行了限流,直到当天下午3点左右,持续约15小时的服务故障得到解决。

据网络故障追踪网站Downdetector统计,超400万用户报告了这次故障引发的问题,至少一千家公司的服务受到冲击。

亚马逊宕机15小时,韩国数据中心大火!全球数字基石比想象中要脆弱。

崩掉的不只是亚马逊自己的电商网站。社交平台Snapchat、交易平台Robinhood、PayPal旗下的移动支付Venmo、加密货币平台Coinbase、人工智能初创公司Perplexity等大量依赖AWS的互联网平台均受到波及陷入瘫痪。

韩国:锂电池引爆的危机

韩国国家数据中心火灾则源于更直接的物理原因。

9月26日晚,位于大田市的韩国国家信息资源管理院5层机房内,不间断电源的锂电池在被搬运过程中起火。

亚马逊宕机15小时,韩国数据中心大火!全球数字基石比想象中要脆弱。

即使已断电,电池仍发生爆燃。

火灾导致冷却设备故障、恒温恒湿系统被迫关闭。管理方不得不对551个系统实施预防性停机,以避免数据受热损坏。

火灾持续约22小时才被完全扑灭。

亚马逊宕机15小时,韩国数据中心大火!全球数字基石比想象中要脆弱。

最终,96个系统被直接烧毁,551个系统因温度问题被先行切断。5层7-1机房内96个被烧毁的核心系统需转移至大邱中心重新部署,业内预估重启至少需两周。

火灾导致1人重伤,一名负责网络恢复的公职人员因巨大压力自杀。

亚马逊宕机15小时,韩国数据中心大火!全球数字基石比想象中要脆弱。

脆弱数字基石

美国圣母大学门多萨商学院的信息技术教授Mike Chapple对此评论道:“这次事件提醒我们,整个世界对亚马逊、微软和谷歌这少数几家大型云服务商的依赖有多深。当一家主要的云厂商‘打喷嚏’时,整个互联网都会感冒。”
亚马逊控制着公共云计算市场约三分之一的份额。
《华尔街日报》指出,“即便只是短暂中断,像AWS这样的主要供应商出现故障,也会导致这些已成为全球众多组织乃至某些政府关键基础设施的服务出现漏洞”。
在韩国数据中心火灾中,问题则出在基础设施的集中化风险。该国家信息资源管理院被视为韩国国家计算机网络的中枢,一旦出现问题,影响便迅速蔓延至全国范围的政府业务系统和民生服务。

未来之路

作为数字化服务提供商,宸翊互联深知基础设施稳健性的重要性。亚马逊AWS和韩国数据中心的故障证明,无论云计算技术如何进步,物理基础设施的稳定运行仍然是数字世界的基石。

基于对这些事故的观察,宸翊互联建议客户采用混合架构策略,避免对单一云服务的过度依赖。通过合理分配负载于公有云、私有云和本地数据中心,即使某一供应商出现故障,核心业务仍能继续运行。

基础设施的韧性不在于其规模大小,而在于其架构的多样性和冗余度我们始终将稳定性、安全性放在首位,通过严格的标准操作流程和多重冗余设计,确保客户业务连续性和数据安全。

亚马逊宕机15小时,韩国数据中心大火!全球数字基石比想象中要脆弱。
亚马逊宕机15小时,韩国数据中心大火!全球数字基石比想象中要脆弱。

在宸翊互联,我们拥有一支技术完善、经验丰富的运维团队。团队7×24小时监控数据中心网络设备及机房的环境监控系统,保证设备、系统的正常、连续、可靠运行。

在故障处理方面,我们建立了完善的应急响应机制,一旦设备发生事故和故障,立即启动应急预案,及时与有关部门联系,协助修理,并认真做好故障处理记录。

我们深知,在数字化时代,运维工作不再是简单的技术支持,而是保障企业核心业务连续运行的关键通过专业运维服务,我们帮助客户构建更健壮、更可靠的数字基础设施。

 

相关推荐: 2025年了,文旅一体化运维该怎么做?

行业背景 随着人们生活水平不断提高,游客对旅游体验的要求日益提升,国家政策对智慧文旅发展给予大力支持。文旅集团积极响应,借助互联网、云计算等前沿技术,推进智慧旅游建设,实现旗下景区全域5G覆盖,构建高效管理调度体系,推动运营模式数字化转型。 传统人工运维模式在…

最新动态