亞馬遜云科技中東區域服務中斷,阿聯酋、巴林受影響
有報道稱,亞馬遜云科技(AWS)阿聯酋區域的一個可用區因遭不明物體撞擊產生火花并引發火災,當地應急人員因此切斷了該數據中心部分區域的供電,導致亞馬遜云科技中東區域出現服務中斷問題。此外,其巴林區域的一個可用區還同時曝出網絡連接與供電故障,令僅在單一區域部署業務負載的客戶受到更大范圍的業務干擾。
亞馬遜云科技的公共服務更新公告顯示,事故發生后,阿聯酋區域的一個可用區已暫停服務,該區域其他可用區則仍在正常運行。公司表示,服務恢復可能需要 “數小時”,并建議客戶在架構支持的情況下,將業務故障轉移至其他可用區或其他區域。此次故障影響了亞馬遜云科技的多項服務,這也是單一可用區遭遇供電和網絡中斷時的典型情況。
路透社指出,此次事件發生當天,伊朗正對海灣地區多國發動導彈和無人機打擊,伊朗方面稱這是對美國和以色列早前軍事打擊的報復。亞馬遜云科技尚未公開證實引發事故的 “不明物體” 來源,在路透社的采訪中,該公司也拒絕說明此次事件與伊朗的軍事打擊是否存在直接關聯。盡管如此,此次亞馬遜云科技中東區域的服務中斷仍表明,沖突周邊地區的云服務風險不僅來自網絡攻擊和硬件組件故障,還涉及物理區域受襲、空域受擾、應急處置決策以及當地突發停電等現實因素。
此次事件對云服務容災規劃的啟示
對于為滿足延遲要求或數據本地留存規定,而將業務部署在阿聯酋和巴林區域的企業而言,此次事件帶來的最樸實教訓是:若應用程序并非按照多可用區架構設計,那么單個可用區的故障就會演變成全面的服務中斷。當故障具有突發性且由外部因素引發時,跨可用區的數據復制、經過實際測試的故障轉移機制,以及明確的系統 “降級運行模式”,其重要性愈發凸顯。正如《歐洲電子新聞》此前在報道某數據中心火災暴露基礎設施脆弱性時所指出的,供電類突發事故的影響會迅速從數據中心傳導至整個供應鏈,進而波及客戶的日常運營。
從實際運營角度來看,這類服務中斷事件恰恰能驗證(或暴露)企業在云服務部署中的各類預設是否成立:備份是否真正做到獨立部署、故障轉移能否無需人工干預自動觸發、企業所謂的 “區域級” 架構設計,在整個可用區失效時是否真的能維持業務運轉。



評論