AWS障害

出典: 謎の百科事典もどき『エンペディア(Enpedia)』
ナビゲーションに移動 検索に移動

AWS障害とは、ネット通販大手Amazonが提供する、クラウドコンピュータ提供サービス「Amazon Web Services」に障害(故障)が発生し、利用できなくなること。AWSは、クラウドコンピューティング提供最大手であり、日本国内でも、銀行や流通、運輸大手でも積極的に使われているため、ここが故障すると大きな影響が出ることがある。

エンジニアたちは、自分達で設計・制作したプログラムが原因でシステムが使えなくなると、玉の汗で焦りまくるが、原因がAWS障害と分かると「あーAWSのせいか、じゃあ手も足も出ないですわ、復旧まで待ちの姿勢ですなハハハ」などと諦めることで知られている[Jokeこの一文には冗談が含まれています。真に受けるかどうかはあなた次第です。]

以下に、近年発生したAWS障害の一例をあげる。(日本国内での影響度を鑑み、東京リージョン…東京近辺に所在するデータセンターでの障害事例に限る)

2019年8月23日 冷房が故障し大規模障害へ[編集]

2019年8月23日 冷却装置障害
障害原因冷却装置障害によるオーバーヒート
影響範囲単一AZ(apne1-az4)、EC2・RDS
影響時間12:36 - 16:05 (3h29m)
顧客影響30程度のサービスで公表

昼頃から、仮想サーバーサービス「EC2」や、顧客情報などを保存できるデータベースサービス「RDS」が利用できなくなった。サービスは夜までに復旧した。これは、東京リージョンにある4つの区画(AZ;アベイラビリティゾーン)のうち、1つでコンピュータ冷却用の管理システムが故障し、冷やせなくなったコンピュータが過熱し自動的にシャットダウン。このコンピュータを使っていたサービスが提供不可能になったもの。この障害により、一部の通販サイトやアプリ、ゲーム等に影響が出た。[1]


2020年4月20日 処理エラーの増加[編集]

2020年4月20日 処理エラーの増加
障害原因不明
影響範囲単一AZ(apne1-az1)
CloudWatch・SQS・
CloudFormation・Lambda
影響時間18:56 - 22:04 (3h8m)
顧客影響ECサイト・ゲーム利用不可等

オンラインゲームのサービス不可や、通販サイト・アプリ等に影響が生じた模様[2]

2020年10月22日 通信がしづらくなる事象[編集]

2020年10月22日 通信がしづらくなる事象
障害原因ネットワーク障害(詳細不明)
影響範囲単一AZ(apne1-az2)、EC2・EBS
影響時間11:42 - 13:15 (1h33m)
顧客影響PayPay決済不可等

1時間強にわたって、ネットワークの問題により、一部の仮想サーバーにアクセスできなくなった。これにより、バーコード決済サービスPayPayでは25分程、サービスが利用できなくなった。[3]その他、ゲーム等のサービスにも影響が出た。[4]

2021年2月20日 冷房故障で気象庁ダウン[編集]

2021年2月20日 単一AZでの冷房装置故障
障害原因冷却装置の電源喪失(詳細不明)
影響範囲単一AZ(apne1-az1)、EC2・EBS
影響時間2/19 23:30? - 2/20 06:00? (6h30m)
顧客影響気象庁他多数ウェブサイトダウン

2/19 23時頃から一部の仮想サーバが利用不可となった。冷却システムへの電源供給が行われず、オーバーヒートにより一部コンピュータが使えなくなった。[5]2019/8/23の障害と類似の状況だが、今回についてはサービスが不安定なまま継続し、自動での切り替えが行えず、影響が長期化したサービスも有った模様。

気象庁のウェブサイトも閲覧できなくなったが、順次緊急用のサイトへ切り替えを行ったり、準備中のサイトを急遽公開するなどして対応した。[6]その他、多くのゲーム等で影響が生じた。[7]

2021年9月2日 ネットワーク機器故障[編集]

2021年9月2日 ネットワーク機器故障
障害原因専用線接続における機器故障
影響範囲東京リージョンの全AZ[8]
DirectConnect
影響時間07:30 - 13:42(6h12m)
顧客影響証券会社他多数サービスダウン

ネットワーク機器の故障により、データがAWSのデータセンターに届かなくなり、証券会社を含む多くのサービスで影響が出た。専用線の冗長化としてVPNを用意していた場合、その使用が推奨された。[9]

影響の一例

  • SBI証券・松井証券・楽天証券にアクセスしづらい、株価が更新されない[10]
  • 気象庁のデータ更新が遅れる可能性あり(実績値不明)
  • ANAはチェックインに影響し、8便に最大13分の遅れ[11]
  • JALは貨物の重量バランスを計算するシステムに影響[11]
  • みずほ銀行のネットバンキングアプリへ影響[12]

原因はネットワーク機器に追加したプログラムの潜在的なバグで、導入後8ヶ月に渡り正常に動いていた機器が順次停止してしまい、サービス提供不能となった。