AWS障害
AWS障害とは、Amazonが提供するクラウドコンピュータ提供サービスに障害(故障)が発生する事象。
概要[編集]
ネット通販大手Amazonが提供する、クラウドコンピュータ提供サービス「Amazon Web Services」に障害(故障)が発生し、利用できなくなること。AWSは、クラウドコンピューティング提供最大手であり、日本国内でも、銀行や流通、運輸大手でも積極的に使われているため、ここが故障すると大きな影響が出ることがある。
エンジニアたちは、自分達で設計・制作したプログラムが原因でシステムが使えなくなると、玉の汗で焦りまくるが、原因がAWS障害と分かると「あーAWSのせいか、じゃあ手も足も出ないですわ、復旧まで待ちの姿勢ですなハハハ」などと諦めることで知られている[Joke]。
以下に、近年発生したAWS障害の一例をあげる。(日本国内での影響度を鑑み、東京リージョン…東京近辺に所在するデータセンターでの障害事例に限る)
2019年8月23日 冷房が故障し大規模障害へ[編集]
障害原因 | 冷却装置障害によるオーバーヒート |
---|---|
影響範囲 | 単一AZ(apne1-az4)、EC2・RDS |
影響時間 | 12:36 - 16:05 (3h29m) |
顧客影響 | 30程度のサービスで公表 |
昼頃から、仮想サーバーサービス「EC2」や、顧客情報などを保存できるデータベースサービス「RDS」が利用できなくなった。サービスは夜までに復旧した。これは、東京リージョンにある4つの区画(AZ;アベイラビリティゾーン)のうち、1つでコンピュータ冷却用の管理システムが故障し、冷やせなくなったコンピュータが過熱し自動的にシャットダウン。このコンピュータを使っていたサービスが提供不可能になったもの。この障害により、一部の通販サイトやアプリ、ゲーム等に影響が出た。[1]
2020年4月20日 処理エラーの増加[編集]
障害原因 | 不明 |
---|---|
影響範囲 | 単一AZ(apne1-az1) CloudWatch・SQS・ CloudFormation・Lambda |
影響時間 | 18:56 - 22:04 (3h8m) |
顧客影響 | ECサイト・ゲーム利用不可等 |
オンラインゲームのサービス不可や、通販サイト・アプリ等に影響が生じた模様[2]
2020年10月22日 通信がしづらくなる事象[編集]
障害原因 | ネットワーク障害(詳細不明) |
---|---|
影響範囲 | 単一AZ(apne1-az2)、EC2・EBS |
影響時間 | 11:42 - 13:15 (1h33m) |
顧客影響 | PayPay決済不可等 |
1時間強にわたって、ネットワークの問題により、一部の仮想サーバーにアクセスできなくなった。これにより、バーコード決済サービスPayPayでは25分程、サービスが利用できなくなった。[3]その他、ゲーム等のサービスにも影響が出た。[4]
2021年2月20日 冷房故障で気象庁ダウン[編集]
障害原因 | 冷却装置の電源喪失(詳細不明) |
---|---|
影響範囲 | 単一AZ(apne1-az1)、EC2・EBS |
影響時間 | 2/19 23:30? - 2/20 06:00? (6h30m) |
顧客影響 | 気象庁他多数ウェブサイトダウン |
2/19 23時頃から一部の仮想サーバが利用不可となった。冷却システムへの電源供給が行われず、オーバーヒートにより一部コンピュータが使えなくなった。[5]2019/8/23の障害と類似の状況だが、今回についてはサービスが不安定なまま継続し、自動での切り替えが行えず、影響が長期化したサービスも有った模様。
気象庁のウェブサイトも閲覧できなくなったが、順次緊急用のサイトへ切り替えを行ったり、準備中のサイトを急遽公開するなどして対応した。[6]その他、多くのゲーム等で影響が生じた。[7]
2021年9月2日 ネットワーク機器故障[編集]
障害原因 | 専用線接続における機器故障 |
---|---|
影響範囲 | 東京リージョンの全AZ[8] DirectConnect |
影響時間 | 07:30 - 13:42(6h12m) |
顧客影響 | 証券会社他多数サービスダウン |
ネットワーク機器の故障により、データがAWSのデータセンターに届かなくなり、証券会社を含む多くのサービスで影響が出た。専用線の冗長化としてVPNを用意していた場合、その使用が推奨された。[9]
影響の一例
- SBI証券・松井証券・楽天証券にアクセスしづらい、株価が更新されない[10]
- 気象庁のデータ更新が遅れる可能性あり(実績値不明)
- ANAはチェックインに影響し、8便に最大13分の遅れ[11]
- JALは貨物の重量バランスを計算するシステムに影響[11]
- みずほ銀行のネットバンキングアプリへ影響[12]
原因はネットワーク機器に追加したプログラムの潜在的なバグで、導入後8ヶ月に渡り正常に動いていた機器が順次停止してしまい、サービス提供不能となった。