Share

KDDIのクラウドサービス障害で

  • 2023年2月1日

1/28、KDDIが提供するクラウドサービス、KCPI(KDDIクラウドプラットフォームサービス)
で障害が発生し、仮想サーバーをはじめとするさまざまなサービスが
利用不能となっています。

KDDIの発表によると”ストレージ障害によるもの”とのことですが、
復旧手段として提示された内容が、
新規にストレージを構築してそこに全データを移行後、
各サービスの復旧をするという、
かなりダイナミックな手法です。
このことから、かなり深刻な障害であったことが想像できます。

そしてもう一つ特筆すべきはその復旧までの時間です。
ステップ1:とりあえず今のストレージのデータをリードオンリー(書き込み禁止)で公開
       2/1~2/7完了予定。この間に緊急のデータは引き出してねということでしょう。
ステップ2:新規ストレージの構築
       1/30 HW構築完了
ステップ3:データ移行
       ステップ1完了後、6日間程度
ステップ4:新規ストレージでの仮想サーバー立ち上げ
       ここで完全なサービス復旧。ただ、ユーザーごとに復旧日時は異なるとのこと

以上のステップと期間を経てサービス復旧となるため、
1/28の障害発生から数えると、復旧まで最長15日程度かかるという想定です。

このインパクトは相当大きいのではないでしょうか。
通常、クラウドサービス障害時のサービス停止期間はだいたい半日程度、
長くて2~3日です。

KCPSのユースケースは社内サーバーなどが多いので、
混乱をきたしている会社もあることでしょう。
冗長化もほとんどの場合、プラットフォーム内で行われているため、
ゾーンやリージョンを跨ぐ冗長化をどれぐらいの会社が行なっていたかも
注視すべきポイントです。

さて、これがあなたの会社で起こった場合どう対応しますか?
湯水のように課金してガチガチに冗長化しなくても、
そういった場合の手順だけでもあらかじめ策定しておくと、
初期の混乱はある程度防ぐことができるでしょう。

必要なのはまず、そういった事態を想定できる、
発想力なのかもしれません。