<adjust>2018年6月21日に発生した障害の詳細と再発防止策について

トピックス

お客様各位

先日ご案内した通り、2018年6月21日に発生した障害の詳細と再発防止策をご連絡いたします。

今回発生した障害に関連して、まず、2017年の障害発生後に弊社が行った具体的な対策と、今回の障害発生前の数週間で発生した事象をご説明いたします。


2017年の障害発生後の対応

2017年のサーバー障害発生後、弊社は冗長性を高めるためにフランクフルトのメインデータセンターに加えて、アムステルダムとロサンゼルスにもデータセンターを設置し、3つのデータセンター全てにおいてトラッキングサービスを実行出来るように改善しました。またメインデータセンターが停止した場合でも、影響を受けるサービスはダッシュボードと非リアルタイムの機能に限定される仕様に変更いたしました。

また、ネットワーク設定のアップグレードも行い、緊急時には、数秒で1つのデータセンターから別のデータセンターにトラフィックの移動が可能になりました。

最後にIn-Memoryデータベース用の完全に分散したデータベース設定への切り替えを行い、3つのデータベースが矛盾なくリアルタイムで同期させる仕組みの構築も進めておりました。ただし、一度に処理できるデータ量の制限があり、完全同期のプロセスは2〜3週間かかるという課題が残っておりました。


今回の障害発生前に起こったこと

上記の課題を解決するため、2018年からデータセンターの環境を整えるよう、アップグレード作業を開始しました。この作業はロサンゼルスのデータセンターから行いました。

この作業の間に、接続障害が起こり、これに伴いロサンゼルスのデータセンターのクラスタが同期を停止し、シャットダウンを実行しました。このことで、フランクフルトのデータセンター、アムステルダムのデータセンターを経由し、完全な同期プロセスの再実施を行っている最中に、下記の障害が発生いたしました。


6/21のサーバー障害について

18:29 (日本時間)、定期メンテナンス中に発生した人的ミスにより、弊社のメインパワーラインに接続されている関連機器の接続が遮断されました。

18:41 (日本時間)、接続が回復し、弊社のサーバーと関連機器の再起動が行われコンポーネントのリプレースが開始されました。

19:17 (日本時間)までに、複数のシステムが回復し、ダッシューボードを再起動しました。

21:48(日本時間)に完全停止状態から、データベースのクラスタのリブート作業を完了しました。

23:40(日本時間)バックエンドサービスを再開し、媒体社やネットワークへのポストバックが徐々に復旧していることを確認しました。

24:28(UTC時刻)までにはすべてのバックエンドの機能が正常動作に戻ったことを確認しました。


再発防止策について

今回の事象を重く受け止め、今後のアップタイムを改善するための対策、並びにサーバー障害の再発防止策をまとめましたので、下記のとおりご報告させていただきます。

まず全てのデータセンターにおいて、通信の容量を増やします。フランクフルト-ロサンゼルス間のリンクが切れた場合は、フランクフルト-アムステルダム間の容量が100 Gbit/秒になるように改善いたします。

次に、全てのデータセンターのサーバーを最新のバージョンに更新いたします。現行のSSDからNVMe technologyに移行します。

更に、何らかの理由で、全ての拠点のコネクションの切断が起きた場合、バックアップ用のインターネットに切り替えできるようにいたします。この対策によりクラスタのリセットが発生した場合に、同期時間及び復旧までの時間が短縮される見込みです。

今回の事象を通じて、これまでのシステムのアップデートの方法につきましても再検討し、改善いたします。

上記に加えて、アジア太平洋地域において、4つ目のデータセンター設置を検討しております。

各地域においてより良いサービス提供のため、地域ごとにデータセンターを設置する計画が以前からありましたが、今回のサーバー障害をきっかけに、設置に向けての議論を本格的に進めます。

また、既存のフランクフルトのデータセンターを移転します。

今回の障害発生時に弊社から自動メールにて情報の発信をさせていただきましたが、一部のお客様には送信されませんでした。この仕組みを見直し、障害発生時に全てのお客様に情報発信できるよう、より良い環境を整えて参ります。現時点では、全てのお客様が閲覧可能な情報発信ページの準備をしております。


おわりに

今回のサーバー障害は許される事象ではございません。弊社のサービスをご利用いただくお客様、並びにパートナーの皆様に対しまして、心よりお詫び申し上げます。

今後このようなことが起こらないよう、Adjust一丸となり努力して参ります。

今回の件について、ご質問などございましたら弊社CTO Paul H. Müller paul@adjust.com またはサポートまでご連絡ください。