2012年6月25日月曜日

大規模障害の概要と原因について(中間報告)だってさ・・・

ファーストサーバより、

データの消失について

■ 障害の概要

6月20日(水)17時ごろ、脆弱性対策を特定のサーバー群に対して実施しました。
脆弱性対策は更新プログラムを利用して一括して対象とするサーバー群に対して実施するという運用を以前から行っており、今回も同様に作業を実施しました。
実施にあたっては検証環境において動作確認を行い対象サーバー群に問題が発生しないことを確認したうえで、本番環境で実施するという手順を取っております。
しかしながら、更新プログラム自体に不具合があったことに加えて、検証環境下での確認による防止機能が十分に働かなかったことと、メンテナンス時のバックアップ仕様の変更が重なり、今回のデータの消失(バックアップデータの消失を含む)が発生いたしました。

■ 障害の原因

原因1:脆弱性対策のための更新プログラムの不具合

脆弱性対策のためのメンテナンスが必要となる都度、メンテナンスのための更新プログラムを作成しており、今回も更新プログラムを作成しています。
そのプログラムの記述において、ファイル削除コマンドを停止させるための記述漏れと、メンテナンスの対象となるサーバー群を指定するための記述漏れが発生していました。

原因2:メンテナンス時の検証手順

メンテナンスに際しては、検証環境でまず動作確認を行うという手順が定められていましたが、プログラム実行後の動作確認を行う対象は、あくまでも当 該メンテナンス対象サーバー群を確認すれば足りるとされていたため、検証環境下で対象サーバー以外に影響が及んだことの確認がないまま、動作確認上は問題 なしと判定され本番環境での実施が行われました。

原因3:メンテナンス仕様

システムを含むデータのバックアップは毎朝6時に取得しております。
しかしながら、脆弱性対策のためのメンテナンスはバックアップをしてあるシステムについても実施しておかないと、メンテナンス実施後にハードウェア 障害が発生してバックアップに切り替えた途端に脆弱性対策が講じられていないシステムに戻ってしまうことが過去に発生し、脆弱性対策がなされていないシス テムが動き続けていたという反省に立ち、脆弱性対策のメンテナンスに関しては対象サーバー群とそのサーバー群のバックアップ領域に対して同時に更新プログ ラムを適用するという構造に修正して実施しました。
そのため、今回のメンテナンス実施において、対象サーバー群のデータ消失と同時にバックアップ領域のデータも消失したという事象に至っています。




だってさ。
いやぁ・・・プログラムのバグとはよく言ったものだ。
ファイル削除コマンドを停止冴えるための記述漏れ・・・
アレか?
一度削除を始めたら、もう止まらん!みたいな?
そして、対象サーバ郡を指定するための記述漏れ?
もう手当たり次第ってことか?

手当たり次第に削除しまくり?

いやぁ・・・
それにしても復旧も出来ないとは・・・。

今回の中間発表で、原因は明らかになってきたんだろうけど、よーく考えるとファーストサーバって意味不明なことしているよね。
せっかくバックアップが3つあるのに、それがまったく機能していない。
メンテナンスが巧くいったかどうか検証してないんだもん。

バックアップの意味ねー。

こういうのってあるよね。
プロセスを一つ一つ検証していると、理にかなっているような気がするけど、全て並べてみると目的をなしていない・・・みたいな。

いかにも理系に有りそうな事故だ。

ま、とは言っても中間発表だし。
今後どう変わってくるのかね?
てか、最終発表ってあるんだろうか?

まさか・・・最終発表ってファーストサーバの最終では・・・
んなこと無いよね。

こんど、ファーストサーバ借りてみようか?
キャンペーンとかで安くなってないかな・・・

0 件のコメント: