(IT) 10月1日の東証の取引停止について

今日の東証の丸一日の取引停止に関してシステム屋の観点で考えてみた。
個人的に興味があったので、ニュースサイトの記述やテレビの報道はあえて観ず、Youtubeで東証の記者会見を全編観て個人的に考えてみた。

■原因特定の速さ
朝7時のバッチ処理の失敗でアラートがあがり、その原因がストレージ装置のメモリ不良であると特定されるまでのスピードはすごいと思う。常識的に考えれば、物理的に回転しているディスク装置と違って、メモリが壊れることはまあ、想定できない。しかしその早い特定に従って9時前の段階で10月1日の丸一日の取引停止を判断したことは尊敬できる。これはソフトウエアのバグに関しては潰しきった自信があって、原因はハードウエアの障害に絞って調査したからだと勝手に想像している。

■フェイルオーバーの失敗
だいたい、テストではうまくいくけど、この手の障害発生時の自動的な復旧処理はまあ失敗する(笑)。某クラウドのデータベースSaaSのフェイルオーバーの失敗で大障害が発生し、謝り侍とクレーマーを演じた身としては、同情を禁じえない。なぜかDBのフェイルオーバーは失敗するし、RAID構成のディスクは復旧できないし、バックアップデータはリストアできなかったりする。なんでそうなるか?マーフィーに聞いてくれとしかいいようがないが、謝るのはオレ(たち)。

■経営サイドの英断
今回の丸一日の取引停止が与える経済的損失とか影響はオレには関係ないので、ここを論じる考えは全くないのだが、朝7時の障害発生を受け、その重みとリスクを勘案し、早いタイミングで一日取引をやめると判断した経営サイドは素晴らしいと思う。多くの経営サイド(事業推進サイド)は1秒でも早い回復を要請し、多少のリスクを飲み込んで事業の再開を優先するが、今回の障害において東証の経営サイドはシステム上のリスクを理解し、損害や批難を顧みずサービス停止の判断をしたことは、まさに英断と言えると思う。

■技術責任者の内容理解
記者会見で社長の右隣にいた技術責任者はメモをほぼ見ず、自分の理解を自分の言葉で話し、質問に答えていた。これでこそ責任者だと感じた。尊敬している。10月2日の稼働に関しては有人監視にて対応ということだったが、人がいてもダメなモンはダメで再発はするが、対応速度が早く手順が確立しているので、対応が可能ということなのかと思う。

■質疑応答での記者の質問
「私はシステム的なことはよくわからないのですが」と前置きをして、ストレージ装置のメモリがどういう役割をしているものかを勘違いした質問をする記者のなんと多いことか。チコちゃんに叱られて来い。一日の停止の経済的な損失ではなく、障害を抱えたままでの稼働による損失とのトレードオフを考えたことがあるのかとマジで問いたい。記者会見の全編を観た後で、いくつかのニュース番組の扱いを確認したが、東証の真意が伝わるものとは到底思えなかった。しかし、メディアが曲解し、切り取って報道することを前提に、真摯に記者会見において発言される東証の姿勢については、評価したい(上から御免)。

■まとめ
「デジタル社会」とは、システム障害によって、リアルな生活に影響が出ることと強く感じた。
今回は証券取引が一日止まった「だけ」だけど、将来、システム障害があって、電気が何日も来ないとか水道が止まるとか生活インフラの不安定さにつながるリスクはあるわけで。それをどこまでリスクを減らせるか、といのがシステム設計者の使命(システム開発者ではないことが重要)。東証の社長が言っていた通り、富士通はベンダーではあるが、サービス継続の責任は東証にある、というのと同じで、システムのベンダーがどこだろうと、サービスの主体はサービス事業者であることを再認識した事象ではあった。
そして、日本の立法や行政のITリテラシーの低さの一因はテレビ新聞などのメディアのITリテラシーの低さにあると痛感した会見でもあった。

珍しくつまらないエントリーを書いてしまったw