システムはなぜダウンするのか

一日ほどで読み終えた。読み物としても読みやすく、おもしろい。もともと報道されたシステムダウンの話を事例として挙げているので、メインフレームの事例が非常に多いのだが、オープン系のシステムの話も無論挙げられている。メインフレームほどの信頼性を持っていても、システムダウンは起きるのだなということと、アーキテクチャ的にオープン系システムが非常に脆弱だということも文中で指摘されているので、メインフレームでもこれならオープン系だともっと大変だよな、ということを改めて考えさせられる。また、事例のうちほとんどがメインフレームだということから、システム障害で報道されるような日本の重要なシステムって何だかんだ言って、やっぱりメインフレームばっかなんだなぁ、ということも実感させられた。

閑話休題。最近では運用の現場にいても、システム障害による影響範囲の全体像はなかなか把握できないことや、障害発生痔の対応はその現場でスキルの高い人間が必要とされるので、障害対応はスキルトランスファーが非常に難しい領域だ。その点、各事例におけるシステムの仕組みから、障害の原因、影響度まで分かりやすく説明されているので、本書は大変勉強になる。運用の現場、開発の現場の人間だけでなく、上の立場の人間でもぜひ読むべき。

システムはなぜダウンするのか 知っておきたいシステム障害、信頼性の基礎知識