エンジニアの夜時間

プラモデルを作ったり、資格試験を受けたりしながら技術力向上を目指すブログです

みずほ銀行のATM障害にみる、みずほ銀行 基盤システムの優秀さと残念さ。

先日みずほ銀行のATM 4318台が一時的に取引できなくなるという大規模な障害が発生しました。翌日には復旧したようで対応に当たった皆様お疲れさまでした。私もエンジニアの端くれとして、震える思いでニュースを見ていました。

障害の発生が2月28日(日)だったこともあり、閏年の処理失敗が原因かと思っていましたが、発表によると原因は基盤システムへの過負荷だったようです。
www.itmedia.co.jp


利用者からすれば基盤システムへの過負荷でATMで取引ができなくるは大迷惑ですし、障害の発生を擁護するつもりもありません。けれどもシステム障害発生の仕組みを知ると、みずほ銀行の基盤システムはよくできてるなという印象も受けます。

引用した記事によると、基盤システムは処理件数が一番多いと思われる月末処理の2倍以上はデータの処理が行えます。その上さらに負荷が大きくなった場合は、負荷軽減のために銀行業務としては末端の業務なのであろうATMの機能を制限する仕組みまで実装していて、ATMからカードや通帳が取り出せなくなったのは機能制限の誤作動ということのようです。 それらを考えると、一般的なシステムとしては十分な安全対策をしていたと言えるでしょう。ただみずほ銀行さんって個人口座を2400万件も持っている超巨大な銀行なので、もっと慎重に作業して欲しかったと思います。

システム障害のきっかけとなったデータ移行にしても、普段の処理件数が20万件程度だとわかっていたら、45万件という処理件数が3倍にもなるデータ移行は実施しないと思うんですよね。少なくとも私なら恐ろしくてやれません。ATMの誤動作にしても、障害発生時の動作確認ってシステムテストの重要な項目であり、しっかりテストしていれば防げたはずで、4000億円も費やして開発したシステムとして、今回のシステム障害はちょっと残念な障害だったかもしれません。

エンジニアとして肝に命じておきたい、みずほ銀行の障害でした。