ぱっちょぶろぐ

禁欲をベースにしてかっこいい体を作る!

ANAのシステム障害ってたぶんこんな感じ

どーも、yanadaです。

 

この前のANAのシステム障害すごかったですね。

 

約7万人に影響が出たそうです。

 

IT業界ではたらいているひとに聞いてみたら、

 

実情はたぶんこんな感じっていう話を聞けました。

 

IT業界の方、PC詳しいかたはわかるかとおもいますが、

 

僕も含めそこらへんは一般の人にはなじみのない

 

【スイッチ】が今回のシステム障害の肝になるようです。

 

スイッチってなに?という方は下記のリンクがわかりやすいです。

 

LAN スイッチ - テクノロジー解説 - Cisco Systems

 

ものすごく簡単にいってしまうと、

 

PC同士でデータ通信するときに、どのデータをどのPC宛に

 

送るかを判断して、データを流す誘導係がスイッチです。

 

そして、今回ANAのシステム障害で問題になったのが

 

スイッチなのです。

 

そもそも、なんでこんな大規模障害になったんだろうね?

 

と質問してみました。

 

いろいろ細かい要素はあるけど、一番は

 

スイッチが壊れたときにそれを検知できなかったから。

 

なぜか。

 

スイッチを冗長化していると、

 

ぱっと見はパケットを問題なく送信しているように

 

見えることもあるんだそうです。

 

しかも、今回のシステム構築担当は

 

大手の会社さんなので、高度な冗長化がされていたと

冗長化とは、メインとサブのスイッチを置いておいて、

 メインがこわれたらサブに入れ替わるようにしておくという意味です。)

 

推測できます。

 

また、今回のスイッチはシ○コ製のもので、

 

この製品の不具合は世界初だそうです。

 

これを見て、すげー世界初なんだ!

 

とか、単純に思ってしまいましたが、

 

IT業界のヒトからすると、

 

単に導入されている数が少ないからなんじゃないの?

 

という見方もできるようです(笑)

 

話をスイッチに戻しますが、

 

このスイッチがいるシステム内の場所というのは、

 

レイヤー2,3です。

 

IT業界では、基礎知識になるのですが、

 

システムには、1~7の階層があります。

 

それを英訳してレイヤーと呼んでいます。

 

L2、3と書いて、エル2、3と呼ぶこともあります。

 

この階層の数字が低いほど、物理に近くなります。

 

家でネットするときにつなぐケーブルがレイヤー1

と考えていただければよいです。

 

この階層が低いかつ、システムが複雑化されている

場合、スイッチなどの低階層の機器の故障に気づきづらい

んです。

 

なんでか。

 

スイッチは壊れにくい、極論を言ってしまうと、

壊れないと考えられているからです。

 

また、スイッチ内部の処理が比較的単純なため、

壊れたら、取り換えればいいじゃん♪

 

くらいのノリのところもあります。

 

なので、以外と故障検知してない、

もしくは、冗長化されているから

 

システム監視システム側で故障と判定されない

事があるんでしょう。

 

実際に、事後の対応として、

DBサーバからスイッチの故障検知ができるように

 

変更しているようです。

 

前回の2007年のANAシステム障害時も、同じ会社

の機器が原因だったようです…

 

ノンストップでシステムを動かし続けるって

永久機関作るみたいな話なのかなー

 

ではー♪