【航空】ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン

1: 海江田三郎 ★ 2016/03/31(木) 13:50:05.63 CAP_USER.net
http://itpro.nikkeibp.co.jp/atcl/news/16/033000936/ 全日本空輸(ANA)は2016年3月30日、3月22日に発生した国内線システムの不具合について、原因や再発防止策などを公表した。国内線システムの4台のデータベー ス(DB)サーバーをつなぐ米シスコシステムズ製イーサネットスイッチの故障が原因だった。 4時間40分かけて4台が次々停止 ANAによれば、3月22日午前3時44分にDBサーバーの1台が停止した。その後2台が停止し、約4時間40分後の午前8時22分に最後の1台も停止。 DBサーバーが停止した理由は「正常に機能が働いた」(ANA広報)ため。4台のDBサーバーはデータを同期しており、同期処理が異常終了した場合に自動停止する機能を備えていた。 同期処理が失敗した原因は、4台をつなぐスイッチの不具合。具体的には、スイッチが故障状態であるにもかからず、故障を知らせる 「故障シグナル」を発信しなかった。国内線システムは故障シグナルを検知するとスイッチを予備機に切り替えるが、今回はその機能そのものを作動できなかった。 スイッチは完全に停止したわけではなく、「不安定ながらも動作していたようだ」(同)。そのため、DBサーバー間の同期は順次失敗し、停止していったと見られる。 ANA広報によると、スイッチは米シスコシステムズ製「Catalyst 4948E」という。「2010年6月の発売開始以降、世界で4万3000台、 うち日本で8700台を販売しているが、今回の不具合は初めての事象と聞いている」(ANA広報)。なぜ「故障シグナル」が発信できなかったかは分かっていない。 1台での縮退運転を決断 4台の完全停止から37分後、ANAは1台のDBサーバーを再起動。だが「2台起動すると2台とも停止する」(同)といった不安定な状況が続いた。 DBサーバーは1台構成でもシステムで全機能を使えるという。ANAは午前9時27分に1台での運用を決めた。ただし既に空港などでの混乱は始まっており、 詳細な原因も定かではなかったため、「お客様対応を最優先するために搭乗手続きの機能だけを稼働させた」(同)。予約や販売などの機能は稼働させず、縮退運転とした格好だ。 午前11時30分、全ての空港で搭乗手続きの機能を使えるようになった。自動チェックイン機や係員が使う端末が少ない空港での機能回復は早かったが、 羽田空港など大規模空港では端末の再起動を順次進めたため時間がかかったという。 予約やWebサービスを復旧させつつ、ANAは障害原因を探った。DBサーバー、…ケーションサーバーを順次調べ、異常がないと判断。スイッチの不具合を疑った。 「本番環境と同等の作りにしてあるテスト環境にスイッチを持ち込んでテストしたところ、不具合が再現した」(ANA広報)。 ANAはすぐにシスコに不具合を連絡して代替機を取り寄せた。代替機に交換したのが翌23日午前1時14分。午前3時5分にはDBサーバーを4台構成に戻し、午前4時14分には全サービスを復旧した トップの報酬減額 ANAは再発防止策も公表。まず同様の不具合でもシステムが正常稼働するようにトラブル発生2日後の3月24日にシステム改修を終えた。 スイッチが「故障シグナル」を出さなくても、DBサーバーからスイッチの故障を検知できるようにした。 (中略) 国内線システムは…ケーションとシステム基盤を含め、日本ユニシスが構築を担当。 同社広報は「システム障害でご迷惑をお掛けした皆様へお詫びするとともに、システム開発会社として責任を認識している。 お客様(ANA)と改善策を検討していきたい」と話す。シスコシステムズ日本法人の広報は「今回の不具合はこれまで世界で報告が上がっていなかったもの。全力で原因究明と再発防止に取り組む」とした。 「止まらないシステム」構築の難しさ浮き彫りに ANAでは2013年2月に国内線旅客システムをメインフレームからオープンシステムに再構築して以来、初めての大きなトラブルとなる。 実は旧システム時代の2007年5月に発生した大規模なシステム障害時もシスコのスイッチ不具合が原因だった(関連記事:【会見詳報】ANA障害の原因判明、「世界4例のスイッチ故障がきっかけ、対応も遅れた」)。 社会インフラを支える大規模システムになればなるほど、構成要素が増え、…ケーションは複雑になる。関わる人も大量だ。 信頼性を高める努力を続ける一方で、システムは必ず止まるという前提で事業継続性をどうデザインするかが新たな課題になりそうだ。


146: 名刺は切らしておりまして 2016/03/31(木) 21:58:10.89 9Uz/UjbK.net
>>1 世界よ、これが日本の理工系だ!

3: 名刺は切らしておりまして 2016/03/31(木) 13:52:27.83 j7zv2zxX.net
ダイハード2みたいな落ちを期待したのに普通

15: 名刺は切らしておりまして 2016/03/31(木) 14:02:22.98 35vsQAyS.net
ギネス認定

22: 名刺は切らしておりまして 2016/03/31(木) 14:08:24.53 GkJXfxIc.net
原因特定と復旧時間の早さを考えたら、逆にサーバー保守チームや出向者や技術者にボーナス加算してあげるべき事案w 冗長化したって無駄な時は無駄。完璧なんか世の中にない。事故はえ起こるもんだで対策しないとダメだw

28: 名刺は切らしておりまして 2016/03/31(木) 14:16:07.26 NKoQI/Fc.net
スイッチのコールドスタンバイぐらいしそうなもんだけどな

46: 名刺は切らしておりまして 2016/03/31(木) 14:35:38.32 xZl65fVH.net
>>28 滅茶苦茶重要かつ高いものじゃないのだから、二重化と半自動切替ぐらい、やっていて当然だと思いますよねぇ やっていたけど、何らかの原因で機能しなかった やってないのなら、システム設計ミスで、ソフトのバグとは次元の違う重篤な瑕疵かと

36: 名刺は切らしておりまして 2016/03/31(木) 14:28:07.79 gZB56BtD.net
シスコはロックシティ

40: 名刺は切らしておりまして 2016/03/31(木) 14:30:33.90 M8EStu0q.net
こんなのよく原因突き止めたね。 ここにたどり着くまで相当苦労したと思う。

44: 名刺は切らしておりまして 2016/03/31(木) 14:33:55.84 N8Fm00n9.net
次は、故障を検知する機械の故障を検知する機械を作って、 その次は故障を検知する機械の故障を検知する機械の故障を検知する機械を作って・・・

54: 名刺は切らしておりまして 2016/03/31(木) 14:45:08.88 SDgQU592.net
>>46 故障検知をシスコスイッチ自身の診断機能に任せてたんだろ 故障がシステムに認識されなきゃ、切り替えは起こらない

50: 名刺は切らしておりまして 2016/03/31(木) 14:42:30.22 rAkMNHcC.net
マジかよエースコイン最低だな。

52: 名刺は切らしておりまして 2016/03/31(木) 14:44:20.20 UISGEYqM.net
nexus9000だね。 バッファローのハブの方が良かったね。

53: 名刺は切らしておりまして 2016/03/31(木) 14:44:27.18 r69FWJK4.net
日経は世界初のバグだと言ってるが他はハードの障害とかどっちなんだよ

55: 名刺は切らしておりまして 2016/03/31(木) 14:45:36.73 mDjC5qfq.net
>>53 ハードウェア内部のバグだよ

56: 名刺は切らしておりまして 2016/03/31(木) 14:47:46.40 r69FWJK4.net
ファームウエアのバグか

58: 名刺は切らしておりまして 2016/03/31(木) 14:49:41.84 pHB8EbQr.net
この手の商品って 納品検収完了してたら 買った側は損害請求できない契約だっけな

61: 名刺は切らしておりまして 2016/03/31(木) 14:54:52.64 jNrohQxS.net
シスコも最近はこな感じか。 昔は絶大な信頼があったけどな。

62: 名刺は切らしておりまして 2016/03/31(木) 14:56:40.94 a+SQbOdc.net
アメリカならそのメーカーに多大な損害賠償請求するぞ?

72: 名刺は切らしておりまして 2016/03/31(木) 15:07:13.08 dPVd/h92.net
VLANとか使ってる奴かな

83: 名刺は切らしておりまして 2016/03/31(木) 15:31:14.58 CR4eULmF.net
スターアライアンスグループw

86: 名刺は切らしておりまして 2016/03/31(木) 15:33:59.93 BuNBMrIm.net
次はLANケーブルの二重化だな。

87: 名刺は切らしておりまして 2016/03/31(木) 15:40:18.17 egk9/MfL.net
やっぱりケロッグ最強

112: 名刺は切らしておりまして 2016/03/31(木) 17:32:17.45 X5Hthkjo.net
> 4台のDBサーバーはデータを同期しており、同期処理が異常終了した場合に自動停止する機能を備えていた。 異常終了したら停止じゃなくて続行したままアラートでいいんじゃね? もしかしたら各DBがraid になってないとか?

115: 名刺は切らしておりまして 2016/03/31(木) 17:44:30.74 0s2ibkGB.net
>>112 データーが間違って記録される前に止めるのが正しいという考えが一般的。

114: 名刺は切らしておりまして 2016/03/31(木) 17:41:30.39 TfqkdNbC.net
利用者の少ない高い製品名買ってバグを引き当てるくらいなら安い枯れた製品を複数台導入すべき 高けりゃいいってもんじゃない

116: 名刺は切らしておりまして 2016/03/31(木) 17:50:18.68 rJyCFaX6.net
シスコ(笑)

121: 名刺は切らしておりまして 2016/03/31(木) 18:16:32.48 yU4K2YrJ.net
STPの不具合? 相当大変な問題になるはずだけど今まで認知されてなかったの?

126: 名刺は切らしておりまして 2016/03/31(木) 18:34:55.55 K6AV02BX.net
>>121 飛行機関係でSTPなんてレガシー機能使わないだろ

124: 名刺は切らしておりまして 2016/03/31(木) 18:28:11.05 Vr8Q7P+3.net
コボラーはどんどん少なくなっています。一度、汎用機からオープンに移した業務は、もう元には戻せない。 その切り替えは不可逆なので、もし移行に失敗したら、ちゃんと動くまでの間に、かなり悲惨な苦労しますよ。 しかも機械の信頼性は、ぶっちゃけ中身の複雑化と、人件費圧縮の板挟みで、下がる一方。

131: 名刺は切らしておりまして 2016/03/31(木) 19:37:56.90 H6RKMj5c.net
2007年も世界で4例しかない故障と言ってたな。 いちいち珍しいアピールして、被害者面したいのか?

135: 名刺は切らしておりまして 2016/03/31(木) 19:57:32.01 /otjJbn3.net
シスコ使うんなら日立電線使えばいいのに

144: 名刺は切らしておりまして 2016/03/31(木) 21:24:26.20 BHwzXgHW.net
シスコの資格って一番上のはクッソむずいよな

147: 名刺は切らしておりまして 2016/03/31(木) 22:10:38.44 RbIsOxTE.net
シスコはいくらぐらい損害賠償支払うの??

157: 名刺は切らしておりまして 2016/04/01(金) 00:30:47.99 aLj3Nw1T.net
バッファローがアップを始めました

161: 名刺は切らしておりまして 2016/04/01(金) 00:57:14.31 M5196pnl.net
信号でエラー検出だけじゃなくて ボーリングで確認して応答がなければ エラーに落とす処理が必要だったな ネットワークスペシャリスト あたりの例題になりそう

162: 名刺は切らしておりまして 2016/04/01(金) 01:07:02.09 0p7TAjHf.net
oracleかmy sqlかmssqlsvか? どのdbなんかね

169: 名刺は切らしておりまして 2016/04/01(金) 01:56:58.80 WfuXkSRC.net
だからあれほど「ファーウェイ製ルーターにしろ」と 言ったアル。

170: 名刺は切らしておりまして 2016/04/01(金) 02:08:14.60 5QrC07Wr.net
よく気がついたなー。 スイッチのトラブルってなかなか疑わないと思う。

引用元: http://bizplus.2ch.sc/test/read.cgi/bizplus/1459399805/

人気記事ランキング

コメントを残す

このページの先頭へ