はじめに
弊社では自前でNOCを構え、24時間のアラート監視や運用保守を行っております。
保守しているシステムはエンタープライズのネットワークやIoTデバイスの監視など様々ですが、
今回はそのうちの一つのMVNOシステムで起きたお話となります。
MVNOシステムについて
本題の前に今回フォーカスすることになるMVNOシステムについて記します。
弊社が保守しているサービスはMNOとの接続点であるP-GWからトランジットとの接続点までとなっております。
トラブルはいつも突然に。
某年のある暑い日の夜のこと
NOCより
A社様システムで
サービスレベル低下の初報
「B社Webサイトだけ繋がりません」
NOCからの初報を受けて対応を開始しましたが、前例のないケースのため手探りでトラブルシューティングに臨みました。
●社内の固定回線から「B社Webサイト」へ接続できることを確認
●A社とMVNO設備を一部共有する(ただしTransitは別事業者を利用)MVNOサービスからも「B社Webサイト」へ接続できることを確認
●A社MVNO設備経由でB社AS向けにtracerouteを打ちまくり、Transit上流の接続事業者(Y社)までは到達できていることを確認
ここまでの状況から弊社設備には機器故障等の問題は見当たらず、
A社契約のTransitからB社ASに至るまでに経由する接続事業者における経路障害と推測したため、
お客様へTransit側のSOCに問い合わせを打診しました。
しかしTransit側SOCからの回答は、
「特に問題は見られない」
と無慈悲な回答となっており、私達も長時間の対応も相まって苦しい状態になっていました。
夜明けが近づくにつれ、慌てるお客様と我々
時間の経過とともに、B社以外にも到達できなくなっているASが増加していき、
※厳密には「増加」ではなく、もともと到達できていなかった可能性が高いのですが。
Looking Glassをランダムに放ってみた感じでは経路伝搬に異常は見られず、
A社のトラフィックを今すぐ受け入れてくれそうなTransitを探していました。
※マルチホーム構成にしていないことを激しく後悔。。。
Tracerouteの途絶える事業者(Y社)宛てに社内のコネを活用しコンタクトしてみるなどの試みも虚しく、
万策尽きたかと思われましたが。。。
救世主現る
コンタクトしていたとある事業者様から、
「A社のプリフィックスがIRRから消えてる」
「X社はIRR見てフィルタかけてるらしいよ」
との返答をいただき、一縷の望みを託してキーワードを精査していきました。
「IRR」「X社」をキーワードに点がつながり始める
A社インフラ担当によると「IRR」に何か登録した覚えはないそうで、
※更新漏れで消えたのではなく、もともと登録していなかった
B社インフラ担当によるとB社の上流にX社関連のISPが存在しており、
改めてX社のLooking Glassを確認したところA社向けの経路が消失しておりました。
この後、急ピッチでJPIRRへのRouteオブジェクト登録を進めることで
サービスレベル低下検知から約30時間後になんとか完全復旧を確認することができました。
今回の障害対応で得られた教訓
やはり対障害時のトラブルシュートまで考慮した構成のシステムを設計するのはとても大事。
事業者同士の交流、情報交換(人同士のネットワーキング)もとても大事。
コントロールすることが難しいインターネット内の経路障害を早期に検知、発生個所を特定する方法の確立も必要であると感じました。それでは。