2015年6月4日木曜日

L2スイッチの1つのポートだけ壊れた話

どのような理屈か不明だが、スイッチ全体が死ぬのではなくてポート単位で死ぬことがあることが分かった。
もちろん、こんなスイッチは信用できないのでそのうち取り替える。


問題発覚:
仕事してたら急にビルドサーバに繋がらなくなってしまい困った。
予兆はあって前々からなんかつながらない。DHCPが取れないなどのクレームは入ってた。
しかし、やり直したり自分が確認すると問題がなかったのでやり過ごしていた。
自分が管轄していた範囲のネットワークが不調ということなので、ある程度範囲は予測できた。

原因箇所を見つけるまで:
とあるラックにあるマシン全部が不安定なつながり方をする。というところから、経路上のスイッチに不具合があると予測した。
誰かがDHCPサーバをつなぐ。ブロードキャストを垂れ流すなどの論理トラブルの可能性もあるが、全体の系では苦情が聞こえなかったので排除した。

ラック内(末端)のL2スイッチがバカになっていると踏んでいた。
そこでアップリンクのスイッチの”空いてる”ポートにPCをつないでみた所、正常に通信できた。
これは、半死。完全につながらなくないけどまともに動作しない。という難しい症状に落ちているのかな?と思った。
答えとしては、このアップリンクのスイッチの、ラックにつながっているポートだけが死んでいた。しかし、気付く余地なし。

はてはて。と思い、一応アップリンクのアップリンクも見てみた。
その時にLINK-LED(いつも無駄にピコピコしてるあれ)が、対象のポートだけ点滅していないことに気付いた。
だいたい、ブロードキャストとかが飛ぶのでスイッチのLINK-LEDとかは同期して光ることが多いが、明らかにそれがなかった。
ここで、アップリンクのアップリンクか、アップリンクか。この2つが容疑者になった。

もう一回戻ってアップリンクのスイッチを見ると、ラックにつながっているポートだけ点滅していなかった。
リンクはしているので点灯はしている。
とりあえず、こいつがおかしい気がしたが、先の検証でアップリンクは正常と判断したはず。
点滅していないポートから空いてるポートにつなぎかえたところ、見事に復活した。


0 件のコメント:

コメントを投稿