【NSXトラブル】その1:Edgeトンネル通信不良編「原因不明の停止/失敗状態になったら」

NSXトラブル
この記事は約4分で読めます。

Edgeトランスポートノードを作成した際に、Edgeのトランク通信の状態が停止や失敗になる方向けへのトラブルシューティング記事となっている。

トラブル例

Edgeトランスポートノードの状態が停止や失敗になり、TEP通信やトンネル通信が不良になることがある。
原因を調査する上で、後述の可能性を検討していただきたい。

解決方法

NSXにおけるシステム要件や通信要件などの特有ルールは、他製品に比べて比較的ハードルが低いものの、製品や動作原理を含めたネットワークやサーバの大まかな設計思想の理解が最低限必要である。
以下いずれかが原因でEdge、その他ホストやRT(Tier-0,Tier-1)の状態が停止や失敗になることが多いため全体的に目を通していただきたい。

セグメント

EdgeのN-vDSに割り当てるインターフェイス(Fp-eth)にvlanセグメントを指定する形で設計すると、二重タグや疎通不可等々の事象を発生する原因となる。その為TRUNKとしてvlanは0-4094を指定する設計を推奨する。vlanの範囲を絞ることができるが、意図せず必要なvlanが空いておらず通信が流れなくなる場合もあるので慎重に設計していただきたい。

以下Edge構築時の記事でも紹介したTRUNKセグメント作成についてだが、Tier-0やTier-1の外部向けインターフェイスからvlanタグ通信はvlanセグメントを通ってvDS経由で外部へ流れていく。
その際のvlanセグメントでvlanの範囲が正しく設計されているかが大事になる。

vDS・ホストスイッチ

またNSXを設計構築する際に非常に困るのが、サーバとNWで担当が異なる場合である。
物理サーバとvDS、NSXとそれぞれの役割や設計を十分に理解した者が全体を管理しない限り、設計上のミスや要件を満たせない場合も出てくる。

そんな中で、NSXの要件に満たせないvDSやホストスイッチの設計ミスを紹介する。
例えばvDSは、バージョンが7.0以降でMTU1600である必要がある。(要公式参照)
またMTUに関しては、アップリンクプロファイル、vDSと集約スイッチで一致している必要があるので気をつけて欲しい。

TechDocs

トランスポートゾーン

overlayトランスポートゾーンについては、以前にも記事にて紹介したが通信のゾーン(範囲)を定める役割を有している。
その為、ホスト間であっても同じトランスポートゾーンに属していないと通信できない箇所が生まれる。基本的にトランスポートノードプロファイルを使って一括で操作することが望ましい。

IP Address Pool

IP Address Poolの運用には慎重になって欲しい。
例えばIPアドレスの範囲を変更する場合だが、ホストトランスポートノードプロファイルに割り当てたIP address Poolの設定を修正する方法が最も簡単だと言える。
もし手間にならないのであれば、新規でPoolを作成して修正前のPoolと入れ替えた後に古いPoolを削除する方法が安全な場合もある。
また少し雑なアドバイスになるが、かな入力やコピー&ペーストでは設定操作を進めないことを推奨する。NSX全般における話になるが、GUIで構築できる大変便利な代物ではある一方で、かな入力やコピー&ペーストによって余計な情報が内部処理に紛れることで失敗するケースが何度かあった。特にIP Address Poolでは当該の不具合が多かった。(体感なので当てにしないで欲しい)

おまけ)T0-T1間セグメント・内部中継サブネット・VRF間サブネット

(こちらはEdgeではなくTire-0やTier-1のエラー)
主にTier-0をデプロイする際に、内部通信用のサブネットとして指定する値だが、デフォルトの設定値のままデプロイした場合においては基本心配する必要はない。
デフォルト以外で自由に指定したサブネットで構築を進めた方に関しては、十分にIPアドレスの数を確保できたサブネットマスクであるか?重複していないか?に関して気をつける必要がある。
過去に私もパラメータシートからの打ち込みミスでサブネット指定をxxx.xxx.xxx.xxx/31で指定した為にTier-1を2台以上建てると原因不明のエラーで状態不良になる現象に遭ったことがある。

コメント

タイトルとURLをコピーしました