現代數據中心可以運行數千種服務和應用程序。當出現問題時,作為網絡管理員,您默認是有罪的。你必須每天證明自己的清白,因為很容易指責網絡。這是一個不公平的世界。
很難將應用程序性能問題與網絡關聯起來。您可以從使用簡單的 ping 或 traceroute 檢查基本連接開始,檢查基于 SNMP 的監視工具、嗅探器,甚至讀取設備計數器以查找丟棄。與此同時,用戶遭受應用程序速度慢、性能差甚至不可用的困擾。
不幸的是,所有這些經典的網絡故障排除方法都很耗時,不能保證成功,因為有時使用它們幾乎不可能查明問題。
NetQ 出手相救
為了方便網絡故障排除, NVIDIA 開發了 NetQ – 一個可擴展的現代網絡操作工具集,可實時提供網絡可見性。
NetQ 團隊最近推出了獨特的 flow analysis 工具,以進一步增強可見性。流分析允許網絡管理員立即將服務流量流與結構中的路徑關聯起來,從而大大減少了平均無辜時間( MTTI ),甚至確保沒有網絡問題。
流分析使您能夠發現并可視化特定應用程序的通信流在結構中端點之間的所有路徑。它監視整個結構的延遲和緩沖區利用率統計信息。隨著 EVPN 和多租戶成為大多數現代數據中心的標準解決方案,流分析工具旨在對不同 VRF 內覆蓋和底層網絡上的 TCP 或 UDP 數據進行采樣。
當與 What Just Happened ( WJH ) ASIC 遙測一起使用時,流量分析變得更加強大。在分析流量時,會顯示流量路徑中所有交換機的流量相關 WJH 事件,以幫助您發現是否存在導致服務問題的掉線。這兩個功能協同工作,最大限度地提高了查明影響應用程序的實際問題的可能性。

根據數字
運行 NVIDIA Spectrum 2 或更高版本的交換機支持流分析。它還可以為使用不受支持的交換機或運行早期版本的 Cumulus Linux 或 SONiC 的交換機的棕地部署提供部分路徑發現。
流分析基于數據包的四元組或五元組(包括 VXLAN 內部和外部標頭)對流量進行采樣。其采樣壽命限制為 10 、 15 、 20 或 30 分鐘。您可以決定是在創建時運行它,還是在以后安排它。
采樣率粒度也可配置為低(每 10000 個)、中(每 1000 個)、高(每 100 個)或所有數據包(每 1 個)。采樣率越高,所分析的數據越準確。較高的采樣率會導致較高的 CPU 利用率,因此我建議為流量較大的流量設置較低的采樣率。
在 NVIDIA Air 親自體驗
NVIDIA Air 是創建數據中心數字孿生的工具。使用 Air ,您可以構建自己的 Cumulus Linux 虛擬數據中心,測試它,使用 NetQ 驗證它,探索特性,并學習一些最佳實踐。它完全免費使用!
通過在 Air Marketplace 中旋轉預構建的 NVIDIA Air Infrastructure Simulation Platform 演示來嘗試流量分析。跟隨導游參觀,了解使用 NetQ 進行流分析可以為您的組織帶來的顯著好處。
有關詳細信息,請參閱以下資源:
- NVIDIA NetQ User Guide
- NVIDIA Air User Guide
- NVIDIA Cumulus Linux User Guide
- Analyzing Fabric-wide Network Latency With NetQ 4.1.0
- Automate Network Monitoring and Reduce Downtime with the Latest Release of NVIDIA NetQ
- Close Knowledge Gaps and Elevate Training with Digital Twin NVIDIA Air
- Troubleshooting Networks with NetQ
?