• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 3 月 19 日下午 2 點,鎖定 NVIDIA AI 網絡中文專場。立即注冊觀看
    數據中心/云端/邊緣

    面向數據中心運營商的開源時間同步服務

    從分布式數據庫和 5G 無線接入網絡( RAN )到游戲、視頻流、高性能計算( HPC )和元宇宙,應用程序越來越實時和延遲敏感。納秒分辨率時間同步在許多方面增強了傳統計算,包括:

    • 通過確保多個數據庫保持最新且彼此一致,幫助數據庫提高數據管理系統的準確性、效率、協作性和安全性
    • 通過查看基于延遲的模式,從惡意和機器人行為中篩選真實的用戶活動,從而增強安全策略
    • 實現游戲世界的“ ready player one ”或元宇宙
    • 通過計算機視覺和實時分析,創造沉浸式購物體驗,幫助客戶做出明智的購買決策,減少結賬麻煩
    • 自動化大型工廠和設施,通過使數字工廠孿生體模仿真實工廠,將生產線、倉庫和機械提高到新的效率,反之亦然
    • 保持 5G 網絡中輸入頻帶的準確性、正確分布和及時處理

    通過一系列合作, NVIDIA 、 MetaOpen Compute Project Time Appliance Project ( OCP-TAP )中的其他公司為開放、可靠和可擴展的現代時間同步解決方案制定了藍圖。

    開放時間同步解決方案

    Meta 在其遍布全球的龐大數據中心內實現了亞微米級的精度。這是通過商品服務器上的硬件時間戳實現的,即使在 CPU 和網絡負載下,也會受到溫度變化的影響。

    直到最近,以如此高的規模部署 Precision Time Protocol ( PTP )還需要專用的硬件和軟件組件。此外,對于如何在數據中心實現精確的時間服務,還缺乏良好的藍圖。

    Precision Time Protocol tree topology diagram for data centers, including spine switches, ToR switches, NVIDIA NICs, and Open Time Server.
    圖 1 。數據中心的精確時間協議( PTP )樹

    這就是 OCP-TAP 的作用所在;具體而言, Time Cards 創新使 Meta 能夠同步 between 數據中心的時間。 PTP IEEE-1588 應用于網絡接口卡( NIC )和網絡設備,如 NVIDIA ConnectX ,使用網絡將數據中心的所有機器 within 同步。

    可擴展到數百萬客戶端的時間服務器

    Open Time Server 由 OCP-TAP 社區開源,維護數據中心的權威時間來源。

    Diagram of the Open Time Server layers: Management and Monitoring, System Software, Time Card, NIC, and COTS Server.
    圖 2 :開放時間服務器的層

    時間卡可以支持數百萬個客戶端/同步。 NIC 能夠“全速硬件時間戳”。瓶頸被推到軟件領域。

    Meta 工程師重寫了 PTP 守護程序的整個主功能,采用了對可擴展性格外關注的軟件架構和設計。該堆棧現在稱為 PTP4U ,是一個可擴展的 PTP 堆棧。有關詳細信息,請訪問 GitHub 上的 facebook/time

    開放時間服務器能夠使用 PTP4U 服務器軟件以 1 Hz 的同步頻率持續支持 100 多萬個客戶端(普通時鐘)。

     Screenshot of PTP4U software in action, syncing over 1 million clients.
    圖 3 。可擴展的 PTP 堆棧 PTP4U 可擴展超過 100 萬個客戶端

    商業 grandmaster clocks 支持多達數百個客戶機,而超大規模數據中心需要更多數量級。在網絡的遠程邊緣位置支持定時的需要也增加了規模。

    構建一個巨大的開放時間服務器

    如果你在 2021 夏天問過 PTP 專家如何擴展 PTP 解決方案,答案很可能是使用邊界時鐘( BC )。將業務連續性引入數據中心有兩個挑戰。

    第一個挑戰是操作。雖然不特定于 Meta ,但網絡交換機上的 BC 實現需要一定的硬件和軟件支持。在現有棕地部署中引入業務連續性會帶來重大風險。交換機是整個網絡的核心元件。在所有參與的交換機上啟用 BC 將需要重新認證整個網絡。這是一個漫長、密集、昂貴且危險的過程。就當時的投資回報率而言,這是不可能的。

    第二個挑戰涉及同步技術,該技術要求每個計算節點不僅知道精確的時間,還知道 uncertainty window 或準確度。有關詳細信息,請參見 Spanner, True-Time, and The CAP Theorem

    這意味著,對于數據中心中的每個參與節點,都有一種簡單的方法來確定與主節點的時間偏移(而不僅僅是與 BC 的直接主節點)。可擴展到數百萬的時間服務器可以依賴透明時鐘( TC ),從而完全避免 BC 。

    數據中心的透明時鐘

    透明時鐘對時鐘樹的總累積噪聲沒有貢獻,這僅僅是因為 TC 不是真正的時鐘,并且它們不約束任何時鐘。相反, TC 只需公布數據包的駐留時間,通常小于 1 微秒,這是一個足夠小的周期,即使是一個簡單的振蕩器也不會大幅漂移。

    透明時鐘還降低了操作復雜性。它們不運行軟件守護程序,更常見的是由現有交換機支持。這使得將 PTP 引入棕地數據中心更加簡單。

    最后, TC 是透明的,因此每個節點都直接由主時鐘控制。這有助于直接計算所有參與節點的不確定性窗口。

    硬件的精度和準確性

    即使在高速網絡中,支持 UTC 的單片硬件時鐘也是以全速對數據包進行時間戳的關鍵。 NVIDIA 在 PTP4L ( PTP 1588-2008 Linux 守護程序)中增加了對硬件時間戳的支持,使系統和應用程序能夠獲得 UTC 格式的時間。

    NVIDIA 還對 PTP4L 進行了其他幾項更改,以提高其準確性;例如,增加對使用硬件參考時鐘的支持,這可以提供比基于軟件的時鐘更高的精度。

    大規模測試 PTP 可靠性

    為了研究 PTP 在高規模網絡上的運行情況,需要一種方法來不斷測量、測量和驗證高規模的同步精度。我們提出了一種使用 ConnectX-6 Dx 每秒脈沖?( PPS In )作為測量的無限可擴展測試方法。(使用 PPS Out 方法最多可使用少數設備。)

    為此,我們將 ConnectX 配置為運行實時時鐘模式,并將設備從 PPS In 鏈接到 PPS Out (圖 4 )。使用這種方法,我們描述了非常大的 PTP 樹,并證明了我們的 PTP 解決方案可以達到納秒。

    Test scheme diagram using PPS-In to characterize very large PTP trees. Diagram includes RF splitter, boundary clocks, ordinary clocks, and RF cables.
    圖 4 。具有 PPS-In 的無限可擴展測試方案

    總結

    時間同步基礎架構藍圖可供所有人使用,并可供云提供商和運營商使用。 NVIDIA 將繼續投資于高精度時間同步,以增強所有產品線和解決方案。

    旅程尚未結束。與 OpenComputeTAP 社區分享我們的工作,并與我們的合作伙伴一起為各種用例構建更多藍圖,這將是幫助此解決方案變得通用和相對容易部署的關鍵。

    其他資源

    查看這些相關資源以了解更多信息:

    Register for NVIDIA GTC 2023 for free 并于 3 月 20-23 日加入我們,探索人工智能、加速計算等方面的突破。

    ?

    0

    標簽

    人人超碰97caoporen国产