像 COVID-19 流行病期間的許多學校和大學一樣,比薩大學,意大利最古老的大學之一,面臨著尋找解決問題的解決方案的挑戰,而許多學生不得不遠程上課。
該大學的研究計算系重點研究人工智能深度學習和機器學習應用,他們通常在本地使用裸機系統執行計算。這種類型的實施通常與運行傳統應用程序的虛擬化基礎設施分開,這也是學生和教員所需的,從而創建了一個筒倉式環境,導致管理挑戰和復雜性。
在流感大流行期間,他們是新 NVIDIA AI 企業軟件套件的早期訪問用戶,該套件針對 VMware vSphere 環境進行了優化,并提供了與裸機系統類似的計算性能。
NVIDIA AI Enterprise 是一套端到端、云本機的 AI 軟件,經 VMware vSphere 7 Update 2 或更高版本認證,并經過 NVIDIA 認證的加速主流服務器,如 Dell EMC PowerEdge 。 NVIDIA AI Enterprise 軟件套件包括 NVIDIA 的關鍵啟用技術和軟件,用于快速部署、管理、,以及虛擬化數據中心中 AI 工作負載的擴展。 NVIDIA AI Enterprise 由 NVIDIA 認證、許可和支持。
Maurizio Davini ,比薩大學的 CTO 和 Davide Bacciu 教授的團隊都知道他們的校內基礎設施不僅滿足了學校中許多群體的計算需要,而且有一個有經驗的 IT 支持系統。
為了建立一個可擴展且更易于管理的環境,以便更好地與現有基礎架構集成,該大學希望 NVIDIA AI Enterprise 能夠在 VMware vSphere 上運行,并配備經 NVIDIA 認證的 Dell EMC VxRail Hyperconvered 服務器。首先,該大學需要評估虛擬化人工智能基礎設施是否能夠抵抗本地裸機系統提供的性能。
虛擬化環境中的裸機性能
為了進行“蘋果對蘋果”的比較, CTO Davini 的裸機設置在安裝了 NVIDIA DGX 操作系統的 Dell EMC PowerEdge XE8545 服務器中使用了單個 NVIDIA A100 Tensor Core GPU 。對于虛擬化環境, NVIDIA A100 GPU 和 NVIDIA BlueField 數據處理單元( DPU s )安裝在帶有 VMware vSphere 和 NVIDIA AI 企業軟件套件的 Dell EMC VxRail 服務器中。然后,研究計算部門執行兩個 AI 工作負載,涉及特定生物數據的圖形,另一個使用 MIDI 文件生成音樂。
作為 CLAIRE-COVID-19 生物信息學小組的協調員, CTO Davini 和 Bacciu 教授的團隊利用手頭的數據,對由蛋白質、疾病和基因的生物相互作用網絡組成的圖表進行了深入的學習,將深度學習技術應用于圖形是人工智能發展最快的研究課題之一,該技術正在推動符號和亞符號雜交系統在多個應用領域的發展。
每個網絡大小都是一個由 6000 多個分子圖組成的數據集,超過 45000 個節點和 74000 條邊。他們使用 2-3 層和 350 到 700 個單位的隱藏神經元,從圖形同構網絡借用,結合多層感知器進行分類,訓練了 36 種不同的圖形網絡配置。
該實驗是使用 PyDGN 進行的, PyDGN 是 GitHub 上的一個公開可用的 Python 庫,專門用于圖形神經網絡。每個圖形神經網絡配置都經過 10000 個歷元的訓練,這是通過機器學習算法完成的整個訓練數據集的通過次數。
Bacciu 教授的團隊還開發了一種基于 transformer 的對抗式自動編碼器用于音樂生成,他們稱之為 MUSAE2 . 0 。基于 transformer 的深度學習使用注意算法,這是一種衡量數據集中變量之間關系并對其進行優先級排序的方法。傳統上,它用于自然語言處理領域,試圖在一組輸入數據中識別單詞或聲音的上下文,以便預測和生成所需的輸出。
該團隊的模型使用了 256 個值的嵌入大小,其中嵌入使用的是數據,在本例中是歌曲,并將它們表示為矢量數字,以便可以通過機器學習算法進行計算。每層由 512 個隱藏神經元組成,共有四個注意頭,這是一組矩陣,顯示數據之間關系的計算加權注意。
他的團隊在編碼器和解碼器中使用了六層,基本上將數據轉換為矢量格式,然后將輸出轉換為所需的音樂格式。巴丘教授的模型使用 Lakh MIDI 數據集進行訓練,該數據集包含 100000 個 MIDI 文件。
在圖 2 中,是編碼為代表性數據的數據輸入,
,然后壓縮為更小的表示形式,
,其中包括從輸入中觀察到的相關數據。
然后解壓并解碼回 MIDI 格式,具有所需的輸出功能。
在進行人工智能實驗后, CTO Davini 和各個測試團隊得出結論, GPU 加速裸機設置和 NVIDIA 人工智能企業 NVIDIA 虛擬化環境之間的性能差異可以忽略不計這些研究結果證明了 GPU 加速的選項可供比薩大學的研究人員和科學家使用。
裸機系統將繼續成為學校人工智能研究基礎設施的重要組成部分。展望未來,現在通過 NVIDIA 認證的 Dell EMC VxRail 超聚合服務器與使用 NVIDIA AI 企業軟件運行工作負載的 VMware vSphere 服務器提供相同的計算性能,但得益于靈活、易于部署和管理的平臺。因為 NVIDIA AI 企業使用主流服務器,這些服務器還可以輕松地在其 AI 工作負載的同時運行其他企業應用程序,確保優化利用率,以適應大學的需要。
讓所有人都能使用加速人工智能
使用 NVIDIA AI Enterprise 的部門最顯著的特點之一是部署計算資源的方便性和速度。通過使用 DeepOps ,部門能夠跨工作節點群集自動部署 Kubernetes 。 DeepOps 用于安裝必要的 GPU 驅動程序,加載 NVIDIA Docker 容器工具包,以及 GPU 加速工作負載的其他資源。
然后, Kubernetes 用于自動部署、擴展和管理集裝箱化應用程序。國防部還利用 NVIDIA NGC 目錄,這是一個標準化軟件包的存儲庫,包括 NVIDIA AI 企業套件中包含的容器、預訓練模型和 AI SDK ,使必要軟件的安裝變得容易,并可供任何學生使用。
CTO Davini 和比薩大學計劃將其混合的裸金屬系統環境和 NVIDIA AI 企業虛擬化環境,包括戴爾的 EMC PrPosixXe85 45 和 VxRoad Server ,放到未來。該部門的重點是傳統地執行深度學習和量子計算模擬器的實驗,但由于 NVIDIA 認證服務器上的 NVIDIA AI 企業解決方案,他們也看到了高性能計算( HPC )工作負載帶來的好處。該解決方案實現了易管理性、可擴展性和性能,比薩大學將這些好處視為繼續下一代計算基礎設施的關鍵因素。
有關更多信息,請觀看即將舉行的使學生、教師和研究人員可以隨時隨地訪問 AI GTC 課程,該課程由該校首席技術官莫里齊奧·達維尼主持。
?