Kaggle – NVIDIA 技術博客

使用 Co-Visitation 矩陣和 RAPIDS cuDF 構建高效的推薦系統

Wed, 21 Aug 2024 08:52:55 +0000

推薦系統在跨各種平臺實現個性化用戶體驗方面發揮著至關重要的作用。這些系統旨在根據用戶過去的行為和偏好預測和推薦用戶可能與之交互的商品。構建有效的推薦系統需要理解和利用龐大、復雜的數據集，這些數據集可捕獲用戶和商品之間的交互。本文將向您展示如何基于共訪問矩陣構建簡單而強大的推薦系統。構建共訪問矩陣的主要挑戰之一是處理大型數據集時涉及的計算復雜性。使用像 pandas 等庫的傳統方法效率低下且速度緩慢，尤其是在處理數百萬甚至數十億次交互時。這正是 RAPIDS cuDF 的用武之地。RAPIDS cuDF 是一個 GPU DataFrame 庫，提供了類似 pandas 的 API，用于加載、過濾和操作數據。推薦系統是一種機器學習算法，旨在為用戶提供個性化建議或推薦。這些系統用于各種應用，包括電子商務（Amazon、OTTO）、內容流式傳輸（Netflix、Spotify）、

Source

]]>

分析機器學習研究代碼的安全性

Wed, 04 Oct 2023 04:27:13 +0000

我們的 NVIDIA AI 紅隊專注于在數據、科學和 AI 生態系統中擴展安全開發實踐。我們參與開源安全倡議，發布工具，并出席了行業會議，主辦教育競賽并提供創新培訓。最近發布的 Meta Kaggle for Code 數據集為大規模分析機器學習 (ML) 研究和實驗競賽代碼安全性提供了絕佳的機會。我們的目標是利用這些數據來解答以下問題：我們的分析表明，盡管有關于安全風險的公開文檔以及相對順暢的高級安全工具，ML 研究人員仍繼續使用不安全的編碼實踐。我們的理論認為，研究人員優先考慮快速實驗，并且不會將自己或其項目視為目標，因為他們通常不運行生產服務。此外，Kaggle 環境可能會因為與研究人員的“真實基礎架構”隔離而導致安全漏洞更加嚴重。但是，研究人員必須承認自己在軟件供應鏈中的地位，并應意識到不安全的編碼操作對其研究和系統帶來的風險。

Source

]]>

構建多語言推薦系統的專業提示

Thu, 10 Aug 2023 05:18:27 +0000

想象一下：你正在網上商店里瀏覽，尋找一雙完美的跑鞋。但是有成千上萬的選擇，你從哪里開始呢？突然，一個“為您推薦”區域吸引了你的眼球。你很感興趣，點擊一下，幾秒鐘內，就會出現一個根據你獨特喜好定制的跑鞋列表。就好像網站了解你的品味、需求和風格。歡迎來到推薦系統，這里尖端技術結合了數據分析，人工智能（AI），以及改變我們數字體驗的魔力。這篇文章深入探討了推薦系統的迷人領域，并探討了構建兩階段候選重新排序的建模方法。我提供了如何在代表性不足的語言中克服數據短缺的專業提示，以及如何實現這些最佳實踐的技術演練。對于每個用戶，推薦系統必須從可能數百萬個項目中預測出該用戶感興趣的幾個項目。這是一項艱巨的任務。一種強大的建模方法稱為兩階段候選重新排序。圖 1 顯示了這兩個階段。在第一階段，模型識別用戶可能感興趣的數百個候選項目。在第二階段，

Source

]]>