Eryk Lewinson – NVIDIA 技術博客

時間序列預測中交互項的綜合指南

Thu, 20 Jul 2023 04:25:00 +0000

由于時間序列數據固有的復雜性和不可預測性，對其建模可能具有挑戰性（也很有吸引力）。例如，時間序列中的長期趨勢可能會因某些事件而發生劇烈變化。回想一下全球疫情開始時，航空公司或實體店等企業的客戶數量和銷售額迅速下降。相比之下，電子商務業務繼續運營，中斷較少。交互項可以幫助建模這種模式。它們能捕捉變量之間的復雜關系，從而產生更準確的預測。這篇文章探討：交互術語可以幫助您探究目標和功能之間的關系是否會隨著另一個功能的值的變化而變化。想要了解更多詳細信息，請參閱我之前的文章，線性回歸中交互術語的全面指南。圖 1 顯示了一個散點圖，表示每加侖英里數（目標）和車輛重量（特征）之間的關系。根據變速器類型（另一個特征）的不同，這種關系會大不相同。如果不使用交互項，線性模型將無法捕捉到如此復雜的關系。實際上，無論傳輸類型如何，

Source

]]>

線性回歸中相互作用項的綜合指南

Wed, 26 Apr 2023 04:13:31 +0000

線性回歸是一種強大的統計工具，用于對因變量和一個或多個自變量（特征）之間的關系進行建模。回歸分析中一個重要且經常被遺忘的概念是交互作用項。簡而言之，交互術語使您能夠檢查目標和自變量之間的關系是否會根據另一個自變量的值而變化。交互術語是回歸分析的一個關鍵組成部分，了解它們的工作原理可以幫助從業者更好地訓練模型和解釋數據。然而，盡管交互術語很重要，但它們可能很難理解。這篇文章提供了線性回歸背景下交互作用術語的直觀解釋。首先，這是一個更簡單的案例；也就是說，一個沒有相互作用項的線性模型。這樣的模型假設每個特征或預測器對因變量（目標）的影響獨立于模型中的其他預測器。以下等式描述了具有兩個特征的此類模型規范：為了使解釋更容易理解，這里有一個例子。想象一下，你對房地產價格建模感興趣 (y) 使用兩個功能：它們的大小 (X1 個)…

Source

]]>

回歸評價指標綜述

Thu, 20 Apr 2023 06:07:13 +0000

作為一名數據科學家，評估機器學習模型性能是您工作的一個關鍵方面。為了有效地做到這一點，您可以使用各種統計指標，每種指標都有自己獨特的優勢和劣勢。通過對這些指標的深入理解，您不僅可以更好地選擇最佳指標來優化模型，還可以向業務利益相關者解釋您的選擇及其影響。在這篇文章中，我重點討論了用于評估回歸問題的指標，這些回歸問題涉及到預測一個數值，無論是房價還是下個月公司銷售額的預測。由于回歸分析可以被認為是數據科學的基礎，因此理解其中的細微差別至關重要殘差是大多數度量的構建塊。簡單地說，殘差是實際值和預測值之間的差值圖 1 顯示了目標變量之間的關系 (y) 和一個功能 (x) . 藍點代表觀察結果。紅線是機器學習模型的擬合，在這種情況下線性回歸橙色線表示觀測值與該觀測的預測值之間的差異。正如您所看到的，殘差是為樣本中的每個觀測值計算的，無論是訓練集還是測試集。

Source

]]>

使用三種穩健線性回歸模型處理異常值

Wed, 20 Jul 2022 04:28:00 +0000

線性回歸是最簡單的機器學習模型之一。它通常不僅是學習數據科學的起點，也是構建快速簡單的最小可行產品（ MVP ）的起點，然后作為更復雜算法的基準。一般來說，線性回歸擬合最能描述特征和目標值之間線性關系的直線（二維）或超平面（三維及三維以上）。該算法還假設特征的概率分布表現良好；例如，它們遵循高斯分布。異常值是位于預期分布之外的值。它們導致特征的分布表現較差。因此，模型可能會向異常值傾斜，正如我已經建立的那樣，這些異常值遠離觀測的中心質量。自然，這會導致線性回歸發現更差和更有偏差的擬合，預測性能較差。重要的是要記住，異常值可以在特征和目標變量中找到，所有場景都可能惡化模型的性能。有許多可能的方法來處理異常值：從觀察值中刪除異常值，處理異常值（例如，將極端觀察值限制在合理值），或使用非常適合自己處理此類值的算法。本文重點介紹了這些穩健的方法。我使用相當標準的庫：

Source

]]>

將時間信息編碼為 ML 模型特征的三種方法

Thu, 17 Feb 2022 04:07:00 +0000

假設你剛剛開始一個新的數據科學項目。目標是建立一個預測目標變量 Y 的模型。您已經從利益相關者/數據工程師那里收到了一些數據，進行了徹底的 EDA ，并選擇了一些您認為與當前問題相關的變量。然后你終于建立了你的第一個模型。分數可以接受，但你相信你可以做得更好。你是做什么的？有很多方法可以讓你跟進。一種可能是增加所用 machine-learning 模型的復雜性。或者，您可以嘗試提出一些更有意義的功能，并繼續使用當前的模型（至少目前是這樣）。對于許多項目，企業數據科學家和 Kaggle 等數據科學競賽的參與者都同意，后者——從數據中識別出更有意義的特征——往往能夠以最少的努力最大程度地提高模型的準確性。你有效地將復雜性從模型轉移到了功能上。這些功能不一定非常復雜。但是，理想情況下，我們會發現與目標變量有著強烈而簡單的關系的特征。

Source

]]>