神經科學領域的一個主要目標是了解大腦如何控制運動。通過改進姿勢估計,神經生物學家可以更精確地量化自然運動,進而更好地了解驅動自然運動的神經活動。這增強了科學家表征動物智力、社交和健康的能力。
哥倫比亞大學的研究人員最近開發了一個以視頻為中心的深度學習包,可以從視頻中更有力地跟蹤動物的運動,這有助于:
- 在面對遮擋和數據集偏移時獲得可靠的姿態預測。
- 同時在圖像和視頻上進行訓練,同時顯著縮短訓練時間。
- 簡化訓練模型、形成預測和可視化結果所需的軟件工程
Lightning Pose 是一個工具,可以在 PyTorch Lightning 中用于訓練深度學習模型,以標記圖像和未標記視頻,并使用 NVIDIA 的 DALI 在 GPU 上對其進行解碼和處理。
在這篇博客文章中,您將看到當代計算機視覺架構如何從開源的 GPU 加速視頻處理中受益。
用于視頻中自動姿勢跟蹤的深度學習算法最近在神經科學中引起了廣泛關注。?標準方法包括在一組注釋圖像上以完全監督的方法訓練卷積網絡。?
大多數卷積架構都是為處理單個圖像而構建的,并且不使用隱藏在視頻中的有用的時間信息。?通過單獨跟蹤每個關鍵點,這些網絡可能會生成無意義的姿勢或多個相機之間不一致的姿勢。? 盡管它被廣泛采用并取得了成功,但主流的方法往往過于適合訓練,難以推廣到看不見的動物或實驗室。
一種有效的動物姿態跟蹤方法
如圖1所示,這個Lightning Pose 包是一組用于動物姿態跟蹤的深度學習模型,在 PyTorch Lightning 中實現。它采用以視頻為中心的半監督方法來訓練姿態估計模型,除了在一組標記的幀上進行訓練外,它還在許多未標記的視頻片段上進行訓練,并在其姿勢預測序列不連貫(即違反基本時空約束)時懲罰自己。使用 DALI 直接在 GPU 上對未標記的視頻進行解碼和動態處理。

在訓練過程中, DALI 會以各種方式隨機修改或增強視頻。這使網絡暴露在更廣泛的訓練示例中,并使其更好地應對部署時可能遇到的數據中的意外系統變化。
它的半監督架構,如圖 2 所示,從標記和未標記的幀中學習。

與標準監督網絡相比,閃電姿勢可以在不同物種(老鼠、魚等)和任務(全身運動、眼睛跟蹤等)之間實現更準確、更精確的跟蹤。傳統的完全監督方法需要大量的圖像標記,并且很難推廣到新的視頻中。它經常產生干擾下游分析的噪聲輸出。
它的新姿態估計網絡更好地推廣到看不見的視頻,并提供更平滑、更可靠的姿態軌跡,同時增強了健壯性和可用性。通過半監督學習、貝葉斯集成和云原生開源工具,與 DeepLabCut(只有 75 個標記幀)相比,閃電姿態估計提高了 40%,降低了幀間的像素誤差和平均關鍵點像素誤差(DeepLabCut 14.60 ± 4)。
在國際大腦實驗室的小鼠瞳孔跟蹤數據集中可以看到最明顯的收獲,即使有 3000 多個標記幀,預測也更準確,并導致更可靠的科學分析。

圖 3 顯示了在神經科學實驗中跟蹤老鼠瞳孔的上、下、左和右角。在左邊, DeepLabCut 模型在圖像的不可信部分(紅框)提供了大量預測。
中心顯示閃電姿態預測,右側將閃電姿態與作者的集合卡爾曼平滑方法相結合。兩種閃電姿勢的方法都很好地跟蹤了這四個點,并在合理的區域預測它們。
改進的瞳孔跟蹤反過來暴露出與神經活動更強的相關性。作者在 66 個神經科學實驗中對神經活動和追蹤的瞳孔直徑進行了回歸,發現模型輸出可以更可靠地從大腦活動中解碼。

圖 4 顯示?從大腦記錄中解碼瞳孔直徑。圖 4 的左側顯示了從閃電姿勢模型( LP + EKS ;藍色)得出的瞳孔直徑時間序列,以及將線性回歸應用于神經數據的預測(橙色)。
圖 4 的右側顯示 R2擬合優度值量化了從神經活動中解碼瞳孔直徑的效果。如圖所示,閃電姿態和合奏版本產生了明顯更好的結果 DLC R2 = 0 . 27 ± 0 . 02 ; LP 0 . 33 ± 0 . 02 ; LP + EKS 為 0 . 35 ± 0 . 02 。
下面的視頻展示了老鼠在跑步機上跑步的預測的穩健性。
利用 DALI 改進卷積體系結構的以圖像為中心的方法
將卷積網絡應用于視頻是一個獨特的挑戰:這些網絡通常只在單個圖像上運行。盡管新一代 GPU 的深度學習加速器的計算能力不斷增長,Tensor Cores 和 CUDA Graphs,這種以圖像為中心的方法基本上沒有改變。目前的體系結構要求在預處理期間將視頻分割成單獨的幀,通常將其保存在磁盤上以供以后加載。然后,這些幀在 CPU 上被擴充和變換,然后被傳送到在 GPU 上等待的網絡。
Lightning Pose 利用 DALI 進行 GPU-加速視頻解碼和處理。這與大多數計算機視覺深度學習架構形成了鮮明對比,如 ResNets 和 Transformers,它們通常只對單個圖像進行操作。當依次應用于視頻時,這些架構(以及流行的神經科學工具DeepLabCut和SLEAP基于它們的)往往會產生違反物理定律的不連續預測。例如,在兩個連續的視頻幀中,一個對象可能會從房間的一個角落跳到另一個角落。

DALI 為閃電姿勢提供了一個有效的解決方案,通過:
- 閱讀視頻。
- 處理解碼過程(感謝 NVIDIA 視頻編解碼 SDK)。
- 應用各種增強(旋轉、調整大小、亮度和對比度調整,甚至添加鏡頭噪聲)。
使用 DALI , Lightning Pose 通過充分使用 GPU 提高了視頻數據的訓練吞吐量,并保持了整個解決方案的預期性能。
DALI 還可以與并行工作的附加數據加載程序結合使用。International Brain Laboratory,由 16 個不同的神經科學實驗室組成的聯盟,正在整合 DALI 加載程序,以預測 30000 個神經科學實驗中的姿勢。
開源合作的好處
這項研究是開源社區合作創造價值的一個很好的例子。 DALI 和 Lightning Pose 都是開源項目,對社區在 GitHub 上的反饋和詢問反應強烈。這些項目之間的合作始于 2021 年年中,當時社區成員 Dan Biderman 開始評估 DALI 技術。 Dan 的積極參與和 DALI 團隊的迅速反應促成了富有成效的對話,從而將其融入了 Lightning Pose 。
下載并嘗試 DALI 和 Lightning Pose;您可以直接通過它們的 GitHub 頁面與他們聯系。
閱讀研究,通過半監督學習、貝葉斯集成和云原生開源工具改善動物估計。
?