計算機視覺的未來

Computer vision 是一個快速發展的研究和應用領域。計算機視覺研究的進展現在更直接、更直接地適用于商業世界。

人工智能開發人員正在實施計算機視覺解決方案，以識別和分類對象，甚至對其作出實時反應。圖像分類、人臉檢測、姿態估計和光流是一些典型的任務。計算機視覺工程師是 deep learning （ DL ）或 machine learning （ ML ）工程師的子集，他們編寫計算機視覺算法來完成這些任務。

DL 算法的結構非常適合解決計算機視覺問題。卷積神經網絡（ CNN ）的體系結構特征能夠檢測和提取視覺數據中存在的空間模式和特征。

計算機視覺領域正在迅速改變汽車、醫療保健和機器人等行業，很難跟上最新發現、趨勢和進展。這篇文章重點介紹了正在影響并將繼續影響 2022 年及以后計算機視覺發展未來的核心技術：

幫助擴展 DL 解決方案的云計算服務。
自動化 ML （ AutoML ）解決方案，可減少標準 ML 管道中所需的重復工作。
transformer 研究人員開發的優化計算機視覺任務的體系結構。
結合計算機視覺技術的移動設備。

云計算

云計算通過互聯網為個人或企業提供數據存儲、應用服務器、網絡和其他計算機系統基礎設施。云計算解決方案提供快速、經濟高效、可擴展的按需資源。

大多數 ML 解決方案都需要存儲和高處理能力。數據集管理的早期開發（聚合、清理和爭論）通常需要云計算資源來存儲或訪問 BigQuery 、 Hadoop 或 BigTable 等解決方案應用程序。

Image of data center servers. — *圖 1 ：。互聯數據中心，代表對云計算和云服務的需求*
(*【VZX8】在【VZX9】上的照片*)

最近，具有計算機視覺功能的設備和系統顯著增加，例如用于步態分析的姿勢估計、智能手機的人臉識別和自動車輛的車道檢測。

云存儲的需求正在快速增長， projected 預計該行業的價值將達到 3903.3 億美元，是 2021 市場當前價值的五倍。 market size 的增加將導致使用入站數據來訓練 ML 模型的增加。這與更大的數據存儲容量需求和越來越強大的計算資源直接相關。

GPU 可用性加快了計算機視覺解決方案的速度。然而，單憑 GPU 還不足以提供這些應用程序所需的可擴展性和正常運行時間，尤其是在為數千甚至數百萬消費者提供服務時。云計算提供了啟動和補充現有內部基礎設施缺口所需的資源。

云計算平臺，包括 Amazon Web 服務（ AWS ）、谷歌云平臺（ GCP ）和 Microsoft Azure 為 ML 和數據科學項目管道的核心組件提供端到端解決方案，包括數據聚合、模型實現、部署和監控。對于設計視覺系統的計算機視覺開發人員來說，重要的是要了解這些主要云服務提供商的優勢，以及如何配置它們以滿足特定和復雜的管道需求。

大規模計算機視覺需要云服務集成

以下是支持典型計算機視覺系統的 NVIDIA 服務示例。

預訓練 DL 模型的 NGC Catalog 降低了模型訓練和實現的復雜性。

DL scripts 提供現成的可定制管道。強健的模型部署解決方案自動化了向最終用戶的交付。

NVIDIA Triton 推理服務器支持在任何基于 GPU 或 CPU 的基礎設施上部署來自 TensorFlow 和 PyTorch 等框架的模型。 Triton 推理服務器提供了跨各種平臺（包括云、邊緣和嵌入式設備）的模型可擴展性。

NVIDIA 與云服務提供商（如VZX18）的合作伙伴關系支持部署基于計算機視覺的資產，因此計算機視覺工程師可以將更多精力放在模型性能和優化上。

企業在可行的情況下降低成本并優化戰略。云計算和云服務提供商通過提供基于使用情況的計費解決方案和基于需求的擴展來實現這兩個目標。

AutoML

ML 算法和模型開發涉及許多任務，這些任務可以受益于自動化，如特征工程和模型選擇。

特征工程涉及從數據集中檢測和選擇相關特征、屬性和屬性。

模型選擇涉及評估一組 ML 分類器、算法或給定問題的解決方案的性能。

特征工程和模型選擇活動都需要 ML 工程師和數據科學家花費大量時間來完成。軟件開發人員經常重新訪問工作流的這些階段，以提高模型性能或準確性。

Image of an analytics dashboard. — *圖 2 ：。 AutoML 支持重復任務（如數值計算）的自動化*
(*【VZX19】在【VZX20】上的照片*)

有幾個正在進行的大型項目可以簡化復雜的 ML 項目管道。 AutoML 專注于自動化和增強工作流及其過程，以使 ML 易于訪問，并減少非 ML 專家的手動強度。

從市場價值來看， projections 預計到 2030 年， AutoML 市場將達到 140 億美元。這意味著將比當前值增加約 42 倍。

ML 和自動化的這種特殊結合正在獲得吸引力，但也有局限性。

實踐中的 AutoML

AutoML 節省了數據科學家和計算機工程師的時間。 AutoML 功能使計算機視覺開發人員能夠將更多精力投入到計算機視覺開發管道的其他階段，以最好地利用他們的技能集，如模型培訓、評估和部署。 AutoML 有助于加速數據聚合、準備和超參數優化，但工作流的這些部分仍然需要人工輸入。

構建正確的模型需要數據準備和聚合，但它們是重復的、耗時的任務，依賴于找到合適的數據質量源。

同樣，超參數優化可能需要大量時間進行迭代以獲得正確的算法性能。它涉及到一個有根據的猜測的試錯過程。尋找合適的超參數所需的重復工作量可能會很繁瑣，但對于使模型的訓練達到所需的精度至關重要。

對于那些對 GPU 驅動的 AutoML 感興趣的人來說，廣泛使用的基于樹的管道優化工具（ TPOT ）是一個自動化的 ML 庫，旨在通過利用遺傳編程優化 ML 過程和管道。 RAPIDS cuML 提供使用 GPU 計算資源加速的 TPOT 功能。有關更多信息，請參閱使用 TPOT 和 RAPIDS 實現更快的 AutoML 。

機器學習庫和框架

ML 庫和框架是任何計算機視覺開發人員工具包中的基本元素。主要 DL 庫，如 TensorFlow 、 PyTorch 、 Keras 和 MXNet 在 2021 收到了持續的更新和修復，并且在未來可能會繼續這樣做。

最近，以移動為中心的 DL 庫和優化常用 DL 庫的包取得了令人興奮的進展。

MediaPipe 于 2021 擴展了姿勢估計功能，通過 BlazePose 模型提供 3D 姿勢估計，該解決方案可在瀏覽器和移動環境中使用。 2022 年，預計將在涉及動態運動和需要穩健解決方案的用例中看到更多姿勢估計應用，例如舞蹈中的運動分析和虛擬角色運動模擬。

PyTorch 閃電由于它的簡單性、復雜神經網絡實現細節的抽象性和硬件考慮的擴展性，在研究人員和專業 ML 從業者中越來越流行。

最先進的深度學習

DL 方法長期以來被用來解決計算機視覺的挑戰。用于人臉檢測、車道檢測和姿態估計的神經網絡結構都使用深層連續的 CNN 。一種新的計算機視覺算法架構正在出現：變形金剛。

transformer 是在注意力是你所需要的中引入的 DL 體系結構。論文方法通過使用 attention mechanism 來推導輸入數據的一部分相對于輸入數據的其他部分的重要性，從而創建數據的計算表示。

transformer 沒有使用 CNN 的約定，但研究表明 transformer 型號在 vision-related tasks 中。變形金剛在 NLP 領域內產生了相當大的影響。有關更多信息，請參閱發電預培訓變壓器（ GPT ）和變壓器的雙向編碼器表示（ BERT ）。

通過包含 PyTorch 中實際 transformer 模型的架構和使用細節的 NGC Catalog 探索 transformer 模型。

有關將 Transformer 網絡體系結構應用于計算機視覺的更多信息，請參閱視覺中的變形金剛：一項調查論文。

移動設備

邊緣設備正變得越來越強大。對于希望快速提供服務和 AI 功能的客戶來說，設備上推理功能是移動應用程序的必備功能。

Image of a smartphone on a table. — *圖 3 ：。移動設備是計算機視覺功能的直接商業應用*
*Taylor Vick在Unsplash上的照片*)

將計算機視覺功能（如圖像和模式識別）納入移動設備中，可以減少獲取模型推理結果的延遲，并提供以下好處：

縮短等待時間 用于獲取設備計算的推斷結果。
增強隱私和安全性 由于云服務器之間和到云服務器的數據傳輸有限。
云上的 降低了刪除依賴項的成本 和 CPU 服務器進行推斷。

許多企業正在探索移動產品，其中包括探索如何在移動設備上復制現有 AI 功能。以下是實施 mobile first AI 解決方案的幾個平臺、工具和框架：

TensorFlow 很少
CoreML
Apple Vision 框架
TensorFlow-React
CreateML
MediaPipe
MLKit

總結

隨著人工智能越來越多地融入我們的日常生活，計算機視覺技術不斷發展。計算機視覺在最新的新聞頭條中也變得越來越普遍。隨著這項技術的擴展，由于云計算服務、自動 ML 管道、轉換器、以移動為中心的 DL 庫和計算機視覺移動應用程序的發展趨勢，對具有計算機視覺系統知識的專家的需求也將增加。

2022 年，增強型和 VR 應用程序的不斷發展將使計算機視覺開發人員能夠將其技能擴展到新的領域，例如開發在 3D 空間中復制和與真實對象交互的直觀高效方法。展望未來，計算機視覺應用將繼續改變并影響未來。

計算機視覺的未來