Aleksandr Laptev – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 02 Feb 2023 09:19:50 +0000 zh-CN hourly 1 196178272 基于熵的字級 ASR 置信度估計方法 http://www.open-lab.net/zh-cn/blog/entropy-based-methods-for-word-level-asr-confidence-estimation/ Fri, 13 Jan 2023 09:16:10 +0000 http://www.open-lab.net/zh-cn/blog/?p=6160 Continued]]> 一旦您有了自動語音識別( ASR )模型預測,您可能還想知道這些預測正確的可能性。這種正確率或置信度通常作為原始預測概率(快速、簡單且可能無用)來衡量。您還可以訓練單獨的模型來估計預測置信度(準確,但復雜且緩慢)。這篇文章解釋了如何使用基于熵的方法實現快速、簡單的單詞級 ASR 置信度估計。 你有沒有見過機器學習模型預測,并想知道這種預測有多準確?您可以根據在類似測試用例中測量的準確度進行猜測。例如,假設您知道 ASR 模型以 10% 的單詞錯誤率( WER )預測錄制語音中的單詞。在這種情況下,您可以預期該模型識別的每個單詞都有 90% 的準確率。 對于某些應用程序來說,這樣的粗略估計可能就足夠了,但如果您想確切地知道哪個單詞更可能正確,哪個單詞不正確呢?這將需要使用超出實際單詞的預測信息,例如從模型接收的準確預測概率。

Source

]]>
6160
更改 CTC 規則以減少訓練和解碼中的內存消耗 http://www.open-lab.net/zh-cn/blog/changing-ctc-rules-to-reduce-memory-consumption-in-training-and-decoding/ Mon, 12 Sep 2022 05:36:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5281 Continued]]> 訓練自動語音識別( ASR )模型的損失函數并不是一成不變的。舊的損失函數規則不一定是最優的。考慮一下 connectionist temporal classification ( CTC ),看看改變它的一些規則如何能夠減少 GPU 內存,這是訓練和推斷基于 CTC 的模型所需的內存,等等。 若你們要訓練一個 ASR 模型,無論是卷積神經網絡還是遞歸神經網絡、transformer 還是組合,你們很可能是用 CTC 損失訓練它。 CTC 簡單方便,因為它不需要每幀關于“什么聲音何時發音”(所謂的音頻文本時間對齊)的信息。在大多數情況下,這種知識是不可用的,就像在一個典型的 ASR 音頻數據集中,關聯文本沒有時間標記。 真正的時間校準并不總是微不足道的。假設大部分錄音沒有講話,結尾只有一個簡短短語。 CTC 損失并不能告訴模型何時準確地發出預測。相反,

Source

]]>
5281
人人超碰97caoporen国产