通過多尺度說話人分解實現動態尺度加權

Fri, 16 Sep 2022 03:49:00 +0000

說話人日記化是按說話人標簽對錄音進行分段的過程，旨在回答“誰在何時發言？”。與語音識別相比，它有著明顯的區別。在你執行說話人日記化之前，你知道“說的是什么”，但你不知道“誰說的”。因此，說話人日記化是語音識別系統的一個基本特征，它可以用說話人標簽豐富轉錄內容。也就是說，如果沒有說話人日記化過程，會話錄音永遠不能被視為完全轉錄，因為沒有說話者標簽的轉錄無法通知您是誰在和誰說話。說話人日記必須產生準確的時間戳，因為在會話設置中，說話人的話輪數可能非常短。我們經常使用短的反向通道詞，如“ yes ”、“ uh huh ”或“ oh ”。這些詞對機器轉錄和識別說話人來說很有挑戰性。雖然根據說話人身份對音頻記錄進行分段，但說話人日記化需要對相對較短的分段進行細粒度決策，從十分之幾秒到幾秒不等。對如此短的音頻片段做出準確、細粒度的決策是一項挑戰，

Source

]]>

Taejin Park – NVIDIA 技術博客

通過多尺度說話人分解實現動態尺度加權