Taejin Park – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Wed, 28 Sep 2022 03:57:31 +0000 zh-CN hourly 1 196178272 通過多尺度說話人分解實現動態尺度加權 http://www.open-lab.net/zh-cn/blog/dynamic-scale-weighting-through-multiscale-speaker-diarization/ Fri, 16 Sep 2022 03:49:00 +0000 http://www.open-lab.net/zh-cn/blog/?p=5257 Continued]]> 說話人日記化是按說話人標簽對錄音進行分段的過程,旨在回答“誰在何時發言?”。與語音識別相比,它有著明顯的區別。 在你執行說話人日記化之前,你知道“說的是什么”,但你不知道“誰說的”。因此,說話人日記化是語音識別系統的一個基本特征,它可以用說話人標簽豐富轉錄內容。也就是說,如果沒有說話人日記化過程,會話錄音永遠不能被視為完全轉錄,因為沒有說話者標簽的轉錄無法通知您是誰在和誰說話。 說話人日記必須產生準確的時間戳,因為在會話設置中,說話人的話輪數可能非常短。我們經常使用短的反向通道詞,如“ yes ”、“ uh huh ”或“ oh ”。這些詞對機器轉錄和識別說話人來說很有挑戰性。 雖然根據說話人身份對音頻記錄進行分段,但說話人日記化需要對相對較短的分段進行細粒度決策,從十分之幾秒到幾秒不等。對如此短的音頻片段做出準確、細粒度的決策是一項挑戰,

Source

]]>
5257
人人超碰97caoporen国产