用 Megatron-CNTRL 為語言模型添加外部知識和可控性

Tue, 06 Oct 2020 08:38:00 +0000

大型語言模型，如 Megatron 和 GPT-3 正在改變人工智能。我們對能夠利用這些模型來創建更好的對話式人工智能的應用程序感到興奮。生成語言模型在會話式人工智能應用中存在的一個主要問題是缺乏可控制性和與真實世界事實的一致性。在這項工作中，我們試圖通過使我們的大型語言模型既可控又與外部知識庫保持一致來解決這個問題。縮放語言模型提供了更高的流暢性、可控性和一致性。為了緩解一致性和可控性問題，已經做了幾次嘗試。 Guan et al.（ 2020 年）通過微調引入常識知識來解決一致性問題。然而，這種天真的方法缺乏可解釋性和靈活性，無法決定何時以及從外部知識庫中合并什么。控制文本生成的許多功能都是可取的。最近，人們開發了不同的方法來控制生成，例如使用預先添加到模型輸入的控制代碼和以目標演員之前的談話為條件。然而，這些控制條件是預先定義好的，并且其能力有限。

Source

]]>

Peng Xu – NVIDIA 技術博客

用 Megatron-CNTRL 為語言模型添加外部知識和可控性