圖片來源: 

Open AI

Open AI最近發布新一代的大型語言模型GPT-2,該模型有15億個參數,利用了800萬頁的網頁資料作為訓練資料,以預測所有輸入文字的下一個字作為訓練目標,而也因為資料集的多樣性,讓模型不需要針對特定的任務進行訓練,以上述單純的目標,就能涵蓋了許多跨領域的任務,目前該模型能夠在機器翻譯、回答問題、閱讀理解、總結段落等語言任務中生成與段落一致的文字內容,不過,為了預防惡意的使用行為,OpenAI並不會釋出訓練完的模型,只會發布技術論文和一個相較之下規模小很多的模型,提供研究人員做實驗。

GPT-2模型在許多語言任務中,都達到了很好的表現,舉例來說,給定模型一段文字,模型就能產生接續段落的文字,而該模型的表現,也超越了用特定領域訓練資料訓練而成的模型,像是維基百科、新聞或是書籍等特定訓練資料。此外,在像是問題回答、閱讀理解、段落總結,以及翻譯等語言任務中,GPT-2模型是從原始的文字資料開始學習,沒有透過特定任務的資料來訓練,而最終模型在這些任務上的表現也超越了現今效果最好的模型。

Open AI表示,通用的語言模型將能夠對社會產生很大的影響,也能夠促成許多相關的應用,Open AI期望像GPT-2這樣的模型能夠被用來創造寫作AI助理、更有能力的對話機器人、跨語言的非監督翻譯模型、更好的語言理解系統等,但是同時,Open AI也擔憂這樣的模型會被用於惡意的用途,像是製造誤導新聞、偽造他人、在社群平臺自動產生假內容,或是垃圾訊息等,因此只會釋出小型的GPT-2模型,並不會釋出訓練資料集、程式碼和模型的權重。

熱門新聞

Advertisement