AI研究人員攜手發表更嚴格的自然語言效能評測平台SuperGLUE

Facebook AI、DeepMind、紐約大學與華盛頓大學的AI研究人員，在本周共同發表了SuperGLUE平台，這是一個專門用來測量人工智慧（AI）自然語言處理（NLP）能力的效能評測平台，原因是有愈來愈多的對話式AI系統在許多不同的評測上已達到上限，需要更大的挑戰來改善它們的NLP能力。

這是因為涵蓋各種NLP任務的GLUE效能評測平台問世不到一年，便有許多NLP模型超越了GLUE上的人類基準效能。研究人員說明，AI社群的合作、NLP競賽、各種評測平台的出爐、以及程式碼的釋出，都讓AI模型快速改善，在GPT與BERT出爐後，GLUE上的模型效能更是大躍進，最近的模型已然超越人類效能。

不過，即使它們能夠超越GLUE上特定任務的人類效能，卻依然無法解決某些人類得以完美完成的任務，為了替NLP研究設定一個全新且更高的門檻，SuperGLUE於焉誕生。

SuperGLUE包含8種不同的任務，其中一之為「選擇合理的替代方案」（ Choice of Plausible Alternatives，COPA），這是一個因果推理任務，系統先得到一個前提，之後即必須從兩個可能的選擇中判斷其因果，人類在COPA任務的準確性通常可達100%，而BERT則是74%，代表AI模型還有很大的進步空間。

再以最近表現最佳的RoBERTa模型為例，它擊敗了目前所有的NLU系統，也在「多重句子閱讀理解」（Multisentence Reading Comprehension，MultiRC）任務上超越人類效能，但在SuperGLUE上測試RoBERTa之後發現，RoBERTa在許多任務的表現上依然不及人類，說明了即使是當今最先進的NLU系統，還是存在著某些侷限性。

此外，研究人員還打造了該領域首個長篇問答資料集與效能評測，要求機器提供複雜且長篇的答案，這是現有演算法從未被挑戰過的事。目前的問答系統主要為簡答題，像是「水母有腦嗎？」而新的挑戰則是希望機器能夠理解更開放的問題並提供更具深度的答案，例如「沒有腦的水母怎麼運作？」以期推動AI可合成不同來源的資訊，並正確回應這類的開放式問題。

熱門新聞