Google釋出大型且由人工註解的情緒資料集GoEmotions,該資料是目前最大型的全註解英文高精細度情緒資料集,能夠用於細緻的情緒預測應用上。GoEmotions是Google在Reddit上,從英語子版擷取了5.8萬條評論,並以27種情緒類別標註。

GoEmotions考量心理學和資料適用性,有別於基本的6種情緒,該資料集包含12種正面情緒,11種負面情緒和4種曖昧不明的情緒,還有1種中性情緒,使其能廣泛地應用在需要細微區分情緒的對話理解任務。

人類能夠透過簡單地以文字和話語,微妙地傳遞複雜的情感,而自然語言處理研究社群的一個長期目標,便是要讓機器人能夠理解對話的上下文和情緒,使得聊天機器人能更善解人意,甚至是能夠偵測線上有害的行為,或是改進客服功能等。

在過去10年,自然語言處理研究社群所製作的多個分類情感的資料集,大部分都是手動建構,領域涵蓋新聞標題、電影以及故事,資料集規模不僅較小,也僅限於憤怒、驚訝、厭惡、喜悅、恐懼和悲傷6種基本情緒。

而Google的目標,是要建立一個專注於對話的大型情緒資料集,而Reddit平臺提供了大量公開可用的內容,因此Google截取從2005年到2019年1月的評論資料,作為資料集的內容。不過,因為Reddit的使用者存在性別偏差,年輕男性占多數,無法用來反映全球多樣化的人口,而且Reddit不乏有攻擊性或是歧視等有毒言論,為了解決這些問題,Google使用資料過濾技術,移除了不適合的內容,而且同時也調整了資料,避免活躍的Reddit子板言論過度代表不活躍的子群體。

GoEmotions提供了大量人工註解的情感資料,特別的是提出了一種更簡單的啟發式方法,將嵌入在用戶對話的表情符號,作為情緒分類的項目,這種方法可以用在包含合理表情符號的語言語料庫,像是對話性的資料。

但官方又提到,雖然許多表情符號與情緒相關聯,但是情感非常微妙且多元,在許多情況下,單一表情符號並無法真正捕捉情緒的完整複雜性,而且表情符號代表著情緒所帶來的表情,因此Google認為表情符號更應該被視為表達而非情緒。這類型的情緒資料,對於建構富有表現力的對話代理,或是建議上下文表情符號相當有用,將會是研究人員未來的研究領域。

熱門新聞

Advertisement