Google釋出用於訓練通用智慧助理的架構引導對話資料集

為了滿足智慧助理需要執行越來越多複雜任務的需求，Google釋出了最新的架構引導對話（Schema-Guided Dialogue，SGD）資料集，以擴展智慧助理模型，使其有能力處理多重領域的任務。

現在的智慧助理可以完成的任務越來越多，包括預定餐廳或是擷取網路訊息等，Google提到，像是Google助理這類智慧助理整合了眾多領域的服務，每個服務可能由不同領域的服務疊加而成。為了適應這樣的發展，讓智慧助理能夠支援更多的新服務，而不需要收集額外的資料或是重新訓練模型，降低維護成本。因此Google釋出SGD資料集，來填補訓練智慧助理處理複雜與大規模任務所需要的資料集空缺。

SGD資料集是目前最大的任務導向對話語料庫，Google使用綠野仙蹤（Wizard of Oz）方法產生人類與助理的對話，共包含跨17個領域18,000個對話，並附加了不同的註解。這些對話涉及與服務和API的互動，包括銀行服務、事件、日曆甚至是天氣等17個領域，而在多數的領域，SGD資料集包含多個不同的API，不少API介面不同但是功能重複，以反應實際的狀況。

Google表示，SGD資料集是第一個涵蓋這麼多領域，會為每個領域都提供多個API的資料集，而且為了量化模型對API介面更新或是新API的強健性，評估資料集包含了許多在訓練資料集中，所沒有的新服務。

用戶使用SGD資料集，可以訓練智慧助理支援網頁的多元服務，Google提到，要達成這個目的，通常需要一個大型的主要架構（Master Schema），羅列所有支援的功能和參數，但實際上，要開發適合所有使用案例的主架構非常困難，而且即便克服了這項障礙，主架構也可能會讓新的或是小型服務的整合變得複雜，進而增加智慧助理的維護成本。

而且不少服務之間使用相似的概念，像是訂票服務，電影票、機票和演奏會門票邏輯都相似，但使用主架構的方法，就會不方便對這類概念進行連結建模，除非以手動的方式定義之間的映射。

Google提出了一個新的架構引導方法解決這些問題，這個新方法不需要為智慧助理定義一個主架構，而是為每個服務或是API，提供功能與相關屬性列表的自然語言描述，這些描述可以用於學習一個架構的分散式語意表達，為對話系統提供額外的輸入，並將對話系統以單個統一的模型實作，這個統一模型為不同服務提供相似概念的表示，並透過架構的分散式表達，使得新服務可以不需要事先有訓練資料就能運作。

Google為此還以架構引導方法創建了一個智慧助理，在所有服務和領域使用單一模型，沒有設定各領域的專門參數，就能處理各式任務，Google開源了用於對話狀態追蹤的模型，可以在新服務和API沒有訓練資料的情況下，同時保有與常規設定相同的能力。

熱門新聞