AWS
隨著語音助理的技能越來越多樣化,要處理的任務也越來越複雜,Amazon為了能讓Alexa在更短的時間內,處理並完成複雜的任務,AmazonAlexa AI團隊近日在美國AI協會舉辦的第33屆研討會中,發表了一篇關於壓縮神經網路的論文,透過壓縮詞向量表的新方法,在盡可能不影響準確度的情況下,將神經網路縮小90%,使Alexa在處理複雜的任務時,也能在毫秒內給予正確的回應,也讓Alexa能夠持續擴展新技能。
語音助理Alexa目前支援超過70,000種第三方的技能,每個月以數個技能在增加,因此,壓縮神經網路是必要的方法,來使這些技能的自然語言理解模型,更有效地儲存,在自然語言理解應用中,大多數的神經網路的大小都是來自於巨大的查詢表(lookup table),該查詢表會用詞向量(word embedding),記錄輸入文字的相互關聯性,詞向量通常是一個包含300個數的龐大序列,來抓取字詞意義的資訊,而神經網路被應用於許多AI系統中,但是其一特性就是規模非常大,也意味著執行速度緩慢,對於像是Alexa這種需要即時處理口語請求並給予回覆的語音助理系統,是個很大的問題。
在Amazon研究團隊的實驗中,Amazon利用一套預先訓練的詞向量Glove,Glove與其他熱門的詞向量一樣,用大量的訓練資料與詞語進行比對,在一個300維度空間中,以一個點表示該詞語,相似的詞會被歸類在同一群中,通常自然語言理解系統會利用這種預先訓練的詞向量,因為可以產生跨概念的相關詞彙,舉例來說,能夠讓語音助理透過關聯性,理解較為少見的指令。
過去自然語言理解研究員都會用包含10萬個詞的龐大查詢表,將詞向量表的300維度縮減為30,並用較小的詞向量作為自然語言理解系統的輸入數據,Amazon研究團隊則是將詞向量表整合至神經網路,如此一來,就能夠用特定任務的訓練資料,來優化詞向量。
為了降低詞向量的維度,Amazon採用奇異值分解(singular-value decomposition),在較高維度的空間產生較低維度的投影,該方法類似於在三維空間中針對物體產生二維投影,在其中一項實驗中,Amazon研究團隊開發的系統能夠將神經網路縮小90%,同時網路模型的準確度只有減少不到1%,在相同的壓縮率之下,過去研究最佳的結果是準確度約下降3.5%。