OpenAI開發出可預測序列中下一段文字、圖像和語音的深度模型

圖片來源:

OpenAI

OpnAI近日開發了一套深度神經網路模型Sparse Transformer，透過改良過的注意力（attention）機制演算法，來萃取出更多序列中的模式，進而預測出序列中下一段文字、圖像或是語音，OpenAI指出，在AI研究領域現存的一項挑戰就是，訓練並預測長範圍、不易察覺相互關係的複雜資料，像是圖像、影片或是語音等資料，Sparse Transformer模型加入了自我注意力機制，再加上一些改良，試著解決這項挑戰。

過去，用於預測這些資料的模型，都會特定為一個領域所設計，或是模型也很難擴展到多個不同的序列上，相反地，OpenAI這次開發的深度神經網路模型，可以利用好幾百層神經網路，為數萬個資料元素建立序列，用於跨多個領域的應用中，OpenAI將用這套模型，來協助打造出更了解世界的AI系統。

在Transformer模型中，每個輸出元素都與輸入元素都息息相關，且在每個輸入和輸出資料之間的權重，都是動態改變的，權重會依據各種情況來計算，這個過程稱之為注意力（attention）機制，雖然這項機制被認為能夠使Transformer比固定連接模式的模型，更加有彈性，但是實行上來說，每一層網路都要生成N x N的注意力矩陣，因此，用於資料類型含有多個元素的資料時，會需要耗費龐大的記憶體計算資源，像是影像或是原始語音檔。

其中一項降低記憶體資源的方式，就是在反向傳播演算法（backpropagation）中，從checkpoints重新計算注意力矩陣，反向傳播演算法是在深度學習中，被廣泛應用於降低記憶體用量的技術，該技術用於Transformer注意力矩陣運算後，記憶體成本和層數就會無關，因此，相比以往，OpenAI現在能夠訓練更深的神經網路，在OpenAI的實驗中，Transformer最多能夠到128層，為了訓練這些越深的模型，OpenAI還針對Transformer模型的操作順序，以及scheme初始化做了一些調整，OpenAI也將詳細的研究內容發表成論文。

但是，即使只計算單一個注意力矩陣，也會因為龐大的輸入資料變得不切實際，因此，OpenAI改用稀疏（sparse）注意力模式，也就是只針對每個輸出位置，從輸入位置的子集合中計算權重，當子集合比整個輸入集相對小時，就算是非常大的序列，注意力計算結果也會變得較容易處理。

為了實現該方法，OpenAI首先將用於預測影像的Transformer模型中的學習注意力模式視覺化，找出許多可解釋和結構化的稀疏模式，當輸入部分聚焦於小的子集上，且出現高度的規則性時，該層就屬於易稀疏化，不過，雖然有許多層都顯現出稀疏的架構，有些層在整張圖上還是會清楚地出現動態的注意力，為了保留模型學習這類型模式的能力，OpenAI對注意力矩陣進行二維分解，因此，模型就可以透過稀疏注意力，來檢視圖像中的所有位置。

熱門新聞