AI也會作畫！微軟用GAN搭配拆解單詞模仿人類作畫行為，看文字描述就能產生圖像

圖片來源:

微軟

微軟AI研究院近日於微軟AI部落格中發布開發作畫AI的消息，研究員將此作畫AI稱為作畫機器人（Drawing bot），作畫機器人能夠透過文字描述，產生出與文字對應的圖像。

作畫機器人除了可以產生一般的場景，像是牧場的風景畫，除了正常的畫作外，作畫機器人還能產生像是浮在湖上的雙層巴士圖像，且每個圖像還包含了描述中沒有出現的多個細節，微軟認為，這也意味著，作畫機器人擁有人造的想像力。

負責微軟研究院深度學習技術的首席研究員 Xiaodong He表示，在網路上搜尋一隻鳥，會得到一張鳥的圖片，但是作畫機器人的圖片是由電腦創造出來的，從無到有，一個像素一個像素畫出來的，這些產生的鳥類圖像在現實中或許不存在，但是他們代表了電腦對鳥類想像力的一部分。

過去5年，Xiaodong He與團隊致力於研究電腦視覺和自然語言處理，一開始，他們先開發了一套自動撰寫圖像標題的機器人CaptionBot，之後開始研發能夠回答人類詢問與圖像相關問題的機器人，像是地點、物件的屬性，這個機器人也被認為對盲人有很大的幫助。

接著，團隊著手進行訓練機器學習模型，讓模型能夠辨認物件，描述動作和轉換成自然語言的描述，而現在則是反過來，用文字來產生圖像，團隊中一位博士後研究員Qiuyuan Huang表示，「這是一個循環！」但是，生成影像比影像辨識更具有挑戰性，團隊另一位研究員Pengchuan Zhang補充，由於產生影像的過程中，需要作畫機器人產生對影像細節的想像，也就是說，機器學習的演算法必須能夠創造圖像中消失的部分。

加入GAN並拆解單詞來模擬人類作畫行為

因此，微軟在作畫機器人中，加入對抗式生成網路（Generative Adversarial Network， GAN），最為最核心的技術，對抗式生成網路由2個機器學習的模型組成，一個生成器（Generator）負責生成由文字描述畫出的圖像，另一個則是判別器（Discriminator），用來檢視文字描述與圖像是否相符，反覆不斷訓練，就能促使生成器產生最接近文字描述的圖像。

微軟的作畫機器人採用的訓練資料，是許多由圖像和標題組成的一對數據，這樣能夠讓模型學習文字與影像的配對程度，在對抗式生成網路中，生成器學習到標題是鳥，就要產生鳥的圖片，如此一來，就能夠學習到鳥的圖片是什麼樣貌。

對抗式生成網路對於簡單的文字描述，可以得到不錯的成果，舉例來說，像是藍色的鳥或是常青樹，但是對於較複雜的文字描述，對抗式生成網路所產生的圖像品質就會降低，像是一隻有綠色冠、黃色翅膀和紅色肚子的鳥，主要是因為整個句子對生成器言，是單一個Input，描述中的細節資訊也不見了，因此，產生的圖像會變成混合綠色、黃色和紅色的模糊圖像。

若是由人類來作畫，我們會不斷的注意且確認每個單詞的描述，來對應到作畫的區域，簡單來說，給予一般人一個作畫的描述，比如說畫出黃色的身體、黑色翅膀和短喙的鳥，大部分的人會先描繪出鳥的輪廓，再重新看一次文字描述，看到要畫黃色的身體才去找黃色的筆來塗滿鳥的身軀，再看一次描述，拿起黑色的筆開始畫翅膀，持續這樣的步驟來來回回，最後確認畫出的圖像與描述相符。

為了要擷取人類這項作畫的特徵，研究人員創造了一套名為attentional GAN或是AttnGAN的神經網路，藉由將文字描述拆解為個別的單詞，並將這些詞與作畫的區域互相配對，來實現模擬人類作畫的行為，也就是在訓練AI產生圖像時，聚焦於個別的單詞，像是類似標題的文字描述，如此一來，相較於傳統的文字轉圖像方法，此方法所產生的圖像品質提升了3倍。「注意力是人類的概念，我們用數學將注意力變成可運算的。」 Xiaodong He說。

AttnGAN還能從訓練資料中學習人類的常識，將這樣的知識萃取出來後，填補文字描述中缺少的圖像細節，舉例來說，因為許多在訓練資料中的鳥類圖片都是鳥坐在樹枝上，因此，AttnGAN產生的圖像，也幾乎都是鳥在坐在樹枝上的圖像。

從資料中，機器學習演算法學習到通常鳥類都會在哪裡的常識，為了測試，團隊給予作畫機器人一些非正常的標題，像是一臺紅色的雙層巴士浮在湖上，作畫機器人產生了一張模糊潮濕的圖像，圖像中包含了一艘船和一臺雙層巴士浮在湖上，周圍被山包圍，這樣的圖像展示了，作畫機器人在產生文字描述的圖像和常識中，有點掙扎。

Xiaodong He表示，研究員能夠控制描述和機器的反應，因此能夠測試機器學習到了什麼，他們認為，機器學習到了一些背景知識，也就是常識，不過，還是得根據不同的描述情況而定，有時候作畫機器人產生的圖像也會不太合理。

未來，作畫機器人的文字轉圖像技術可以協助畫家素描，或是協助室內設計師，這項技術也可以成為調整有聲圖片的工具，藉由更多的運算能力，微軟認為這項文字轉圖像技術能夠透過劇本產生動畫，減少一些需要人工處理的部分工作。

微軟表示，現在這項科技還不夠完美，仔細的檢查圖像還是會發現缺陷，像是鳥喙是藍色而不是黑色，水果也會出現突變的香蕉，這些缺陷明顯是電腦作畫才會犯的錯誤，但是，若要人類和AI共存在同一個世界中，我們必須找到一個方法互動，語言和影像是2個人類與機器互動最重要的模式。

加入GAN並拆解單詞來模擬人類作畫行為

熱門新聞