OpenAI發布可用文字敘述產生合理圖像的神經網路DALL·E

非營利人工智慧研究組織OpenAI訓練了一個稱為DALL·E的神經網路，可讓使用者以自然語言文字註解，創建內容相符的圖像。而DALL·E的名稱由來，來自西班牙加泰隆尼亞超現實主義畫家薩爾瓦多·達利（Salvador Dalí），以及皮克斯動畫人物瓦力（WALL·E）的混合詞。

DALL·E是一個具有120億個參數的GPT-3語言模型，經過文字圖像配對資料集訓練，可以從文字敘述生成圖像。DALL·E具有豐富的功能，除了創建擬人化動物與物體，還能以合理的方式組合不相關的概念，而渲染文字以及轉換圖像等工作，也都難不倒DALL·E。

研究人員提到，GPT-3的出現，代表語言已經可以用來指示大型神經網路，執行各種文字生成工作，而圖像GPT代表著類似於GPT-3的神經網路，也可以用來產生高解析度的圖像，而OpenAI擴展了兩者的概念，DALL·E的貢獻在於證明人們已經可以透過語言，來操縱神經網路所產生的視覺概念。

就如同GPT-3一樣，DALL·E是一個變換語言模型（Transformer Language Model），其以包含多達1,280個權杖（Token）的單一串流，接收文字以及圖像，並使用最大可能性，一個接一個地生成所有權杖。由於這個訓練過程，讓DALL·E不只能夠以文字提示一致的方式，從頭開始產生圖像，還能夠順著既有圖像，重新生成符合文字敘述的圖像。

DALL·E能夠探索語言結構的組成，從大量不同的句子中產生合理的圖像。研究人員發現，DALL·E具有控制物體屬性的能力，像是可渲染多邊形物體，即便有些物體在現實世界不太可能出現，但DALL在繪製時，仍會考慮其合理性，例如DALL·E在繪製像框或是畫框，會傾向避開七邊形，而人孔蓋或是停車標誌，DALL·E較不會使用五邊形等特殊形狀。

除了單一物體之外，DALL·E也有能力以不同的視角，繪製完整的場景圖片，像是輸入文字an extreme close-up view of a capybara sitting in a field，則DALL·E就能產生大量近距離，水豚坐在空地上的圖片，官方提到，DALL·E能以各種視角繪製動物，要從鳥瞰圖和後視圖視角繪製動物，DALL·E需要從不同角度了解動物的外觀，而諸如像是特寫鏡頭，則關乎DALL·E對動物毛皮細節的了解程度。為了測試DALL·E繪製不同視角物體的能力，研究人員讓DALL·E以等角度間隔，繪製同一個頭部圖像，而這些圖像串接起來，可以形成一個平順的頭部旋轉動畫。

而當收到的指令不夠明確，DALL·E還會自動推斷出背景細節，像是a painting of a capybara sitting on a field at sunrise這樣的文字描述，依照繪製水豚的朝向，可能需要畫出陰影，雖然文字敘述沒有明確提及，但是DALL·E仍可以正確地畫出合理的陰影。

DALL·E還有一個強大的能力，可以結合不同的概念繪製成合理物體圖像，像是要DALL·E繪製出酪梨形狀的扶手椅，DALL·E便能產生同時考量兩者形狀的椅子，酪梨形狀外型通常會與椅背相關聯，而酪梨的果核凹槽，則會與椅墊相關聯。

由於DALL·E的能力過於強大，可能會對人類社會產生廣泛的影響，因此OpenAI將計畫分析像是DALL·E這樣的模型，對社會所產生的影響，包括特定工作流程以及專業的經濟衝擊，還有這個技術所存在的潛在偏差，以及長期在道德上挑戰。

熱門新聞