OpenAI發表最新文字生成3D模型的人工智慧模型Point-E,研究人員提到,雖然Point-E模型所產生的3D模型品質,還未達最先進的水準,但是因為Point-E的樣本生成速度快了其他方法一到兩個量級,因此在部分用例可供使用者權衡使用。

目前文字生成圖像模型爆炸性成長,先進的模型在數秒中內,就能夠根據自然語言描述,快速生成高品質圖像,這和目前3D模型生成發展,產生極大的對比,而由於3D生成的使用案例很廣,可被用於虛擬實境、遊戲和工業設計等,因此發展文字生成3D模型技術,對於普及3D內容創作有很大的發展潛力。

研究人員提到,目前使用文字產生3D合成模型的方法主要有兩種,其一是直接使用文字和模型的資料對,或是未標記的3D資料訓練模型,雖然這些模型可以利用現有的生成建模方法,有效地生成樣本,但因為目前缺乏大規模3D資料集,因此很難廣展其多樣性和複雜文字提示。

另一種方法則是利用預訓練文字圖像模型,以最佳化可微分3D表示的方法,研究人員解釋,這些方法通常能夠處理複雜多樣的文字提示,但需要更昂貴的最佳化過程才能生成每個樣本。OpenAI的Point-E的目標則是結合文字到圖像模型,以及圖像到3D模型技術,來總和兩種方法的優點。

文字到圖像模型利用大量文字、圖像對語料庫,使Point-E能夠遵循多樣且複雜的提示,而圖像到3D模型,則是在較小的圖像、3D對資料集訓練。因此Point-E從文字提示生成3D物件,首先是使用文字生成圖像模型進行採樣,然後將採樣圖像作為條件生成3D物件樣本,這兩個步驟可以在數秒鐘內完成模型點雲,不需要昂貴的最佳化程序。

研究人員最後使用迴歸方法,從點雲生成網格,Point-E整個過程只要一到兩分鐘,就可以在單個GPU上生成3D模型,雖然目前Point-E所產生的模型品質較差,但在部分需要短回應時間的用例上,Point-E為一個權衡的方法。目前OpenAI已經在GitHub上發布預訓練模型,以及評估程式碼和模型。

熱門新聞

Advertisement