圖片來源: 

OpenAI

OpenAI昨日(2/16)公布最新生成式AI模型Sora,未來能讓使用者輸入文字即可產生短影片,目前已展開不公開的安全及功能測試。

Sora可依據用戶輸入的文字描述,產生最長1分鐘的高畫質影片。Sora能生成具有多個角色、特定動作及具備精準主題細節及背景的複雜場景影片。其底層模型對語言有深度理解能力,使其能精確解釋用戶的提示要求,產生能表達鮮明情感的人物,它也能在簡單一則短影片建立多個場景,並以同樣的角色和視覺風格貫穿多場景。目前OpenAI已提供合作的紅隊演練測試人員,以及少部分視覺設計、攝影師、製片人員試用Sora以取得專業反饋意見。

圖片來源/OpenAI

Sora類似Meta和Google釋出的類似AI模型,分別名為Emu VideoVideoPoet

從技術層面而言,Sora是一個擴散模型,能從一個看似靜態噪音(static noise)的影格開始,逐步透過去除噪音生成一則影片。Sora是在DALL-E及GPT模型的研究基礎上發展,它使用DALL-E 3的重描述(recaptioning)技術,能為視覺訓練資料產生高度描述文字,因此能依循用戶文字指令產生影片。除了根據文字指示外,該模型也能將靜態圖片動態化以生成影片。Sora能從無到有生成全新影片,也能延長現有影片,或是將遺失的影格補上。

OpenAI表示,Sora是運行能理解及模擬真實世界的模型之基礎,該公司相信是實現通用人工智慧(Artificial General Intelligence,AGI)的重要里程碑。

不過Sora目前還有待加強,因它對複雜場景的描繪,以及特定因果關係的理解還有問題。例如它的人物可能咬了口餅乾,但餅乾卻沒有咬痕。它有時也會搞混提示的細節,例如左、右搞錯,或無法精準描述發生一段時間的事件,例如無法跟著攝影機的軌跡移動。

在將Sora公開給大眾使用前,OpenAI正在強化安全測試。該公司正在進行紅隊演練,以評估假訊息、仇恨內容及偏見對模型的影響。開發團隊也正在打造偵測誤導性內容的工具,像是偵測分類器,能在Sora生成影片時加以判讀。

為提供辨識,該公司計畫未來將該模型部署到OpenAI產品中時,在其生成的影片加入C2PA metadata。C2PA是Meta和業界聯盟合作發展的AI內容辨識標準,OpenAI已經在DALL-E3生成的圖像中加入C2PA metadata

此外,OpenAI也會利用團隊現有安全技術為Sora加入安全措施,像是文字分類器會拒絕違反使用政策的提示,圖像分類器則會檢視影片的影格,以確保符合政策。該公司也承諾和立法機關、教育人士及藝術家合作以減少其對AI的疑慮。

熱門新聞

Advertisement