Meta AI發表文字轉影片模型Make-A-Video,可根據文字輸入產生3種風格的影片,包括超現實、寫實和風格化。

圖片來源: 

Meta

重點新聞(0923~0929)

文字轉影片     Meta     Make-A-Video  

文生圖不夠看,Meta AI最新模型能將文字轉為高品質影片

Meta創辦人祖克柏分享自家AI研究院最新成果Make-A-Video,這是一款AI系統,可根據文字描述產出一段高品質的影片。近2年,許多科技巨頭鑽研文字轉圖片的Transformer模型,如OpenAI的DALL-E,Meta也不例外,他們今年早些時候也發表過多模態的文生圖系統Make-A-Scene,並在這個基礎上開發出Make-A-Video。

Meta AI團隊開發Make-A-Video的想法很簡單,就是讓模型從一組組文字-圖片的配對中,來學習現實世界的樣貌,並從非監督式影片來學習這個世界如何動作。他們解釋,Make-A-Video有不少優勢,比如不必從頭學習影像和多模態表徵,因此加速文字轉影片模型的訓練,以及不需要成對的文字-影片訓練資料。而且,該系統產生的影片,皆具備現有文生圖的多樣性(如奇幻色彩)。

在模型設計上,他們先拆解完整的時序型網路U-Net和注意力張量,並讓它們在時空間裡逼近。接著,團隊設計一個時空工作管線,來產出高解析度的幀率影片。Meta表示,用來訓練Make-A-Video的資料都來自於公開資料集,系統目前已開放大眾使用,可根據輸入文字產生3種不同風格的影片,包括超現實、寫實和風格化影片。Meta也希望透過使用者回饋,和自家負責任AI框架,來動態調整系統。(詳全文)

  Yann LeCun     深度學習     自監督學習  

Yann LeCun:目前大多數AI都實現不了真正的智慧,但自監督學習有潛力

卷積網路(CNN)之父Yann LeCun日前接受ZDNet採訪時透露,他對目前的深度學習方法持懷疑態度,因為現有的高階深度學習方法無法實現真正的智慧,其中包括以Transformer架構為基礎的大型語言模型GPT-3。他點出,Transformer的擁護者相信,只要將一切標記化,模型就能精準預測,也就是AI。「這麼說沒錯,」但Yann LeCun話鋒一轉,「它可能是未來智慧系統的一部分,但仍缺少真正核心的部分。」

在他看來,所有的AI都面臨一個基本問題,也就是如何測量資訊量。比如,人們不可能只造梯子就登月,而是得造火箭。他在6月發表一篇論文,講述的就是這個火箭的基本原理。他認為,基於能量的自監督學習,是通往真正智慧的深度學習方法。(詳全文)

  臺北榮總     醫療大數據     避風港計畫  

北榮建置醫療大數據基礎架構,下一步要展開資安避風港計畫

為整合散落各處的龐大醫療大數據,臺北榮總近年來建置大數據整合基礎架構,打造出可順暢接軌的數據池,將所有數據集中一處儲存。臺北榮總大數據中心負責人朱原嘉表示,這麼做,就能用機器學習,來將這些數據轉化為更高價值的洞察資訊,提高院內醫學論文產量,也能協助醫師診斷、用藥更精準。

這些基礎設施是北榮與戴爾共同打造,他們也進一步發展AI平臺架構,甚至為在2050年達到淨零碳排目標,將運用AI來計算最佳電力使用模型。此外,北榮也在這個平臺上部署聯邦式學習,讓數據留在醫院本地端、權重在雲端的模式,以AIoT終端裝置收集病患的血壓值、心律管理、生理資訊量測等數據,再透過自動化分析工具提供有價值的資訊給醫生,加速診療判斷。最後,他也透露,為進一步保護病患隱私與個資,北榮未來將建置避風港計畫(Sheltered Harbor Program),來強化資安韌性、保護關鍵資料,讓醫療服務不中斷。

  DeepMind    聊天機器人       Sparrow  

DeepMind開發更安全的聊天機器人Sparrow

DeepMind打造聊天機器人Sparrow,可即時用Google搜尋來尋找答案,也能透過人類與Sparrow的對話來改善機器人對話內容。DeepMind指出,近來各種大型語言模型已在問答、摘錄和對話等任務上頗有成效,但,基於LLM的對話聊天機器人還是會出現不準確、歧視或鼓勵不安全行為的對話。

為解決問題,聊天機器人必須從人類的回應來學習。Sparrow就是以這樣的強化學習方式訓練而成,它會向人類展示不同模型對同一問題的答案,並選出人類最喜歡的答案,也讓人類持續以中性或敵對等方式與Sparrow互動,同時擴大用來訓練資料集。DeepMind也建立簡單的規則,確保Sparrow的行為是安全的,比如當人類要求Sparrow教他如何靠電線短路來發動汽車時,Sparrow會說這可能違法而拒絕回答;或者當人類問及Sparrow個人問題時,Sparrow會坦承自己不是人類。(詳全文)

  OpenAI     自動語音辨識     Whisper  

Open AI開源自動語音辨識系統Whisper

Open AI近日開源語音辨識系統Whisper,號稱英文辨識能力達人類水平,並支援其它98種語言的自動語音辨識。Whisper可執行語音辨識和翻譯任務,能將各種語言的語音轉為文字,也能將這些文字翻譯成英文。

Whisper系統目前有9種模型,它們的參數量和功能不一,這些模型共經68萬小時語音訓練,也比對了從網路上蒐集而來的文字轉寫內容,當中68%的資料為英文語音與英文文字,另有18%的非英文語音及英文文字。雖然Whisper支援98種語言,但只有不到10種的語言實現強大的自動識別能力。Open AI期望,Whisper模型的轉錄功能可用來改善無障礙工具。(詳全文)

  Nvidia     大型語言模型     部署  

Nvidia發表多項大型語言模型服務更新

Nvidia最近發布多項大型語言模型(LLM)新服務和框架,包括能自定義模型的服務NeMo LLM、擴展LLM在製藥和生物技術產業的科學用服務BioNeMo,以及NeMo Megatron端到端框架公開測試版,供開發人員訓練和部署大型語言模型。

用戶可用NeMo LLM服務中的Nvidia託管雲端API,在公、私有雲大規模自定義和部署大型語言模型。NeMo LLM是一款高計算效率的服務,能將脈絡嵌入用戶查詢中,只要數百個樣本就能得到高精準度。而NeMo Megatron可用來訓練、部署數兆參數的大型語言模型,並於Azure、AWS、甲骨文雲端提供公開測試板。另一方面,BioNeMo服務則以NeMo Megatron為基礎,提供AI藥物探索工作流程的統一雲端環境,支援化學和蛋白質組學類的Transformer模型,以及OpenFold預測蛋白質結構的工作流程。(詳全文)

  OpenAI     DALL-E     應用程式  

不必候補!OpenAI開放民眾直接使用DALL-E了

OpenAI最近移除文生圖模型DALL-E測試版的候補名單,民眾可直接註冊、使用DALL-E功能,輸入文字就能產出各種圖片了。OpenAI表示,目前每日都有150多萬名使用者用DALL-E,創作超過200萬張圖片,這些創作者的反饋,讓OpenAI不只新添一項可腦補、延伸繪畫的功能Outpainting,也加強DALL-E的過濾器、打造新的偵測器,來拒絕生成色情、暴力等違反內容規範的圖像。目前,OpenAI也在與數名顧客測試DALL-E API,未來將提供給開發者和企業,來在DALL-E系統上開發應用程序。(詳全文)

  Google     機器人     SayCan  

Google用超強語言模型讓家務機器人聽懂指令

Google日前發表新機器人AI模型PaLM-SayCan,來強化Alphabet開發的事務幫手型機器人對指令的理解力,更聰明執行任務。進一步來說,SayCan就像是理解使用者指令的大腦,而機器人就是手和眼睛,根據大腦理解的意思來執行指令。SayCan能理解551種技能和17種物件的指令語義,機器人執行一個動作後,SayCan會將描述附加到PaLM模型,來查詢、重複該過程,直到它完成動作。

後來,團隊在15種物品的模擬廚房中,向機器人發出101條命令來測試系統。他們發現,機器人計畫有效動作的成功率為84%,而成功執行這些動作的比例為74%。在現實生活的廚房中,機器人的成功率分別是81%和61%。(詳全文)

圖片來源/Meta、DeepMind、OpenAI

  AI近期新聞 

1. Meta發表英文編輯工具EditEval,能把文章修得更好

2. 漢莎航空運用深度學習預測瑞士白斯風提高航班準點率

資料來源:iThome整理,2022年9月

熱門新聞

Advertisement