微軟開發的影片生成模型DragNUWA最近開源了,包括1.0和1.5版本,可結合文字、圖片和軌跡,來更細緻地將圖片轉為影片。

圖片來源: 

微軟

重點新聞(0105~0111)

影片生成     微軟     DragNUWA  

微軟開源可控性更細緻的影片生成模型DragNUWA 1.5

去年8月,微軟團隊發表影片生成模型DragNUWA論文,近來,他們不只開源1.0版,還釋出了1.5版的模型權重和範例。進一步來說,影片生成一直有2大限制,首先是只單用文字、圖像或軌跡作為生成依據,難以實現顆粒度更細緻的控制,再來是基於軌跡的生成方法還不成熟,大多是在簡單的資料集上實驗。這2點,限制了模型處理開放領域圖像和複雜曲線軌跡的能力。

因此,微軟在去年提出DragNUWA,是一款以開放領域、擴散模型為基礎的影片生成模型,結合了文字、圖像和軌跡3種資訊,可從語義、空間和時間等角度來實現更細緻、可控性更高的影片生成。DragNUWA包括3個元素:軌跡採樣器(TS),可用來實現任意軌跡的開放領域控制;多規模融合(MF),可用來控制不同顆粒度的軌跡;自適應訓練(AT)策略,可用來生成軌跡一致的影片。在今年1月8日新添的DragNUWA 1.5版中,團隊以Stable Video Diffusion模型為骨幹,能根據特定路徑,來將輸入的圖像進行動畫處理。

經測試,微軟團隊認為,DragNUWA可根據不同的軌跡拖移,產出準確的鏡頭移動和物件移動。就Demo來看,只要輸入文字指令和想移動物件方向的箭頭,如「一艘船航行在湖面上」搭配船隻往前和湖水往後的箭頭,就能讓一張靜態的船隻圖片,轉為動態向前的航行影片。(詳全文)

  Mobile ALOHA     機器人     史丹佛大學  

可靈活模仿人類雙手動作!史丹佛大學發表機器人系統Mobile ALOHA

最近,史丹佛大學開發一款能靈活模仿人類雙手動作的機器人系統Mobile ALOHA,可執行移動式的操縱和控制任務,比如炒蝦、擦拭酒漬、靠椅子和人擊掌等。團隊指出,目前模仿人類動作的機器人,大多是在固定位置上動作,難以移動位置執行更靈活的任務。

為解決問題,團隊打造了低成本、全身遠距操控系統Mobile ALOHA,搭配可移動的底座和資料收集能力,來讓機器人執行移動式的操縱任務。這套系統採用監督式行為複製學習方法(Supervised behavior cloning),也就是利用機器人收集到的資料,再加上ALOHA既有的靜態資料集,能強化機器人移動操作任務的表現。

特別是,每個任務經過50次示範,再加上既有資料集共同訓練,可提高系統的成功率到90%,讓ALOHA能自主完成複雜的移動式操作任務,例如炒蝦、打開2扇門的櫥櫃並擺放鍋具、按電梯和進電梯,以及開水龍頭沖洗用過的平底鍋等。(詳全文)

 

  晶創臺灣    跨部會      生成式AI  

晶創臺灣方案正式啟動,國科會揭4大布局

行政院在去年11月通過晶創臺灣方案,要在2024年至2033年間投入3,000億元,來結合半導體晶片和生成式AI、發展各產業的創新應用。就在本月11日,行政院政委暨國科會主委吳政忠展開晶創臺灣方案啟動會議,找來國科會、經濟部、教育部、衛福部、數發部、農業部、國發會等部會共同啟動晶創臺灣方案。

在這場啟動會議中,各部會提出4大推動方向,首先是國科會、經濟部、數位部、衛福部、農業部等將共同推動生成式AI+晶片應用,來加速各行業創新。他們去年開始調查百工百業的AI需求,並以機械業為示範,建立資料共享機制,接下來要擴大延續各行業創新。今年,國科會還要建置算力、精進大型語言模型(LLM),強化臺灣生成式AI服務。

再來,國科會、教育部、經濟部將共同強化國內半導體培育環境,來吸引全球研發人才。他們要在今年成立第一個晶片設計海外基地,並規畫先進IC設計訓練教材、建置產學研共享的半導體研究設備平臺。第三,國科會要與經濟部推動異質整合和先進技術研發,如7nm先進晶片、AI、HPC、車電通訊等領域,今年還要研發IC設計工具的關鍵技術自主,並建置自動化IC設計雲平臺。最後,國科會要與國發會共同培育國內新創、吸引國內外新創和投資來臺,今年要完成涵蓋IC設計、晶片下線、測試到最後雛型產品試製的一站式pipeline,來降低國內外新創投入門檻。(詳全文)

  DeepMind     機器人     LLM  

DeepMind用大型基礎模型自動控制機器人

日前,DeepMind揭露一系列機器人研究的最新進展,在Robotics Transformers(RT)基礎上發展AutoRT、SARA-RT和RT-Trajectory系統,讓機器人可更快地做決策,並理解世界,在環境中順利導航。為讓機器人具備特定能力,DeepMind先是發展AutoRT,將大型語言模型(LLM)和視覺語言模型等大型基礎模型,與機器人控制模型RT-1或RT-2整合,建置一個可在新環境中部署、適應未知環境的機器人,還能一邊收集改進用的訓練資料。這個AutoRT能同時指揮多個機器人,並用視覺語言模型來了解環境和視線中的物件,同時透過LLM來建議機器人執行任務,像是將零食放回臺面。

同時,DeepMind還開發SARA-RT系統,可將Robotics Transformers模型轉換成為更為高效的版本。比如結合機器人控制系統RT-2,可在看過簡短的影像歷史紀錄後,提高SARA-RT-2模型自身的準確度,比RT-2高出10.6%,速度更是快上14%。DeepMind第3種機器人創新技術則是機器人訓練模型RT-Trajectory,可透過在訓練影片中自動加入機器人動作的視覺輪廓,來提高機器人的任務理解和執行能力。(詳全文)

  GPT Store     ChatGPT     客製化  

OpenAI GPT Store正式上線

繼先前預告,OpenAI終於在10日宣布客製化Chatbot分享與銷售平臺GPT Store正式上線,預計第一季內從美國開始推行GPTs共享回饋方案。OpenAI在去年11月初揭露GPTs服務,是一個可客製化ChatGPT的服務,同時也揭露GPT Store,也就是可分享、銷售客製化ChatGPT聊天機器人的商店平臺,目前已累積300多萬個客製化ChatGPT版本,也有不少人分享到之前尚未正式推出的GPT Store上。

現在,GPT Store正式開放,首先會給ChatGPT Team方案用戶,使用尚未公開的GPTs,接下來則會開放給ChatGPT Enterprise用戶。Team和Enterprise版都會提供GPTs管理控制功能,像是決定內部GPTs怎麼分享,或哪些外部GPTs可用於企業內。GPT Store還將列出GPTs精選,以及DALL-E、寫作、生產力、研究&分析、程式撰寫、教學和生活等類別,並提供搜尋工具,供用戶自行搜尋。(詳全文)

  Google     BigQuery     Document AI  

打造生成式AI應用更輕鬆了!BigQuery整合Document AI簡化文件擷取

最近Google更新自家無伺服器企業資料倉儲BigQuery,整合了Document AI功能,讓開發者更輕鬆從檔案資料擷取資訊,來用於大型語言模型應用程式的開發上。過去,使用者要建立獨立的Document AI工作管線,需手動管理擷取邏輯和模式,因為缺乏原生整合功能,得要自己開發客製化基礎設施、維護資料的一致性,需耗費大量人力。

但現在,Google推出BigQuery與Document AI整合功能,直接讓用戶在BigQuery中,建立用於Document AI自定義擷取器的遠端模型,可呼叫來進行大規模文件分析和生成式AI應用。此外,Document AI也提供現成的擷取器,可用來處理常見的檔案類型,如發票或身分證件等。(詳全文)

  AI發展     AI Impacts     假訊息  

全球近3千名專家調查:AI發展快於預期

AI Impacts組織對全球近3,000名AI專家進行問卷調查,結果發現,這群專家認為AI的進步超越了先前預測。進一步來說,這場調查對象為去年在6個頂尖AI學術研討會上,發表研究報告的2,778名AI專家。雖然大多數專家對AI進步帶來的長期價值仍有不確定性,如68.3%的受訪者認為,超人AI將帶來正面結果,但其中48%亦同意有5%的機率可能會造成人類滅絕等極糟結果。另一方面,有26.9%贊成維持現階段的AI發展速度,才能造福人類,另有38.4%認為應加快發展腳步、34.7%認為應放慢腳步。

不論如何,目前AI的進步已超出預期,原本預計要更久後才能達到的目標,都可望在2028年之前提前達標,像是提供規範與範例就能創造簡單的Python程式碼、撰寫一篇高品質的高中歷史作文,或幫新物件分類、替既有的創作者創作假新歌、自動建立一個支付網站,或提供電話銀行服務等。

此外,先前估計自動尋找及修補安全漏洞的能力也得等到2043年,最新的預測則會在2033年以前完成。不過,這群AI專家在未來30年最擔心的問題,則以假訊息居冠,包括以AI來創作和散布假訊息,或是用來操縱大眾意見趨勢等,另也擔心AI系統會加劇經濟上的不平等。(詳全文)

  語音轉文字     BigQuery     Vertex AI  

BigQuery整合Vertex AI語音轉文字模型服務

Google最近在自家企業資料倉儲服務BigQuery中,預覽Vertex AI語音轉文字模型,讓用戶可透過SQL根據資料微調轉錄模型,在BigQuery中執行語音轉文字工作,還能整合其他結構化資料,來合併分析、建置AI應用。

這意味著,GCP用戶不必再像過去一樣,要轉錄語音資料得靠自己建立獨立的AI工作管線、自定義基礎設施。這次新的Google語音轉文字V2 API提供多功能轉錄服務,用戶可針對不同類型的語音音訊,如客服通話或醫療錄音,選擇合適的模型。此外,模型也可以根據用戶的資料進行調整,以提高轉錄準確性。(詳全文)

圖片來源/微軟、史丹佛大學、Google DeepMind、AI Impacts、Google

  AI近期新聞 

1. OpenAI推出針對中小企業的ChatGPT Team方案

2. 微軟、美國科學家以AI尋找新電池材料

3. 摩根大通JPMorgan釋出專家混合架構(MoE)模型Phixtral,表現比Phi-2好

資料來源:iThome整理,2024年1月

熱門新聞

Advertisement