AI趨勢周報第239期：微軟終於開源影片生成模型DragNUWA 1.5了

微軟開發的影片生成模型DragNUWA最近開源了，包括1.0和1.5版本，可結合文字、圖片和軌跡，來更細緻地將圖片轉為影片。

圖片來源:

微軟

重點新聞(0105～0111)

影片生成 微軟 DragNUWA

微軟開源可控性更細緻的影片生成模型DragNUWA 1.5

去年8月，微軟團隊發表影片生成模型DragNUWA論文，近來，他們不只開源1.0版，還釋出了1.5版的模型權重和範例。進一步來說，影片生成一直有2大限制，首先是只單用文字、圖像或軌跡作為生成依據，難以實現顆粒度更細緻的控制，再來是基於軌跡的生成方法還不成熟，大多是在簡單的資料集上實驗。這2點，限制了模型處理開放領域圖像和複雜曲線軌跡的能力。

因此，微軟在去年提出DragNUWA，是一款以開放領域、擴散模型為基礎的影片生成模型，結合了文字、圖像和軌跡3種資訊，可從語義、空間和時間等角度來實現更細緻、可控性更高的影片生成。DragNUWA包括3個元素：軌跡採樣器（TS），可用來實現任意軌跡的開放領域控制；多規模融合（MF），可用來控制不同顆粒度的軌跡；自適應訓練（AT）策略，可用來生成軌跡一致的影片。在今年1月8日新添的DragNUWA 1.5版中，團隊以Stable Video Diffusion模型為骨幹，能根據特定路徑，來將輸入的圖像進行動畫處理。

經測試，微軟團隊認為，DragNUWA可根據不同的軌跡拖移，產出準確的鏡頭移動和物件移動。就Demo來看，只要輸入文字指令和想移動物件方向的箭頭，如「一艘船航行在湖面上」搭配船隻往前和湖水往後的箭頭，就能讓一張靜態的船隻圖片，轉為動態向前的航行影片。（詳全文）

Mobile ALOHA 機器人 史丹佛大學

可靈活模仿人類雙手動作！史丹佛大學發表機器人系統Mobile ALOHA

最近，史丹佛大學開發一款能靈活模仿人類雙手動作的機器人系統Mobile ALOHA，可執行移動式的操縱和控制任務，比如炒蝦、擦拭酒漬、靠椅子和人擊掌等。團隊指出，目前模仿人類動作的機器人，大多是在固定位置上動作，難以移動位置執行更靈活的任務。

為解決問題，團隊打造了低成本、全身遠距操控系統Mobile ALOHA，搭配可移動的底座和資料收集能力，來讓機器人執行移動式的操縱任務。這套系統採用監督式行為複製學習方法（Supervised behavior cloning），也就是利用機器人收集到的資料，再加上ALOHA既有的靜態資料集，能強化機器人移動操作任務的表現。

特別是，每個任務經過50次示範，再加上既有資料集共同訓練，可提高系統的成功率到90%，讓ALOHA能自主完成複雜的移動式操作任務，例如炒蝦、打開2扇門的櫥櫃並擺放鍋具、按電梯和進電梯，以及開水龍頭沖洗用過的平底鍋等。（詳全文）

晶創臺灣 跨部會 生成式AI

晶創臺灣方案正式啟動，國科會揭4大布局

行政院在去年11月通過晶創臺灣方案，要在2024年至2033年間投入3,000億元，來結合半導體晶片和生成式AI、發展各產業的創新應用。就在本月11日，行政院政委暨國科會主委吳政忠展開晶創臺灣方案啟動會議，找來國科會、經濟部、教育部、衛福部、數發部、農業部、國發會等部會共同啟動晶創臺灣方案。

在這場啟動會議中，各部會提出4大推動方向，首先是國科會、經濟部、數位部、衛福部、農業部等將共同推動生成式AI+晶片應用，來加速各行業創新。他們去年開始調查百工百業的AI需求，並以機械業為示範，建立資料共享機制，接下來要擴大延續各行業創新。今年，國科會還要建置算力、精進大型語言模型（LLM），強化臺灣生成式AI服務。

再來，國科會、教育部、經濟部將共同強化國內半導體培育環境，來吸引全球研發人才。他們要在今年成立第一個晶片設計海外基地，並規畫先進IC設計訓練教材、建置產學研共享的半導體研究設備平臺。第三，國科會要與經濟部推動異質整合和先進技術研發，如7nm先進晶片、AI、HPC、車電通訊等領域，今年還要研發IC設計工具的關鍵技術自主，並建置自動化IC設計雲平臺。最後，國科會要與國發會共同培育國內新創、吸引國內外新創和投資來臺，今年要完成涵蓋IC設計、晶片下線、測試到最後雛型產品試製的一站式pipeline，來降低國內外新創投入門檻。（詳全文）

DeepMind 機器人 LLM

DeepMind用大型基礎模型自動控制機器人

日前，DeepMind揭露一系列機器人研究的最新進展，在Robotics Transformers（RT）基礎上發展AutoRT、SARA-RT和RT-Trajectory系統，讓機器人可更快地做決策，並理解世界，在環境中順利導航。為讓機器人具備特定能力，DeepMind先是發展AutoRT，將大型語言模型（LLM）和視覺語言模型等大型基礎模型，與機器人控制模型RT-1或RT-2整合，建置一個可在新環境中部署、適應未知環境的機器人，還能一邊收集改進用的訓練資料。這個AutoRT能同時指揮多個機器人，並用視覺語言模型來了解環境和視線中的物件，同時透過LLM來建議機器人執行任務，像是將零食放回臺面。

同時，DeepMind還開發SARA-RT系統，可將Robotics Transformers模型轉換成為更為高效的版本。比如結合機器人控制系統RT-2，可在看過簡短的影像歷史紀錄後，提高SARA-RT-2模型自身的準確度，比RT-2高出10.6％，速度更是快上14％。DeepMind第3種機器人創新技術則是機器人訓練模型RT-Trajectory，可透過在訓練影片中自動加入機器人動作的視覺輪廓，來提高機器人的任務理解和執行能力。（詳全文）

GPT Store ChatGPT 客製化

OpenAI GPT Store正式上線

繼先前預告，OpenAI終於在10日宣布客製化Chatbot分享與銷售平臺GPT Store正式上線，預計第一季內從美國開始推行GPTs共享回饋方案。OpenAI在去年11月初揭露GPTs服務，是一個可客製化ChatGPT的服務，同時也揭露GPT Store，也就是可分享、銷售客製化ChatGPT聊天機器人的商店平臺，目前已累積300多萬個客製化ChatGPT版本，也有不少人分享到之前尚未正式推出的GPT Store上。

現在，GPT Store正式開放，首先會給ChatGPT Team方案用戶，使用尚未公開的GPTs，接下來則會開放給ChatGPT Enterprise用戶。Team和Enterprise版都會提供GPTs管理控制功能，像是決定內部GPTs怎麼分享，或哪些外部GPTs可用於企業內。GPT Store還將列出GPTs精選，以及DALL-E、寫作、生產力、研究&分析、程式撰寫、教學和生活等類別，並提供搜尋工具，供用戶自行搜尋。（詳全文）

Google BigQuery Document AI

打造生成式AI應用更輕鬆了！BigQuery整合Document AI簡化文件擷取

最近Google更新自家無伺服器企業資料倉儲BigQuery，整合了Document AI功能，讓開發者更輕鬆從檔案資料擷取資訊，來用於大型語言模型應用程式的開發上。過去，使用者要建立獨立的Document AI工作管線，需手動管理擷取邏輯和模式，因為缺乏原生整合功能，得要自己開發客製化基礎設施、維護資料的一致性，需耗費大量人力。

但現在，Google推出BigQuery與Document AI整合功能，直接讓用戶在BigQuery中，建立用於Document AI自定義擷取器的遠端模型，可呼叫來進行大規模文件分析和生成式AI應用。此外，Document AI也提供現成的擷取器，可用來處理常見的檔案類型，如發票或身分證件等。（詳全文）

AI發展 AI Impacts 假訊息

全球近3千名專家調查：AI發展快於預期

AI Impacts組織對全球近3,000名AI專家進行問卷調查，結果發現，這群專家認為AI的進步超越了先前預測。進一步來說，這場調查對象為去年在6個頂尖AI學術研討會上，發表研究報告的2,778名AI專家。雖然大多數專家對AI進步帶來的長期價值仍有不確定性，如68.3%的受訪者認為，超人AI將帶來正面結果，但其中48%亦同意有5%的機率可能會造成人類滅絕等極糟結果。另一方面，有26.9%贊成維持現階段的AI發展速度，才能造福人類，另有38.4%認為應加快發展腳步、34.7%認為應放慢腳步。

不論如何，目前AI的進步已超出預期，原本預計要更久後才能達到的目標，都可望在2028年之前提前達標，像是提供規範與範例就能創造簡單的Python程式碼、撰寫一篇高品質的高中歷史作文，或幫新物件分類、替既有的創作者創作假新歌、自動建立一個支付網站，或提供電話銀行服務等。

此外，先前估計自動尋找及修補安全漏洞的能力也得等到2043年，最新的預測則會在2033年以前完成。不過，這群AI專家在未來30年最擔心的問題，則以假訊息居冠，包括以AI來創作和散布假訊息，或是用來操縱大眾意見趨勢等，另也擔心AI系統會加劇經濟上的不平等。（詳全文）

語音轉文字 BigQuery Vertex AI

BigQuery整合Vertex AI語音轉文字模型服務

Google最近在自家企業資料倉儲服務BigQuery中，預覽Vertex AI語音轉文字模型，讓用戶可透過SQL根據資料微調轉錄模型，在BigQuery中執行語音轉文字工作，還能整合其他結構化資料，來合併分析、建置AI應用。

這意味著，GCP用戶不必再像過去一樣，要轉錄語音資料得靠自己建立獨立的AI工作管線、自定義基礎設施。這次新的Google語音轉文字V2 API提供多功能轉錄服務，用戶可針對不同類型的語音音訊，如客服通話或醫療錄音，選擇合適的模型。此外，模型也可以根據用戶的資料進行調整，以提高轉錄準確性。（詳全文）

圖片來源／微軟、史丹佛大學、Google DeepMind、AI Impacts、Google

AI近期新聞

1. OpenAI推出針對中小企業的ChatGPT Team方案

2. 微軟、美國科學家以AI尋找新電池材料

3. 摩根大通JPMorgan釋出專家混合架構（MoE）模型Phixtral，表現比Phi-2好

資料來源：iThome整理，2024年1月

熱門新聞