Google與馬克斯普朗克研究院、MIT研究員開發一款DragGAN模型,能透過點追蹤方式,來精確地控制像素位置、使GAN精準生成所需的圖片。

圖片來源: 

馬克斯普朗克研究院

重點新聞(0512~0518)

Google     GAN     點追蹤  

Google用拖拉式介面讓GAN更準確生成圖片

Google聯手馬克斯普朗克研究院、MIT研究員,共同開發一款可精準生成圖片的模型DragGAN,並打造一套互動式UI介面,來讓使用者在畫面中,點擊想要修改的任意點和目標點,來驅動模型生成新圖片。

團隊指出,如何控制GAN精確地產出圖片,一直是個難題,傳統方法是透過手動標註的訓練資料或3D模型,但這種作法缺乏彈性、精確性和通用性。於是,團隊利用一種較少人探討的方法,來強化對GAN生成品質的控制性,也就是用互動式介面,來拖拉圖片中的任意點,準確地達到目標點。

為實現這個目標,團隊開發出DragGAN,由2大部分組成,一是基於特徵的運動監督方法,來實現選定點至目標點位置的移動,另一是新式點追蹤方法,利用GAN鑑別器特性來維持移動位置的在地化。總而言之,透過DragGAN,使用者可精確控制像素位置,來變形圖片,來改變人類、動物、車輛、風景等圖的姿勢、形狀、表情和布局。團隊表示,經測試,DragGAN在圖像處理和點追蹤任務的表現都比現有方法更好,未來打算擴大納入3D物件的影像生成。(詳全文)

  LLM     微軟     Guidance  

LLM不聽話?微軟發布提示工程專用的開發語言Guidance

ChatGPT掀起大型語言模型(LLM)大浪,各種LLM如雨後春筍般冒出,但這些大型語言模型需要精確又冗長的提示,才能準確生成使用者所需的答案。為了讓LLM更受控,微軟最近發表一款領域特定語言(DSL)Guidance,能讓開發者「比用傳統的提示方法或鏈結(Chaining)更有效率地控制大型語言模型。」

微軟指出,Guidance程式可讓使用者將生成、提示和邏輯控制等工作整合至一個連續流程,並對應到語言模型如何處理文字輸入。一般來說,許多研究證明,引導LLM一步步推導答案的關聯思考(Chain-of-Thought)方法及許多變體(如ART、Auto-CoT)能提高LLM的表現,這些方法都採用簡單的輸出結構,但對GPT-4這種進階的LLM來說,就需要更豐富的結構,而Guidance可讓這種結構更簡單、更便宜。因為,一旦提示變得冗長、重複性高,就會耗費更多運算成本,而Guidance可解決這個問題。Guidance配有一個直觀的編輯器,來簡化程式碼規則和定義語言模型功能的處理工作,它也允許使用者設置值驗證和外部服務整合等步驟,提供高自定義功能。(詳全文)

  Codey    程式開發      自然語言  

Google Colab也要整合Codey模型,提供AI程式開發功能

Google宣布要將生成式程式開發模型Codey,整合進雲端協作開發環境Colab中,免費提供給開發者,來輔助編寫程式碼。Codey是大型語言模型PaLM 2的衍生程式碼模型,主要功能有程式碼生成和聊天機器人,換句話說,它能根據程式碼上下文來提供下一行程式碼的建議,或根據開發者的自然語言提示來生成程式碼,開發者甚至也能和Codey對話,來得到除錯、技術文件和程式碼撰寫的相關資訊。

將於Colab亮相的Codey,是Google針對Python和Colab用途所訓練的輕量版模型,目前預計先向美國用戶開放,且功能先聚焦於程式碼生成,根據註釋或開發者的提示,來撰寫整個函式。 不只將Codey用於Colab,Google也在最新版的開發工具Android Studio Hedgehog中,加入Codey驅動的程式碼開發助理Studio Bot,來提供類似GitHub Copilot的功能。(詳全文)

  福爾摩沙模型     離線部署     OpenLLaMA  

第一款商用本土LLM模型亮相,支援地端部署讓對話資料不出內網

華碩旗下子公司台智雲以有商用授權的BLOOM為基礎,打造出同樣是1,760億參數的大型語言模型福爾摩沙,號稱與ChatGPT同等級,且中文訓練資料占30%,比ChatGPT還要高許多,也具備大量臺灣知識。

他們也將這款模型包裝為4種企業級大型語言模型服務,包括AFS Platform、AFS Shuttle、AFS Cloud和AFS Appliance。前兩者是大型語言模型優化(fine-tuning)服務,其中,企業有明確目標、知道要打造何種應用時,可選擇AFS Platform,來用自己的資料優化所選模型,目前台智雲提供的模型有BLOOM 176B、BLOOM 7B、福爾摩沙176B和7.1B版本,未來將納入OpenLLaMA模型。AFS Shuttle則適合沒有明確目標的企業,可用小量資料來進行POC驗證,找出合適的應用情境。

AFS Cloud和AFS Appliance則屬於部署和推論的服務。前者是雲端託管服務,其中的模型是完整訓練過的,可透過TWCC推論和API來供企業使用。而後者是私有雲/地端部署服務,企業可下載大型模型到地端,在地端資料中心、私有雲或搭配企業5G專網來執行LLM應用,特別適合有高機敏性資料的企業。(詳全文)

  Meta     AI晶片     基礎建設  

Meta要自行研發AI加速晶片

Meta日前公開表示要自行研發客製化AI晶片,作為基礎建設重塑工作中的一環。進一步來說,這個基礎建設重整工作,涵蓋了硬體和軟體堆疊各層面,要打造專為AI設計的基礎設施架構。而新架構就包含Meta的客製化AI晶片、AI資料中心設計和搭載1.6萬顆GPU的AI超級電腦。其中一款晶片名為Meta訓練和推論加速器(MTIA),要用來執行多種特定AI任務,加速AI模型的推論工作。除了AI晶片,Meta也計畫打造一款晶片名為Meta可擴增影片處理器(MSVP)的晶片,用來處理或傳送影片給使用者,並降低耗能。(詳全文)

  微軟     Bing Chatt     程式碼  

微軟強化手機版Bing Chat,要新添Widget、整合至更多App

微軟5月初全面開放大眾試用Bing Chat後,最近進一步宣布要強化手機版AI聊天機器人功能,包括整合Widget、支援語音輸入和多語言,並提供跨平臺對話等功能。首先,微軟將替Bing Chat新增Widget,等於用戶可把Bing Chat加入到iOS和Android手機主頁上。此外,微軟還將新添Bing Chat的語音輸入功能,並支援跨平臺對話,讓用戶可跨桌機、手機接續對話。微軟也表示,目前已增加英文以外的國家及語音輸入支援,但未透露支援幾種語言。

除了Bing Chat應用程式更新,微軟也計畫將這個AI助理整合至手機版Edge和Skype App。在手機版Edge方面,Bing Chat可具備情境聊天功能,即讀懂用戶正在瀏覽什麼網頁,並回答用戶對網頁內容的提問,也能進行重點摘要。此外,用戶可選擇部分網頁文字,在跳出的選單中叫出Bing對話,要它執行任務。手機版Edge Bing Chat功能很快將推向全球。(詳全文)

  Alphabet     機器人     開發  

Alphabet機器人公司Intrinsic推出機器人應用開發軟體

Alphabet成立2年的機器人子公司Intrinsic,最近終於發布第一項產品,也就是機器人應用開發平臺軟體,來簡化機器人程式開發工作。該產品名為Flowstate,是一個直覺化的Web開發環境,涵蓋了從概念測試到部署機器人應用的所有流程。

它擁有圖形化流程開發工具,使用行為樹(behavioral tree)來簡化複雜流程、加速開發。它也同時支援在雲端或本地端的部署環境,方便程式在兩種環境搬移,並提供模擬和驗證程式的環境。Flowstate還能將特定領域知識以特定技能輸出,方便未來重覆使用,像是姿態評估、操控、力覺感知插入(force-based insertion)、路徑規畫等。Flowstate目前為beta版,將先提供給小部分解決方案供應商,並開放開發人員申請試用、開發機器人應用程式。(詳全文)

  TensorFlow     Keras     模型訓練  

Google更新TensorFlow機器學習工具,簡化模型部署與訓練

Google日前在I/O大會發表多項TensorFlow和Keras深度學習工具的更新,首先是可讓開發者簡單存取預訓練模型的模組化函式庫,也就是KerasCV與KerasNLP,開發者只要撰寫幾行程式碼,就能在應用程式中整合圖像分類或文字生成等功能。

其他更新還有可用於同步分散式模型運算的擴充套件DTensor,組合、微調了多種平行技術,來支援更大且高效能的模型訓練。此外,DTensor也支援多種加速器,如TPU、GPU等各種運算裝置。同時,Google也釋出輕量級API JAX2TF,能讓開發者在TensorFlow生態系中,使用JAX數值函式庫編寫的模型來加速機器學習研究生產化的速度。(詳全文)

圖片來源/普朗克研究院、微軟、Google、Meta

攝影 / 王若樸

  AI近期新聞 

1. Nvidia聯手ServiceNow要用生成式AI加速工作流程

2. SAP導入OpenAI的生成式AI來優化人才招募和員工學習作業

資料來源:iThome整理,2023年5月

熱門新聞

Advertisement