AI趨勢周報第216期：Google用拖拉式介面讓GAN更準確生成圖片

Google與馬克斯普朗克研究院、MIT研究員開發一款DragGAN模型，能透過點追蹤方式，來精確地控制像素位置、使GAN精準生成所需的圖片。

圖片來源:

馬克斯普朗克研究院

重點新聞(0512～0518)

Google GAN 點追蹤

Google用拖拉式介面讓GAN更準確生成圖片

Google聯手馬克斯普朗克研究院、MIT研究員，共同開發一款可精準生成圖片的模型DragGAN，並打造一套互動式UI介面，來讓使用者在畫面中，點擊想要修改的任意點和目標點，來驅動模型生成新圖片。

團隊指出，如何控制GAN精確地產出圖片，一直是個難題，傳統方法是透過手動標註的訓練資料或3D模型，但這種作法缺乏彈性、精確性和通用性。於是，團隊利用一種較少人探討的方法，來強化對GAN生成品質的控制性，也就是用互動式介面，來拖拉圖片中的任意點，準確地達到目標點。

為實現這個目標，團隊開發出DragGAN，由2大部分組成，一是基於特徵的運動監督方法，來實現選定點至目標點位置的移動，另一是新式點追蹤方法，利用GAN鑑別器特性來維持移動位置的在地化。總而言之，透過DragGAN，使用者可精確控制像素位置，來變形圖片，來改變人類、動物、車輛、風景等圖的姿勢、形狀、表情和布局。團隊表示，經測試，DragGAN在圖像處理和點追蹤任務的表現都比現有方法更好，未來打算擴大納入3D物件的影像生成。（詳全文）

LLM 微軟 Guidance

LLM不聽話？微軟發布提示工程專用的開發語言Guidance

ChatGPT掀起大型語言模型（LLM）大浪，各種LLM如雨後春筍般冒出，但這些大型語言模型需要精確又冗長的提示，才能準確生成使用者所需的答案。為了讓LLM更受控，微軟最近發表一款領域特定語言（DSL）Guidance，能讓開發者「比用傳統的提示方法或鏈結（Chaining）更有效率地控制大型語言模型。」

微軟指出，Guidance程式可讓使用者將生成、提示和邏輯控制等工作整合至一個連續流程，並對應到語言模型如何處理文字輸入。一般來說，許多研究證明，引導LLM一步步推導答案的關聯思考（Chain-of-Thought）方法及許多變體（如ART、Auto-CoT）能提高LLM的表現，這些方法都採用簡單的輸出結構，但對GPT-4這種進階的LLM來說，就需要更豐富的結構，而Guidance可讓這種結構更簡單、更便宜。因為，一旦提示變得冗長、重複性高，就會耗費更多運算成本，而Guidance可解決這個問題。Guidance配有一個直觀的編輯器，來簡化程式碼規則和定義語言模型功能的處理工作，它也允許使用者設置值驗證和外部服務整合等步驟，提供高自定義功能。（詳全文）

Codey 程式開發 自然語言

Google Colab也要整合Codey模型，提供AI程式開發功能

Google宣布要將生成式程式開發模型Codey，整合進雲端協作開發環境Colab中，免費提供給開發者，來輔助編寫程式碼。Codey是大型語言模型PaLM 2的衍生程式碼模型，主要功能有程式碼生成和聊天機器人，換句話說，它能根據程式碼上下文來提供下一行程式碼的建議，或根據開發者的自然語言提示來生成程式碼，開發者甚至也能和Codey對話，來得到除錯、技術文件和程式碼撰寫的相關資訊。

將於Colab亮相的Codey，是Google針對Python和Colab用途所訓練的輕量版模型，目前預計先向美國用戶開放，且功能先聚焦於程式碼生成，根據註釋或開發者的提示，來撰寫整個函式。不只將Codey用於Colab，Google也在最新版的開發工具Android Studio Hedgehog中，加入Codey驅動的程式碼開發助理Studio Bot，來提供類似GitHub Copilot的功能。（詳全文）

福爾摩沙模型 離線部署 OpenLLaMA

第一款商用本土LLM模型亮相，支援地端部署讓對話資料不出內網

華碩旗下子公司台智雲以有商用授權的BLOOM為基礎，打造出同樣是1,760億參數的大型語言模型福爾摩沙，號稱與ChatGPT同等級，且中文訓練資料占30%，比ChatGPT還要高許多，也具備大量臺灣知識。

他們也將這款模型包裝為4種企業級大型語言模型服務，包括AFS Platform、AFS Shuttle、AFS Cloud和AFS Appliance。前兩者是大型語言模型優化（fine-tuning）服務，其中，企業有明確目標、知道要打造何種應用時，可選擇AFS Platform，來用自己的資料優化所選模型，目前台智雲提供的模型有BLOOM 176B、BLOOM 7B、福爾摩沙176B和7.1B版本，未來將納入OpenLLaMA模型。AFS Shuttle則適合沒有明確目標的企業，可用小量資料來進行POC驗證，找出合適的應用情境。

AFS Cloud和AFS Appliance則屬於部署和推論的服務。前者是雲端託管服務，其中的模型是完整訓練過的，可透過TWCC推論和API來供企業使用。而後者是私有雲／地端部署服務，企業可下載大型模型到地端，在地端資料中心、私有雲或搭配企業5G專網來執行LLM應用，特別適合有高機敏性資料的企業。（詳全文）

Meta AI晶片 基礎建設

Meta要自行研發AI加速晶片

Meta日前公開表示要自行研發客製化AI晶片，作為基礎建設重塑工作中的一環。進一步來說，這個基礎建設重整工作，涵蓋了硬體和軟體堆疊各層面，要打造專為AI設計的基礎設施架構。而新架構就包含Meta的客製化AI晶片、AI資料中心設計和搭載1.6萬顆GPU的AI超級電腦。其中一款晶片名為Meta訓練和推論加速器（MTIA），要用來執行多種特定AI任務，加速AI模型的推論工作。除了AI晶片，Meta也計畫打造一款晶片名為Meta可擴增影片處理器（MSVP）的晶片，用來處理或傳送影片給使用者，並降低耗能。（詳全文）

微軟 Bing Chatt 程式碼

微軟強化手機版Bing Chat，要新添Widget、整合至更多App

微軟5月初全面開放大眾試用Bing Chat後，最近進一步宣布要強化手機版AI聊天機器人功能，包括整合Widget、支援語音輸入和多語言，並提供跨平臺對話等功能。首先，微軟將替Bing Chat新增Widget，等於用戶可把Bing Chat加入到iOS和Android手機主頁上。此外，微軟還將新添Bing Chat的語音輸入功能，並支援跨平臺對話，讓用戶可跨桌機、手機接續對話。微軟也表示，目前已增加英文以外的國家及語音輸入支援，但未透露支援幾種語言。

除了Bing Chat應用程式更新，微軟也計畫將這個AI助理整合至手機版Edge和Skype App。在手機版Edge方面，Bing Chat可具備情境聊天功能，即讀懂用戶正在瀏覽什麼網頁，並回答用戶對網頁內容的提問，也能進行重點摘要。此外，用戶可選擇部分網頁文字，在跳出的選單中叫出Bing對話，要它執行任務。手機版Edge Bing Chat功能很快將推向全球。（詳全文）

Alphabet 機器人 開發

Alphabet機器人公司Intrinsic推出機器人應用開發軟體

Alphabet成立2年的機器人子公司Intrinsic，最近終於發布第一項產品，也就是機器人應用開發平臺軟體，來簡化機器人程式開發工作。該產品名為Flowstate，是一個直覺化的Web開發環境，涵蓋了從概念測試到部署機器人應用的所有流程。

它擁有圖形化流程開發工具，使用行為樹（behavioral tree）來簡化複雜流程、加速開發。它也同時支援在雲端或本地端的部署環境，方便程式在兩種環境搬移，並提供模擬和驗證程式的環境。Flowstate還能將特定領域知識以特定技能輸出，方便未來重覆使用，像是姿態評估、操控、力覺感知插入（force-based insertion）、路徑規畫等。Flowstate目前為beta版，將先提供給小部分解決方案供應商，並開放開發人員申請試用、開發機器人應用程式。（詳全文）

TensorFlow Keras 模型訓練

Google更新TensorFlow機器學習工具，簡化模型部署與訓練

Google日前在I/O大會發表多項TensorFlow和Keras深度學習工具的更新，首先是可讓開發者簡單存取預訓練模型的模組化函式庫，也就是KerasCV與KerasNLP，開發者只要撰寫幾行程式碼，就能在應用程式中整合圖像分類或文字生成等功能。

其他更新還有可用於同步分散式模型運算的擴充套件DTensor，組合、微調了多種平行技術，來支援更大且高效能的模型訓練。此外，DTensor也支援多種加速器，如TPU、GPU等各種運算裝置。同時，Google也釋出輕量級API JAX2TF，能讓開發者在TensorFlow生態系中，使用JAX數值函式庫編寫的模型來加速機器學習研究生產化的速度。（詳全文）

圖片來源／普朗克研究院、微軟、Google、Meta

攝影 / 王若樸

AI近期新聞

1. Nvidia聯手ServiceNow要用生成式AI加速工作流程

2. SAP導入OpenAI的生成式AI來優化人才招募和員工學習作業

資料來源：iThome整理，2023年5月

熱門新聞