AI趨勢周報第242期：沒GPU也沒關係！Google開源新工具，用CPU就能開發GenAI App

重點新聞(0202～0208)

localllm Google 生成式AI

沒GPU也沒關係！Google開源新工具，用CPU就能開發GenAI App

Google最近開源名為localllm的一系列工具組和函式庫，能讓開發者使用地端的CPU資源，就能開發生成式AI App，就算沒有GPU也沒關係。進一步來說，開發者可在Google雲端的全託管開發環境Cloud Workstations中使用localllm，透過命令列工具（Command line utility）來從Hugging Face存取量化模型，並在Cloud Workstations中穩定執行，不需要GPU資源。

Google指出，這些量化模型使用低精度資料類型，進而提高整體效能、降低記憶體需求，並實現更快速的模型推論。他們認為，開發者在Cloud Workstations中使用localllm和量化模型開發GenAI App，可提高靈活性、擴展性和良好的成本效益，還能確保資料安全，因為localllm可降低資料傳輸和第三方存取風險，開發者在本地端CPU和記憶體執行LLM，也能掌控敏感資料。（詳全文）

成本 K8s Kubecost

K8s成本管理工具大更新，還用AI預測成本確保不超額

Kubernetes成本管理公司Kubecost最近推出了同名產品Kubecost 2.0版本。這個新版提升大規模效能100倍，不只提供視覺化頁面，來讓使用者監控所有流量成本，還透過AI來預測用戶的支出。就效能提升來說，Kubecost 2.0採用新的API來提高後端效能，資源效率也提高為3倍，讓使用者在處理大規模Kubernetes環境時，可更靈敏操作Kubecost API和UI，且還能查詢3年以上的歷史資料。

同時，用戶能以更直覺的方式察看Kubernetes和雲端網路成本，新版Kubecost網路監控提供Pod、命名空間、叢集和雲端服務的成本可見性，以接近即時的速度，來視覺化呈現基礎設施任一部分的成本。此外，Kubecost 2.0整合機器學習技術，新預測模型能利用過去的Kubernetes和雲端資料，來預測成本波動，並且進行資源分配。用戶可透過主要監控儀表板的分配、資產和雲端成本探索工具，預測未來特定日期範圍的支出成本。成本預測還有一個異常預測功能，可用來偵測實際支出偏離Kubecost預測支出的時間點，找出意外支出狀況，並迅速解決超額問題。（詳全文）

文字轉圖像 行動裝置 MobileDiffusion

行動裝置也能快速執行！Google揭露文字轉圖像模型MobileDiffusion

Google開發一套可在行動裝置上，以次秒（Subsecond）速度執行的文字轉圖像模型MobileDiffusion，該模型是一種高效的擴散模型，在iOS和Android高階裝置上，能在半秒內生成512x512的高品質圖像。MobileDiffusion比其他圖像生成模型小了許多，只有5.2億參數，特別適用於行動裝置。

MobileDiffusion遵循潛在擴散模型的設計，具有文字編碼器、擴散UNet和圖像解碼器。其中，團隊使用了適用於行動裝置的小模型CLIP-ViT/L14，作為MobileDiffusion的文字編碼器，並鎖定擴散UNet和圖像解碼器來改善效率。他們以2種方法來提高擴散UNet的效率，首先是在模型瓶頸處，也就是資訊最集中的地方，使用更多的Transformer區塊來降低計算量，第二是使用輕量級可分離卷積，來減少計算量。至於圖像解碼器，他們則訓練變分自編碼器（VAE）簡化圖像表示，使圖像資訊縮小至原圖八分之一，減少儲存和計算需求，並用簡化版的解碼器提高效能。（詳全文）

微軟 Copilot 圖像創作

微軟更新Copilot圖像創作功能

Copilot更新了，微軟這次的更新範圍包括copilot.microsoft.com網站，還有iOS與Android應用商店中的Copilot應用程式。使用者將會看到更簡潔的外觀和使用體驗，此外，微軟還新增了建議提示詞輪播功能，來更好地呈現Copilot功能。

同時，微軟也在Copilot添加更多的圖像創作功能，比如使用Designer功能，不僅能創建圖像，現在還能在Copilot內直接進行線上圖像編輯，不中斷創作工作流程。這些圖像編輯還包括突出顯示特定物體，無論是強化顏色、使其更醒目，或是模糊圖像背景讓主題更突出，甚至使用特效重新建立圖像，都能完成。（詳全文）

蘋果 MGIE 圖片編修

蘋果開源圖片編修AI模型MGIE

繼去年公布多模態AI模型Ferret後，蘋果最近又開源可根據自然語言提示編修圖片的多模態AI模型MGIE，可更精確修圖或改良圖片。這個AI模型由蘋果和加州大學聖塔巴巴拉分校研究人員合作開發，MGIE的意思是以多模態大語言模型（MLLM）導引圖片編輯（MLLM-Guided Image Editing），目的是要解決現有AI圖片編輯模型的問題。

研究員說明，以指令為基礎的圖片編輯AI模型，可根據自然語言指令操控圖片，而無需精細描述或遮罩。但人類下的指令往往太短，現有的AI方法無法理解。但MLLM可跨模態理解，能生成視覺回應，於是蘋果團隊以LLaVA為基礎，開發了MGIE，能從人類提示得出表現指令，並提供清楚而明確的圖片編輯指引。例如，當使用者輸入「讓天空更藍」的文字，MGIE則會推出「讓天空部份的飽和感增加20%」。經完整的訓練，MGIE能同時產生視覺化想像，並進行圖片像素的操控。（詳全文）

GNN Google 函式庫

Google釋出可大規模建置GNN的函式庫

Google發布TensorFlow GNN 1.0，簡稱TF-GNN，是一個可用於大規模建立圖神經網路（GNN）的函式庫，可支援使用者在機器學習框架TensorFlow中建立和訓練圖模型，以及從龐大資料儲存中擷取輸入圖（Graph）。

進一步來說，TF-GNN是專為處理異構圖設計的工具。異構圖是指圖中的節點和邊，代表不同類型的物件和關係，在TensorFlow中，異構圖會被封裝成一個稱為tfgnn.GraphTensor的物件，開發者可透過高階的Python類神經網路函式庫Keras API中的Layers物件操作，或直接使用tfgnn.GraphTensor原始類型，來定義GraphTensor的可訓練轉換。這代表，開發者可像設計一般神經網路層那樣設計和訓練GNN模型，來處理和學習圖資料的複雜結構和特徵，而TF-GNN讓這些工作變得直覺和方便。（詳全文）

微軟 DirectML NPU

微軟預覽DirectML新支援功能

最近，微軟宣布推出DirectML對神經處理單元（NPU）加速的開發者預覽版。這個預覽版可支援特定模型，在搭載Intel Core Ultra處理器和AI Boost功能的Windows 11裝置上執行，讓應用程式可更快地處理語音辨識、圖像處理等AI任務。

DirectML是一種低階API，能為硬體供應商提供通用抽象層，讓應用程式存取機器學習加速器，適用於所有DirectX 12相容裝置，如GPU和NPU。而NPU是一種專為機器學習工作負載設計的處理單元，適用於計算密集、不需要圖型介面互動的工作。目前DirectML對NPU的支援，僅適用於搭載Intel Core Ultra處理器的裝置。（詳全文）

Google Gemini One AI

Google Bard改名為Gemini

Google在2月8日正式宣布將Bard改名為Gemini，同時也揭露全新付費版本Gemini Advanced和結合2TB雲端硬碟的Google One AI Premium方案。進一步來說，Gemini聊天機器人有2個版本，一是免費AI聊天機器人，二是全新付費版本Gemini Advanced。其中，Gemini Advanced主打以最強大AI模型版本Ultra 1.0為底層，號稱是首個在大量多任務語言理解（MMLU）上超越人類專家的AI模型，能理解57種主題知識，包括數學、物理、歷史、法律、醫學和倫理學等。

Gemini模型將支援Workspace和Google Cloud等Google服務。隨同品牌變更，Workspace AI助理Duet AI將改名為Gemini for Workspace，即將推出的全新Google One AI進階版方案，可讓消費者直接在Gmail、Docs、Sheets、Slides與Meet免費使用Gemini。此外，Google Cloud的Duet AI也將改名Gemini，Google也計畫近期進一步公布Gemini在開發和Cloud方面的新功能。（詳全文）

圖片來源／Kubecost、微軟、Google、蘋果

AI近期新聞

1. Nvidia、微軟、OpenAI等200餘業者加入美政府號召的AI安全同盟

2. VS Code現在支援Hey Code語音指令

3. OpenAI將標記DALL·E 3輸出圖像為AI生成內容

資料來源：iThome整理，2024年2月

熱門新聞