AI趨勢周報第203期：跨雲跑ML太燒錢？加州大學開源雲端資源優化工具幫省錢

加州大學伯克萊分校團隊打造一款雲端資源優化框架SkyPilot，可根據使用者任務需求，來調整雲端廠商配置。

圖片來源:

螢幕截圖

重點新聞(1209～1215)

最近見到許多生成式AI應用，如ChatGPT、抖音母公司打造的文字轉影片AI：MagicVideo、Amazon開發的床邊故事生成功能Create with Alexa，甚至，Salesforce也開發一款AI摘要工具，可總結Slack重要訊息給使用者。除了這些創造性應用，最近也有不少新工具，如加州大學柏克萊分校的團隊，開發一款雲端資源調度工具，可幫使用者找出最省錢的雲端資源組合，並自動派送工作。此外，最新版DirectML PyTorch則開始支援熱門Transformer模型，微軟更新Azure語音功能，使用者可客製SST模型改善準確度。在應用方面，德意志銀行宣布要聯手Nvidia，來打造更符合監管的金融AI服務。

DeviantArt DreamUp 文生圖

跨雲跑ML太燒錢？加州大學開源雲端資源優化框架SkyPilot幫省錢

對大企業和小公司來說，用雲端資源來執行機器學習（ML）應用，都會遇到成本控管問題。加州大學伯克萊分校專攻即時邊緣運算的實驗室團隊RISELab就瞄準這個痛點，開發且開源一款框架SkyPilot，可用來管理跨雲廠商的ML工作負載，用單一使用者介面就能處理資料、安排工作，降低使用者支出。

進一步來說，SkyPilot演算法會根據運算工作需求，如CPU、GPU或TPU等用量，來找出最划算的雲端廠商、可用區域和範圍，接著自動安排執行該工作。目前，已有10幾家企業採用SkyPilot，有些用於GPU/TPU上訓練大型模型（得到3倍成本降低）、分散式超參數微調，也有使用者用數百個CPU實例來批次處理生醫運算，減少了6.5倍的開銷。此外，團隊也與Google合作，只要是申請到Google研究雲TRC計畫的使用者，就能立即使用SkyPilot。

目前，SkyPilot可用於3大公雲，包括AWS、GCP和微軟Azure，並提供命令列介面（CLI）和Python API。開發團隊表示，接下來將擴大框架，來支援更多雲端廠商。（詳全文）

吳恩達 ChatGPT 大型語言模型

吳恩達：ChatGPT類生成式AI能秀出不確定性警語會更好

OpenAI最近發布的大型生成式語言模型ChatGPT引起各界關注，能產出更連貫、更多細節和更有個性的文章，不只上知天文、下知地理，還能寫出故事、笑話、散文、詩歌、撩人臺詞和程式碼，發布短短幾天就吸引百萬名使用者註冊使用。ChatGPT的訓練方式與OpenAI年初打造的InstructGPT一樣，透過人工微調GPT-3，來避免產出有害內容。為此，他們還以監督式學習和強化學習來改善ChatGPT，特別是強化學習，是以人工排序的潛在回覆為標準，讓模型學習產出如人工排序般的文字段落，並給予獎勵。

吳恩達指出，ChatGPT雖能產出比GPT-3更優秀的回覆，也會針對一些問題給出「無法回答」的回覆，但就如其他大型語言模型一樣，ChatGPT也會產出信心十足但錯得離譜的回答。他認為，這類系統應該要呈現不同程度的信心，才不會誤導使用者或大眾。比如，Meta先前開發的檢索模型Atlas和DeepMind打造的RETRO模型，能鎖定可靠來源，將這些來源的文章合成為一個答案，並根據這些來源，改變回答的風格，彰顯一定程度的可靠性。吳恩達表示，如果能讓生成式算法，在不確定生成的答案是否正確時表達懷疑，就能大大降低產生假資訊的風險。（詳全文）

Salesforce 摘要 Slack

Salesforce開發AI摘要工具，可總結Slack重要訊息

Slack是企業常用的溝通工具，但1天下來，使用者可能累積了來自各頻道、DM直接對話框和回覆區的訊息，為幫助使用者快速掌握資訊，CRM龍頭廠商Salesforce打造一款AI摘要工具（AI Summarist），可以摘要Slack訊息，來讓使用者迅速查看。

具體來說，使用者可利用AI摘要工具，來對日常工作不太重要的頻道或對話摘要，也能根據需求來決定摘要頻率和時間。AI摘要工具會根據頻道內的其他使用者反應和回覆，來決定摘要哪些訊息，也能根據使用者要求，從各種訊息中，挑出重要人物的訊息摘要。Salseforce強調，系統並不會儲存原始對話Log和摘要工具產出的文字，只會儲存使用者行為的詮釋資料（Metadata），使用者也能對AI摘要工具產出的摘要給建議。（詳全文）

生成式AI Alexa Amazon

Alexa新功能可生成床邊故事，連音樂、插畫都能配

生成式AI又有新應用！Amazon日前給Alexa新添一項功能，讓使用者可和小孩一起設計床邊故事，再透過Echo裝置播放出來。該功能叫做Create with Alexa，是Amazon以大型語言模型和故事訓練而成，可讓使用者根據幾個示例，如場景、主角、色調和氣氛，來產生配有音樂和插圖的故事。

進一步來說，首先，該功能會先驅動大型語言模型，來根據使用者設定，產出5至10行文字及5個場景。接著，場景生成模型會根據每個場景，從人工繪製的圖像庫和AI產生的圖像庫，來選取合適的圖像作為背景。同時，模型還會選取物件和角色，也會根據文字內容，為角色添加相對應的表情與動作。最後，音檔生成器會從音樂庫（含和弦、合聲和旋律）中，來產生相應的音樂。目前，該功能已於11月29日上線，但只限於英文版。（詳全文）

ByteDance 2D卷積 文字轉影片

抖音母公司用2D卷積打造文字轉影片AI，降低運算複雜度

近2年生成式AI熱浪大起，不只是文字生成，各種文字轉圖像應用也雨後春筍般出現。最近，科技巨頭的研究目標轉向更難的文字轉影片，因為光是收集文字-影片配對的資料集，就比文字-圖像要難得多，且不同幀的銜接度也難以掌握。

不過，抖音母公司ByteDance近日發表自家研究成果，以擴散模型（Diffusion model）為基礎，打造一款可將文字轉為影片的生成式AI工具MagicVideo，透過預訓練的變分自動編碼器，來在潛在空間中（Laten Space）產生影片。這個方法，大大降低了MagicVideo的運算量，而且，MagicVideo還以2D卷積來取代3D卷積，克服文字-影片的資料集問題，也降低運算複雜度。為降低記憶體消耗，2D卷積的每個運算都共享同樣權重，但這麼做會降低產出的影片品質，團隊於是在MagicVideo中採用自定義輕量級模組，來調整每一幀的分布。他們認為，該研究是文字轉影片發展中，減低運算複雜度的一個重要成果。（詳全文）

IDC 多模態 數位雙生

IDC預測2023 AI趨勢：多模態AI和數位雙生紛紛落地

IDC日前發表2023年科技趨勢預測，指出明年將見到更多自動化和多模態AI應用落地，因為，他們發現全球過半企業面臨嚴重的人才與技術缺口，企業也面臨營運成本增加的壓力，而自動化就會是企業解決壓力的重要投資。

IDC指出，企業自動化應用需要AI接軌，而單模態AI對企業即時決策和預測的需求來說是不夠的，因此，能同步處理文本、視覺影像和音訊等的多模態AI，會是企業用來實現自動化、跨越內部各種業務流程的解方。IDC認為，多模態AI的自動化應用已在智慧能源和晶片開發設計上有所成績，他們預測，到了2023年，人才與技術缺口將促使35%的IT組織投資AI技能，並預期2026年，40%的AI模型將涵蓋多模態數據演算。

此外，IDC也預測，數位雙生也將因IoT、雲端和邊緣運算技術提升，而開始進入大型製造業、倉儲物流和產業供應鏈，而非只是國防、航太和能源等產業。IDC預測，明年將見到更多元的數位雙生部署，並在不同產業和企業規模間階段性導入。甚至，2026年也將有20%的大型企業，以運行大規模的數位雙生專案來維持商業利益。（詳全文）

DirectML PyTorch Transformer

最新版DirectML PyTorch開始支援熱門Transformer模型

由微軟維護的深度學習加速框架DirectML PyTorch近日發布正式版，新支援不少熱門的Transformer模型，如GPT2、BERT和Detection Transformers。也就是說，開發者現在可利用GPU加速的PyTorch，來訓練常見的Transformer模型了。

目前最新版本的Windows 10和WSL都支援帶有DirectML技術的PyTorch應用，開發者現可下載PyPI套件，來進行Transformer模型應用開發。不只如此，新版框架也改進了記憶體消耗、提供更快的效能，也能處理更大批次的工作。（詳全文）

德意志銀行 金融AI Nvidia

德意志銀行測試大型金融語言模型，要加速金融AI服務

德意志銀行日前宣布要藉Nvidia的AI工具，來改善金融服務，包括開發符合監管要求的AI服務、支援德意志銀行雲端數位轉型政策，以及以AI來簡化、加速德意志銀行雲端搬遷決策。

在建立這項合作之前，Nvidia與德意志銀行已先執行數月的探索性工作，比如風險模型開發、高效能運算和品牌虛擬人物的建造。這次，德意志銀行計畫使用Nvidia AI Enterprise端到端軟體套件，在雲端和資料中心執行AI開發和部署，讓德意志銀行開發者可在本地和Google雲端，執行AI工作流程。另一方面，德意志銀行也要發展非結構化資料分析技術，他們正在測試Financial Transformers大型語言模型，要來實現金融交易對手方的預警訊號，還要更快資料檢索和辨識資料品質。（詳全文）

微軟 Azure 語音轉文字

微軟推出新版Azure語音功能，使用者可客製SST模型改善準確度

微軟更新Azure認知服務語音功能，透過客製化語音轉文字功能，來加強應用程式和產品的語音轉文字準確性。新的客製化語音模型，是以樣板模型為基礎，用戶可以透過2種方式優化模型，一是以特定領域的文字資料來訓練模型，強化字彙辨識力，另一是透過轉錄的音訊資料，來提高對特定音訊條件的辨識能力。

這些優化方式，又可細分為4種。第1是最簡單的方式，使用者以詞彙列表添加如參與者姓名、產品和行話列表，來提高模型對這些詞彙的辨識能力。再來是以純文字，如各種體育賽事使用的詞彙，來提高特定領域詞彙精確度。第3種是以結構化文字，來強化模型辨識語音中，如片語等不同的短語形式。最後，使用者也能用音訊資料，加強模型對特定口音、說話風格或背景噪音的辨識能力。（詳全文）

圖片來源／UC Berkeley、Salesforce、Amazon、ByteDance

AI近期新聞

1. Google開源注意力中心模型，可預測圖片最吸引人類目光的位置

資料來源：iThome整理，2022年12月

熱門新聞