微軟
重點新聞(1230~0105)
微軟 VALL-E 文字轉語音
語音版DALL-E!微軟文字轉語音AI給3秒樣本就能準確生成
微軟近日發表一套文字轉語音模型VALL-E,可根據文字輸入和3秒的語音樣本,來合成、產出目標語音,就像是OpenAI的文字轉圖片模型DALL-E一樣。微軟表示,他們用現成神經音檔編解碼模型中的離散碼,來訓練VALL-E這套神經編解碼器語言模型,把文字轉語音視為條件式語言建模任務,而不是像一般研究,視為連續性的訊號迴歸任務。
在預訓練階段,團隊將文字轉語音的訓練資料,擴充到6萬小時的英語語音,是現有系統的幾百倍。VALL-E的工作流程是音素→離散碼→波形,先根據文字輸入和3秒語音提示(也就是想聽到的目標聲音),來產出與文字和目標聲音相應的離散音檔編解碼。
微軟測試發現,VALL-E在語音自然度和相似度部分,表現比現有SOTA文字轉語音模型要好,而且還能保有語音提示的情緒與聲音環境。團隊指出,VALL-E可直接用於各種語音合成應用,如零樣本文字轉語音、語音編輯,以及搭配GPT-3等生成式AI模型,來生成更多內容。(詳全文)
大型模型 BigScience PETALS
在家也能跑千億參數模型!BigScience開源PETALS分散式AI專案
對語言模型來說,參數越多、模型表現越好,開發者也只需微調大型預訓練模型,就能得到不錯的預測結果。不過,BLOOM、PaLM、GPT等這類大型語言模型,即便開源,還是會耗費大量運算資源,雖然目前有2種方法來解決該問題,如RAM卸載和託管API,但前者對交互推論來說太慢,後者則不夠靈活。
於是,由世界各地研究員組成的開源研究專案BigScience,日前開發一套系統PETALS,可在受信任的的條件下,集各使用者之力,來共同微調、推論千億參數的大模型。也就是說,每個使用者只需要載入一小部分的模型,就能和其他使用者一起協作,來共同執行模型推論和微調,就像是BT原理一樣。
團隊測試發現,PETALS比在單一系統的RAM卸載方法,還要快上許多倍,在消費型GPU上推論1,760億參數的BLOOM模型,完成1個token所需時間近1秒。透過平行推論,每秒則能完成數百個token。而且,有別於大多數的推論API,PETALS還能顯示模型隱藏狀態,讓使用者可用有效的微調方法,來訓練、分享客製模型的外掛。不過,在PETALS初始階段,使用者可能因安全、隱私考量,協作進展可能較慢,因此BigScience推出BLOOM點數,來獎勵貢獻GPU資源的使用者。(詳全文)
百度研究院 大模型 產業化
百度研究院預測2023年:大模型將產業化
百度研究院日前發布科技趨勢預測,直言大型模型在2023年將產業化發展,用於更廣泛的產業中。百度研究院指出,現今的AI不斷朝跨任務、跨模態(資料類型)發展,且隨著底層大模型技術的成熟,以及為特定產業發展的AI基礎建設,這種產業型的大模型,已漸漸在航太、金融、能源等領域應用,形成「AI+產業」的發展結構。百度認為,大模型產業化將催生產業大模型生態,實現普惠AI。
此外,百度研究院也預測,2023年的新型AI基礎設施需求將增長、更多產業講過應用AI機器人、AI將進入更多科學領域,以及隨著雲原生技術的成熟,將催生更多量子軟硬體合一的解決方案。此外,可解釋AI技術和科技永續發展,也在百度研究院預測的科技趨勢中。(詳全文)
Nvidia 機器人訓練 元宇宙
讓機器人更靈活!Nvidia更新模擬訓練平臺功能
Nvidia更新機器人模擬和訓練平臺Isaac Sim,使用者可從雲端存取Isaac Sim、使用新AI功能來加速機器人訓練了。Isaac Sim建立在元宇宙平臺Nvidia Omniverse上,使用者可在各種操作條件下模擬真實環境,建置和測試虛擬機器人,來加速物流、製造和零售等產業的自動化應用。
Isaac Sim新功能有人物模擬功能,能在倉庫和製造設施中增添人物角色,還能讓人物執行不同動作,如推手推車。這個功能可讓開發者觀察,人機互動設計是否順暢,也能讓機器人學習避障和潛在意外。另一個新功能是即時呈現感測器資料,並能用光線追蹤技術模擬光達,在各種照明或反射材質條件下,獲得更準確的感測器資料,來讓機器人模擬更貼近真實世界環境。Isaac Sim其他更新還包括模擬3D物件庫、強化學習工具Isaac Gym,以及協作機器人程式開發工具Isaac Cortex等。
OpenAI Bing ChatGPT
微軟計畫用ChatGPT強化Bing搜尋功能
根據外媒The Information報導,微軟打算用ChatGPT來強化自家搜尋引擎Bing、提供新搜尋功能,預計在3月底推出。此外,微軟還可能用ChatGPT來分析用戶在研究的主題,好提供進一步的搜尋建議。
微軟這一舉動,代表使用OpenAI技術的微軟產品數量持續增加。微軟在2019年10月與OpenAI展開合作,投資10億美元來發展通用AI。2020年,微軟購買GPT-3獨家授權,在自家產品中整合GPT-3。2021年,微軟就在Power Apps中嵌入GPT-3,使缺乏程式開發知識的人,也能利用自然語言開發程式。去年,微軟整合OpenAI DALL-E 2,發布圖像設計應用程式,能根據文字提示生成影像。(詳全文)
元宇宙 自然語言 3D
Nvidia新添元宇宙平臺協作功能和自然語言搜尋服務
Nvidia更新元宇宙平臺Omniverse Enterprise,支援最新GPU技術強化效能和可用性,同時增添新功能,達到即時又精確的模擬品質。此外,Nvidia也更新Omniverse平臺核心,讓使用者快速連接工具、共享虛擬空間中協作。
Omniverse Enterprise是個讓企業用來開發、營運元宇宙應用程式的平臺,新加入的Omniverse連接器,可連接不同3D應用程式,實現無縫工作流程,另也支援如Adobe Substance 3D Painter、Autodesk Alias等軟體。此外,Nvidia也正式推出AI服務Omniverse DeepSearch,使用者可用自然語言或2D參考圖,直覺搜尋大型且未標記的3D資料庫。在平臺核心更新部分,則在用來建置擴充應用程式和微服務的Omniverse Kit SDK中,加入新模板和開發者工作流程,簡化開發作業。(詳全文)
Google 文字轉圖像 Transformer
速度更快、畫面更細緻!Google發表新文字轉圖像模型Muse
Google日前發表一款文字轉圖像模型Muse,以Transformer架構為基礎,號稱產出速度更快、生成畫面更細緻,比擴散模型和自迴歸模型的表現還要好。進一步來說,Muse是以遮罩任務訓練而成,也就是先在大型語言預訓練模型中抽出文字嵌入,再訓練Muse來預測隨機被遮住的圖片Token。
與DALLE-2這類像素空間的模型相比,Muse因為用了離散token,只需少量採樣迭代,因此更有效率。與Parti這類自迴歸模型相比,Muse因為用了平行解碼,因此也更有效率。Google表示,由於採用預訓練大型語言模型,Muse的語言理解能力,以至於從文字轉換為高保真圖片的能力都更細緻,而且對視覺概念的理解力也更強。
團隊也進行測試,9億參數版本的Muse經CC3M資料集測試,達SOTA水準,且用來測量生成圖片和真實圖片相似度的FID分數,達6.06分(越低越相近)。而30億參數版本的Muse,在零樣本COCO資料集測試評估中,得到7.88的FID分數。此外,Muse不必微調模型,就能直接用於圖片編輯應用程式,像是圖片修復、圖片外擴/腦補、編輯等。(詳全文)
圖片來源/微軟、BigScience、Nvidia
AI近期新聞
1. Apple Books新添AI語音功能,電子書可轉為有聲讀物了
2. 前特斯拉AI長Andrej Karpathy開源nanoGPT可優化GPT模型開發
資料來源:iThome整理,2023年1月
熱門新聞
2025-01-26
2025-01-26
2025-01-24
2025-01-25
2025-01-24
2025-01-26