螢幕截圖
重點新聞(0127~0202)
本周生成式AI仍占據鎂光燈焦點,德國馬克斯普朗克研究院(Max Planck Institutes)發表文字轉音樂模型Moûsai,可生成數分鐘且48kHz高解析度的音樂,而Google也推出一款音樂生成模型MusicLM,不只能文字轉音樂,輸入一張圖和標題甚至是一段旋律,也能產出音樂。而文字轉圖像的生成式AI遍地開花,如微軟加碼與OpenAI合作、Shutterstock正式推出AI圖像生成工具,但也有不少版權或抄襲問題出現,如Getty Images告Stability AI侵權,坊間也有專門揪出ChatGPT產出的工具GPTZeroX上線。另一方面,AI權威吳恩達聯手專家推出機器學習入門數學課,用互動式視覺化設計讓新手快速理解演算法原理。
Max Planck 文字轉音樂 48kHz
德普朗克研究院亮相48kHz高解析度音樂生成模型,單一消費級GPU就能跑
德國Max Planck研究院最近發布一項研究成果Moûsai,該模型能根據文字輸入,來合成48kHz高解析度的音樂。而且,有別於一般文字轉音樂模型、幾乎只能生成數秒音樂,Moûsai產出的音樂長達數分鐘,也能合成人聲歌曲,只是咬字未必準確。團隊想出一種有效率的合成方法,來即時生成不同風格的音樂,他們的Moûsai由2個擴散模型組成,首先是擴散級度自動編碼器(DMAE),用來壓縮音樂波形,將其縮小為64分之一,並保有近乎相同的品質。再來是潛在文字轉音檔擴散模型,團隊用擴散模型產生一個新的潛在空間,同時也調適從Transformer語言模型得到的文字嵌入。
特別的是,團隊對這2個模型採用相同的1D U-Net架構,只有配置不同。如此一來,Moûsai可在單一個消費級GPU上執行,不耗費大量運算資源。Moûsai由2,500小時的音樂訓練而成,團隊表示,未來將增加訓練音樂時數至5萬至10萬小時,讓模型生成更多樣、更符合文字描述的音樂。同時,他們也提供樣本音樂和開源程式碼,來加速相關研究。(詳全文)
Google 音樂生成 高保真
Google新模型能根據圖文產出高保真音樂
近來生成AI在文字轉圖像領域大放異彩,不過,Google日前開發一款生成式模型MusicLM,用28萬小時的音樂訓練而成,可將文字轉換為音樂,使用者輸入文字提示就能得出數秒至5分鐘的24kHz曲子,甚至輸入一張圖和文字標題,或一段旋律,也能生成音樂。
這不是第一款文字轉音樂AI,先前,OpenAI就發表過Jukebox模型,Google自己也曾推出AudioML,但這次的MusicLM表現更好,能產出的音樂複雜度與保真度也比其他模型高,比如模型能根據「在平靜的小提琴旋律中加入重複的破音吉他段落作為背景」這句描述,產出相應的音樂,還能生成特定樂器的演奏曲,或將不同風格的音樂片段組合成數分鐘的樂曲,甚至也能合成人聲合唱,就像是音樂界的ChatGPT。不過,人聲合唱部分並非完美,偶爾出現胡言亂語。
在架構上,MusicLM用3個模型來抽取音檔表徵,以便後續進行條件式自迴歸音樂生成。首先,團隊利用SoundStream模型的自監督音檔表徵,作為聲學Token,來用於高保真音樂合成。接著,他們用w2v-BERT模型作為中間層,來確保生成音樂的長期一致性,而MuLan模型則用來提取目標音檔表徵。為讓這些模型產生的離散音檔與AudioLM模型整合,來實現文字-音樂生成,團隊提出階層式序列到序列建模任務,每個階段都由一個獨立的Transformer解碼器模型來自迴歸建模。經測試,MusicLM表現比其他基準模型如Mubert、Riffusion要好,團隊也釋出含有5,500組音樂-文字的資料集,來加速未來研究。(詳全文)
吳恩達 數學 機器學習
AI權威吳恩達聯手專家推出ML新手數學課
最近,AI教育專家Luis Serrano和吳恩達、Magdalena Bouza、Elena Sanina等人聯手推出機器學習入門數學課,聚焦AI中重要的數學概念,這門課已在教育學習平臺Coursera上線,使用者可免費註冊。
吳恩達表示,理解線性代數、機率、微積分、統計等概念,有助於學員更好理解演算法如何運作。這一系列的數學課,搭配互動式視覺化設計,能幫助學員理解數學概念,「學數學不是要背公式,而是強化直覺,」他強調。學員修完課程後,能以向量、矩陣來呈現數據,也能將特徵值和特徵向量概念用於機器學習問題,優化不同類型的函數。(詳全文)
ChatGPT GPTZerXX 語言模型
抓弊神器正式上線,GPTZeroX專揪AI生成文章連ChatGPT都能分辨
就讀普林斯頓大學的2位開發者Edward Tian和Sreejan Kumar近日正式推出GPTZeroX工具,可用來分辨文章是否為ChatGPT這類大型語言模型產出。進一步來說,使用者將文章段落複製貼上或上傳至GPTZeroX應用程式,就能得出分析結果,系統會將可能是AI模型產出的段落,用黃底標註出來。GPTZeroX還支援批量處理,一次可辨識多個上傳檔案,包括PDF、.txt、Word格式都可以。
這套模型以兩人去年推出的GPTZero模型為基礎,利用使用者給予的回饋來重新訓練模型,改善模型對特殊用例的辨識力。Edward Tian表示,新模型採用AWS Lambda無伺服器運算服務,有GPU加速,因此執行速度比以前更快。他們也寫了一個Python API,來供需要大量辨識的企業使用。不過,國外使用者測試反應,GPTZeroX雖能辨識ChatGPT產出的文章,但有時容易出現故障。(詳全文)
微軟 OpenAI 超級運算
微軟再加碼數十億美元!擴大OpenAI合作要加速AI商業化
微軟日前與OpenAI展開第三階段合作,投入數十億美元,持續擴AI超級運算、模型開發和雲端服務,要加速AI技術商業化。目前,微軟Azure雲平臺有多個超級運算系統,用來執行OpenAI開發的模型訓練和推理工作負載,OpenAI也將繼續用Azure超級運算系統,來開發、訓練所有模型。微軟增加這些系統的投資,來加速OpenAI的獨立研究,Azure也將繼續成為OpenAI在研究、API和產品上的獨家雲端供應商。
微軟將持續在自家產品大量採用OpenAI模型,也會擴大GitHub Copilot和微軟Designer應用程式對OpenAI技術的採用。開發者除了可從OpenAI的API服務取用模型外,也將能繼續從微軟Azure OpenAI服務存取GPT、DALL-E和Codex等模型。(詳全文)
NIST 風險管理 負責任AI
NIST發布AI風險管理框架,企業擁抱新技術可參考
為降低企業、組織擁抱AI的潛在風險,美國國家標準暨技術研究院(NIST)最近發布第一版AI風險管理框架(AI RMF),是一套針對AI系統的設計、開發、部署和使用的指南,來降低應用AI技術的風險。
該框架是美國國會指示NIST設計,NIST指出,AI RMF框架是由NIST與公部門和企業合作制定,可分為兩部分,首先是AI相關風險與可信賴AI系統的特徵,再來是描述4大具體功能,分別為治理、映射、測量管理,協助組織實踐框架。同時,NIST也發布AI RMF Playbook,從中指導企業、組織使用該框架,他們揭露,接下來將與AI社群合作並定期更新框架,還要成立可靠、負責任AI資源中心,協助組織實踐AI RMF 1.0。(詳全文)
Shutterstock 圖像生成 生成式AI
大型圖庫業者Shutterstock正式推出AI圖像生成工具了
擁有百萬名投稿人的圖庫業者Shutterstock宣布,自家AI圖像生成工具正式上線,使用者可用Shutterstock工具包Creative Flow,來給出文字提示、產生4個圖像。甚至,這個提示可以是一個單字,使用者也能指定生成的圖像類型。業者預告,接下來將新添智慧編輯功能,來產出更多種長寬比、更高解析度,提供動態圖像生成功能。
Shutterstock表示,自家AI圖像生成工具的特色是,用戶不必編寫複雜的提示就能獲得良好的結果,特別是,Shutterstock用風格多元、對來源負責的數百萬個視覺圖像作品,並以AI生成圖像的授權收入,補償相關的已知貢獻者,實現Shutterstock對AI負責的承諾。這是繼Adobe之後,另一家制定AI圖像生成授權規範的業者。(詳全文)
Getty Images Stability AI 侵權
生成式AI難題,Getty Images告Stability AI侵權
2022年以來,生成式AI風生水起,各大科技龍頭和新創紛紛打造文字轉圖像AI,不少藝術業者也自行開發或採用這類工具,但也引起侵權問題。Stable Diffusion是知名深度學習圖像生成模型,由AI繪圖工具業者Stability AI開發,可根據使用者輸入的文字產出圖像。
該模型與DALL-E 2、Midjourney、DreamUp等生成式AI模型一樣,須以大量圖片訓練,這些資料集大都來自網路或公開圖庫,引起圖像創作者或圖庫業者不滿。知名圖庫業者Getty Images日前就控告Stability AI未經同意,就以其網站數百萬張圖片訓練AI模型,還用於營利,對其版權造成侵害。(詳全文)
圖片來源/Max Planck Institutes、DeepLearning.AI、GPTZero、Shutterstock
AI近期新聞
1. Shutterstock聯手LG AI研究院,要發展文字轉圖像生成式AI
資料來源:iThome整理,2023年2月
熱門新聞
2024-09-16
2024-09-17
2024-09-16
2024-09-13
2024-09-16
2024-09-16
2024-09-16
2024-09-16