LSTM發明者之一的德國電腦科學家Sepp Hochreiter最近發表一款新LLM架構:xLSTM,改善了LSTM原本的記憶體和無法平行化等問題,提高運算效率,媲美以Transformer架構為基礎的語言模型。

圖片來源: 

Sepp Hochreiter

重點新聞(0503~0509)

LLM     xLSTM     Transformer  

取代Transformer?LSTM之父發表新LLM架構

長短期記憶(LSTM)網路是一種熱門的類神經網路架構,由德國和瑞士的電腦科學家Sepp Hochreiter、Jürgen Schmidhuber共同在1997年提出,可用來解決遞迴歸類神經網路(RNN)在長期記憶力不足的問題。但最近,Sepp Hochreiter提出一種新架構xLSTM(即Extended LSTM),可解決LSTM長久以來的主要痛點,也就是只能按時序處理、無法像Transformer一樣,同時處理所有資訊。進一步來說,與Transformer相比,LSTM的儲存能力有限,也無法平行化有效率地運算,不如Transformer可平行化同時處理所有Token。

因此,為解決這些問題,Sepp Hochreiter在新的xLSTM架構中,採用了指數型閘門(Gating)方法,同時修改了記憶體結構,包括導入sLSTM和mLSTM,前者帶有純量記憶體和新的記憶體混合方法,後者則帶有矩陣記憶體和更新規則,可完全執行平行化,也就類似Transformer可同時對所有Token處理。這些設計,讓xLSTM在處理新資料時能更有效率運用記憶體,但雖然sLSTM增強了狀態追蹤能力,卻也延長了模型訓練和推理時間。經測試,團隊用150億個Token訓練以Transformer架構為基礎的LLM、RWKV和xLSTM,評估時發現xLSTM表現最好,尤其是在語言建模方面。此外他們也發現,xLSTM架構遵循與Transformer LLM類似的擴展法則。(詳全文)

DeepMind     分子結構     AlphaFold 3  

不只是蛋白質結構,DeepMind發表可預測所有生命分子結構的AlphaFold 3模型

Alphabet旗下AI研究公司DeepMind與新藥開發公司Isomorphic Labs聯手發表AlphaFold 3模型,可用來預測所有生命分子的結構與相互作用,而且在預測蛋白質與其它分子類型的相互作用上,準確率比PoseBusters基準測設中最好的傳統方法高出50%。

進一步來說,DeepMind在2020年發表的AlphaFold 2主要提供蛋白質結構預測,迄今全球已有數百萬名研究人員利用AlphaFold 2來發現瘧疾疫苗或癌症治療方法。而最新的AlphaFold 3模型也以AlphaFold 2為基礎,只是將預測能力,從蛋白質擴大到廣泛的生物分子,能用來加速開發生物可再生材料、藥物設計和基因研究等。該研究已登上《自然》科學期刊。

同時,DeepMind也推出免費但只限於研究用途的AlphaFold Server平臺,可用來預測蛋白質如何與細胞中的其它眾多分子相互作用,每個任務最多支援5,000個Token,每天最多只能執行10個任務。(詳全文)

  Llama 3     TAIDE     生成式AI  

國科會揭TAIDE計畫最新成果

去年2月,國科會宣示將結合臺灣在地文化推出本地的LLM模型,並集結國內產學研資源推動可信任AI對話引擎(TAIDE)計畫。今年5月初,國科會進一步展示TAIDE最新進展,包括今年4月中釋出的模型TAIDE LX-7B,有商用版和學研用版本,另也釋出130億參數的模型TAIDE LX-13B,這些模型在摘要、寫信、寫文章、英翻中、中翻英等都有不錯的表現,並具備多輪對話、阻絕不恰當回應的能力。

同時,Meta在4月中釋出Llama 3,國科會團隊也花4天就快速更新版本,打造Llama 3-TAIDE-LX-8B-Chat-Alpha 1測試版,並於4月29日在Hugging Face釋出。計畫負責人李育杰表示,為讓全民都能使用TAIDE,團隊壓縮TAIDE 7B模型,現在模型已可在手機、筆電、平板電腦、桌機上執行。

目前也有不少團隊用TAIDE打造不同應用,比如陽明交大以ChatGPT和TAIDE開發一套台客語對話平臺,能以語音對話,電腦可以華台客英語,以聽說讀寫翻譯或是回覆對話。高雄大學也打造一款Kuwa GenAI OS(下圖),為本土開發的開源碼生成式AI應用平臺,搭載TAIDE模型,強調可讓個人或企業在地端執行TAIDE生成式AI應用服務。其他還有中興大學以農業知識庫開發的神農TAIDE、工研院電光所的鋼鐵產業問答助理、叡揚資訊的生成式AI公文生成系統。(詳全文)

  開發助理    甲骨文      程式碼  

甲骨文也推出AI開發助理了

繼微軟、Google、OpenAI、GitHub等科技龍頭推出AI開發助理後,甲骨文也加入這個行列,最近推出了程式開發助理Oracle Code Assist,能幫助使用者開發Java程式。

Oracle Code Assist是以甲骨文雲端Oracle Cloud Infrastructure(OCI)模型為底層,為Java、SQL程式和OCI上的應用開發來優化。甲骨文強調,這個開發助理以多種軟體程式庫訓練而成,也透過自家軟體應用微調而成,使用者可以自然語言互動,開發助理可處理程式碼生成、產生API文件、註解或評論等功能,還能提供重點解釋,幫助開發人員了解開發原理、檢視或重新組織現有程式碼。它也能提供修改建議,或產生pull request來將程式碼變更,合併到軟體程式庫中。使用者還能透過這個助理,來建立單元或功能測試。

甲骨文表示,Oracle Code Assist還有些進階功能,如可整合企業程式碼框架、函式庫等來提供客製化建議,另也能檢查自己產生的程式碼,以免用到不當授權的程式碼,或是將程式碼以新版函式庫更新。它也能根據企業軟體開發的最佳實作,來檢查程式錯誤和效率低落之處。(詳全文)

  AI開發     Red Hat     Granite  

Red Hat推出AI平臺,內建IBM開源Granite模型

又有一款生成式AI開發平臺可選擇了,Red Hat日前發表一款AI平臺Red Hat Enterprise Linux AI(RHEL AI),企業用戶可用來在混合雲環境開發、測試和部署生成式AI模型。RHEL AI是Red Hat首個基礎架構模型平臺,內建IBM研究院開源的大型語言模型(LLM)Granite和其他開發工具。IBM表示,整個解決方案將打包成一個RHEL映像檔,可用於混合雲上部署單一伺服器,此外,RHEL也會整合到混合雲MLOps平臺OpenShift AI中。

Granite是IBM研究院開發的旗艦級LLM,去年9月正式發布,包含4個版本,可用於AI助理、財務應用、多語言翻譯(英、西、葡、德、法文)等應用,另也有日文專用版本。而RHEL AI內建的是Granite 70億參數模型,以Llama 2-7B為基礎,用2兆Token資料集訓練而成,可支援4,000個Token的文長。除了Granite模型,該平臺還包含IBM研究院打造的模型訓練方法與工具,也就是Large-scale Alignment for chatBots(LAB),可減少人員標註成本、降低模型開發門檻,也能提供大量生成資料,來加速模型的訓練與優化。(詳全文)

  Stack Overflow     OpenAI     AI助理  

熱門開發者論壇Stack Overflow聯手OpenAI,將優化Chatbot功能

開發者論壇Stack Overflow在5月7日宣布與OpenAI簽署合作協議,允許OpenAI用該平臺內容來訓練大型語言模型,而Stack Overflow也將利用OpenAI模型來強化自家的AI服務OverflowAI。Stack Overflow是個熱門的開發者論壇,開發者可在平臺上透過QA來解決各種疑難雜症。在ChatGPT剛問世時,Stack Overflow曾因擔心而一度封鎖GenAI內容,但隨著GenAI品質的改善,Stack Overflow先在今年3月宣布與Google合作,讓Gemini得以透過OverflowAPI存取知識庫,在開發人員呼叫Gemini時提供開發建議、程式碼及回答問題。

日前Stack Overflow與OpenAI的合作同樣能讓OpenAI存取OverflowAPI,也允許OpenAI藉Stack Overflow社群提供的內容來改善OpenAI模型,並會在ChatGPT中將特定內容標註來自Stack Overflow。OpenAI和Stack Overflow的首批合作功能預計在今年6月前推出,意味著ChatGPT將可提供來自Stack Overflow且經驗證的技術知識。(詳全文)

  AI晶片     M4     蘋果  

蘋果發表最新AI晶片

在今年年會展開前,蘋果發表新一代M4晶片,並更新iPad產品線,推出首個採用M4晶片的iPad Pro和採用M2晶片的iPad Air。M系列是蘋果自行設計的晶片,去年10月才發表M3,不到一年就推出M4,這個M4採台積電3奈米製程,由280億個電晶體組成,搭載最多10核心的CPU,包括4個效能核心與6個節能核心,兩者都具備強化的新一代機器學習(ML)加速器。而同樣搭載最高10核心的GPU則支援動態快取功能,可提高GPU的平均利用率。

蘋果指出,M4擁有飛快的神經網路引擎(Neural Engine),這是專門用來加速AI任務的IP區塊,每秒可執行38兆次的運算,是A11 Bionic晶片的60倍快,再搭配CPU的ML加速器、高效能的GPU,以及更高頻寬的統一記憶體,讓M4成為超強AI晶片。這個特性,讓搭載M4晶片的iPad Pro,成為可支援AI運算的裝置,例如在Final Cut Pro中輕點一下,就能輕鬆地分離4K影片中的主體及背景。(詳全文)

圖片來源/Sepp Hochreiter、DeepMind、蘋果

攝影/蘇文彬  

  AI近期新聞 

1. AWS生成式AI開發助理Amazon Q正式可用

2. Google Cloud推出AI安全方案,整合Gemini、Mandiant和VirusTotal技術

3. MongoDB推出一站式企業GAI應用開發工具方案

資料來源:iThome整理,2024年5月

熱門新聞

Advertisement