
全新大型語言模型Gemini Diffusion,是Google首次將擴散式(Diffusion-based)生成機制應用於人工智慧文字生成領域的實驗性產品。不同於現有多數以自我迴歸(Autoregressive)架構、逐字生成的語言模型,Gemini Diffusion導入擴散模型概念,強調可同時生成多個Token,並能於生成過程中持續修正內容,有效提升效率與品質。
根據Google說明,傳統大型語言模型如Gemini 2.0及OpenAI GPT系列,均以自我迴歸方式運作,每次依據前序Token預測下一個Token,直至完成整段文字。這種逐步生成機制雖在語言理解與產出已具成熟應用,但在長文本、多輪互動或需快速產生內容的情境,易受生成速度與一致性限制,也可能有錯誤累積等問題。
Gemini Diffusion的技術基礎,來自近年影像生成領域廣泛採用的擴散式生成模型,如Stable Diffusion等,這些模型證明擴散式生成方法具備良好的資料復原與生成效能。Gemini Diffusion將此機制導入文字生成,據現有資訊,模型主要以高比例遮罩(Mask)或近似雜訊的Token序列為起點,經多輪反覆修正,逐步復原出品質與一致性兼具的文字內容。
Google公開的內部基準測試顯示,Gemini Diffusion在部分文字生成任務的運算速度有著明顯提升,官方資料最高平均達每秒1,479 Token,明顯高於Gemini 2.0 Flash-Lite等傳統模型。在程式碼、數學及科學等基準測試,Gemini Diffusion也展現出高速與內容一致性的潛力,模型在生成過程會自動修正錯誤,有助於長文本、結構化資料與程式碼片段等需高一致性的應用情境。
針對Gemini Diffusion的體驗,知名框架Django專案共同創辦人Simon Willison於個人部落格分享測試體驗,他測試Gemini Diffusion後認為模型生成速度顯著提升,並認為Google所宣稱的速度毫不誇張。Simon Willison引用Google資料表示,Gemini Diffusion可在維持類似品質下,達到Gemini 2.0 Flash-Lite模型5倍的生成速度,他以建置模擬聊天應用程式為測試,Gemini Diffusion僅需數秒即可產生互動式HTML及JavaScript頁面。
Gemini Diffusion目前仍屬實驗性產品,Google現開放有興趣的開發者申請候補名單參與測試。
熱門新聞
2025-06-18
2025-06-17
2025-06-16
2025-06-18
2025-06-16
2025-06-17