Google研究院發表了一項稱為Titans模型架構的突破性研究,整合了短期記憶、長期記憶與注意力機制,突破現有生成式人工智慧上下文處理瓶頸,支援超過200萬Token的上下文長度,對語言建模與長序列生成任務帶來顯著改進。 Google計畫將Titans的相關技術開源,這將加速長上下文生成技術在學術與產業領域的發展,並推動相關應用的創新。

目前生成式人工智慧模型,例如Transformer及其衍生模型,雖然在多數應用領域表現出色,但其上下文窗口(Window)長度的限制,通常僅為幾千到幾萬個Token,這使其在處理長文本、多輪對話或需要大規模上下文記憶的應用中,可能無法保持語意連貫性與資訊準確性。Google的Titans架構透過引入深度神經長期記憶模組(Neural Long-Term Memory Module),有效解決了這個挑戰,能在更長的上下文中保持高效且精確的推理能力。

研究團隊表示Titans的設計靈感來自於人類記憶系統,結合短期記憶的快速回應與長期記憶的持久特性,並透過注意力機制專注於當前上下文。傳統Transformer模型因為需要計算所有Token之間的配對相關性,所以計算成本隨上下文長度平方增加,而Titans則藉由深層化與非線性化的記憶模組設計,以及遺忘機制等技術,大幅提升記憶管理效率。

Titans具有三種架構設計變體,分別是Memory as a Context(MAC)、Memory as a Gate(MAG)和Memory as a Layer(MAL),針對不同的任務需求來整合短期與長期記憶。MAC將長期記憶作為上下文的一部分,讓注意力機制能夠動態結合歷史資訊與當前資料,適合需要處理詳細歷史上下文的任務。而MAG則會根據任務需求,調整即時資料與歷史資訊的重要性比例,專注於當前最相關的資訊。

MAL則是將記憶模組設計為深度網路的一層,壓縮過去與當前上下文,然後交由注意力模組處理,具備較高效率,但整體表現可能略受限制。與傳統Transformers相比,Titans結合了多層次記憶模組與動態記憶更新能力,不僅突破了上下文長度的限制,還能在測試階段持續學習,顯著提升推理能力與適應性。

在語言建模、常識推論、時間序列分析及基因資料建模等多個領域,Titans展示遠超過現有基準模型的性能,特別是在超長序列處理方面的表現。在實驗中,Titans架構在長序列處理任務中的表現,明顯優於現有模型。無論是語言建模還是時間序列預測,Titans在準確性與效率都展現了壓倒性優勢,甚至在部分場景中超越如GPT-4等具有數十倍參數的超大型生成式模型。

除了Google在生成式人工智慧長上下文的研究突破之外,中國人工智慧公司MiniMax推出的MiniMax-01系列模型,也主打其超長上下文處理和多模態理解能力,其最新的MiniMax-Text-01模型支援長達400萬Token的上下文處理能力。

熱門新聞

Advertisement