Meta
Meta周二(7/23)開源了Llama 3.1 405B,它具備4,050億個參數,脈絡長度達12.8萬個Token,支援8種語言,這是Meta迄今所開發的最大模型,亦號稱是全球第一個達頂尖水準的開源模型,也是全球最大也最有能力的公開基礎模型。Meta創辦人暨執行長祖克柏(Mark Zuckerberg)還特別撰文強調開源AI的重要性,認為開源才是AI的未來。
有別於在Llama 3時,Meta僅釋出了Llama 3 8B、Llama 3 8B Instruct、Llama 3 70B與Llama 3 70B Instruct,進展到Llama 3.1時,Meta釋出了Llama 3.1 8B、Llama 3.1 8B Instruct、Llama 3.1 70B與Llama 3.1 70B Instruct,以及擁有4,050億個參數的兩個大模型Llama 3.1 405B與Llama 3.1 405B Instruct。此外,相較於Llama 3最初只支援8,000個Token的脈絡長度,Llama 3.1一下就支援12.8萬個Token。目前開發者已可透過llama.meta.com及Hugging Face下載Llama 3.1的各種模型。
身為Meta迄今開發的最大模型,Llama 3.1 405B是在逾15兆個Token上進行訓練,為了要在合理的時間內獲得結果,Meta優化了整個訓練堆棧,使用了超過1.6萬個H100 GPU。
既然標榜為具備頂尖實力的開源模型,Meta用來比較Llama 3.1 405B的對象就是現在市場上最頂級的GPT-4、GPT-4o與Claude 3.5 Sonnet等封閉模型,以及Nvidia於日前開源的Nemotron-4 340B,而且使用超過150個涵蓋不同語言的基準資料集進行測試。
圖片來源/Meta
結果顯示Llama 3.1 405B在通用的IFEval、數學上的GSM8K、推論的ARC Challenge、工具使用的Nexus、長脈絡的ZeroSCROLLS/QuALITY及InfiniteBench/En.MC及多語言的Multilingual MGSM基準測試上,凌駕上述所有模型。
Meta也比較了Llama 3.1 8B、Gemma 2 9B IT與Mistral 7B Instruct,以及Llama 3.1 70B、Mixtral 8x22B Instruct與GPT 3.5 Tubo,發現不管是Llama 3.1 8B及Llama 3.1 70B,在許多基準測試上都超越競爭模型。
圖片來源/Meta
而在人類專家的評估中,Llama 3.1 405B與GPT-4-0125、Claude 3.5 Sonnet的表現不相上下,但明顯不及GPT-4o。
圖片來源/Meta
祖克柏:開源才是AI的未來
祖克柏認為,AI應該以Unix及Linux的發展作為借鏡。Unix作業系統的封閉政策讓基於Unix的開源Linux興起,儘管Unix現今仍在某些專業領域或高性能環境中保持重要地位,但開源的Linux卻開枝散葉,帶來多元的發行版本,現在不僅已成為全球伺服器的主作業系統,亦與時俱進地支援雲端運算與虛擬化技術,並成為嵌入式系統及物聯網裝置的首選平臺。
祖克柏相信AI也會以類似的方式發展。指出雖然目前有幾家業者開發了領先的封閉模型,但開源模型正在迅速縮小差距。去年的Llama 2僅能與尖端模型的舊版相提並論,今年的Llama 3便能與最新的尖端模型競爭,自明年開始,未來的Llama將成為業者最先進的模型,而在實現此一目標之前,Llama已經在開放性、變更能力及成本效益上領先群倫。
相較於封閉性模型,Llama 3.1家族除了具備更好的成本與性能之外,Llama 3.1 405B模型的開放性,也讓它成為微調及蒸餾出小模型的最好選擇。
Meta的終極目標是讓Llama如同Linux一樣成為業界標準,因此已與多家業者合作以發展更完善的生態體系,包括Amazon、Databricks、Nvidia與Groq。Databricks已支援開發人員微調及蒸餾自己的模型,Groq則替所有新模型提供低延遲與低成本的推論服務,而各種雲端服務已準備要協助企業採用Llama並使用自家資料訓練自定義模型。
開源模型的好處之一是讓企業得以根據需求、利用自家敏感資料來建置模型,而不受封閉模型供應商的箝制,其次則是在自家基礎設施上以Llama 3.1 405B進行推論,成本只有使用GPT-4o等封閉模型的50%。
祖克柏強調,出售AI模型的存取權並非Meta的商業模式,因此,將Llama開源不會削弱Meta的營收、可持續性或投資研究的能力,他也相信開源將讓AI模型變得更安全,在應對中國威脅時,相較於封閉所帶來的限制,最好的策略是建立一個強大的開放生態體系,並讓領先業者與政府及盟友密切合作,以確保可利用最新的進步,實現長期且可持續的先發優勢。
熱門新聞
2024-11-18
2024-11-12
2024-11-20
2024-11-19
2024-11-15
2024-11-15