甫於2023年4月才創立的Mistral AI於本周一(2/26)發表了大型語言模型Mistral Large,以及聊天機器人Le Chat預覽版。同一天微軟亦宣布與Mistral AI建立新的合作夥伴關係。Mistral Large不管是在MMLU、HellaSwag、Wino Grande或Arc Challenge (25-shot)的基準測試上,都緊跟OpenAI GPT 4之後,是備受外界矚目的後起之秀。
創辦團隊系出名門,分別來自DeepMind與Meta
Mistral AI創立於法國巴黎,共同創辦人之一的Arthur Mensch曾任職於Google的AI實驗室DeepMind,另外兩名創辦人Guillaume Lample與Timothée Lacroix則都曾是Meta的AI研究人員。Mensch現為Mistral AI執行長,Lacroix則擔任技術長一職。
成立不到一年的Mistral AI去年9月就發表了具備73億個參數的Mistral 7B(Mistral-tiny)模型,同年12月發表了Mixtral 8x7B(Mistral-small)模型,並推出La Plateforme平臺服務。這時,才8個月大的Mistral AI估值便已超過20億美元。
此外,Mistral AI推崇開源,因意識到生成式AI將在未來幾年徹底重新定義人們的文化與生活,改變人們與機器及同儕互動的方式,認為生成式AI的開放是必要的,因為有社群支持的模型開發,才是對抗審查及偏見最可靠的途徑。
Mistral Large及Le Chat成為La Plateforme的新成員
目前La Plateforme上已提供Mistral-tiny、Mistral-small與Mistral-medium,本周發表的Mistral Large則是最進階與最大的模型,它支援3.2萬個Token的脈絡,以及英文、法文、西班牙文、德文與義大利文,宣稱對這些語文的文法及文化背景都有著細緻的理解能力。Mistral Large也具備精確的指令遵循,讓開發者得以設計其審核策略,也可直接呼叫函數。
Mistral AI聲稱Mistral Large提供一流的推論能力,可支援複雜且多語言的推論任務,包括文字理解、轉換與程式碼生成。
Mistral Large在許多常用基準測試中緊追OpenAI GPT 4,例如用來測量大規模多任務語言理解的MMLU測試中,Mistral Large取得81.2%的成績,僅次於GPT 4的86.4%,但凌駕了Anthropic Claude 2的78.5%,Gemini Pro 1.0的71.8%,GPT 3.5的70.0%,以及Meta LLaMA 2 70B的69.9%。
除了MMLU測試外,Mistral Large在HellaSwag、Wino Grande與Arc Challenge(25-shot)等基準測試中,也都僅次於GPT 4,而優於上述的其它模型。
至於Le Chat則是個基於Mistral模型的聊天機器人,它可能奠基在Mistral Large 、Mistral Small或是被命名為Mistral Next的原型機模型上。Mistral AI表示會致力於讓這些模型更有用且儘可能地不固執己見,另也針對企業推出le Chat Enterprise,透過自我部署能力與更細緻的審核機制來提高團隊的生產力。
未來開發者將可透過La Plateforme或Azure來存取Mistral Large,另也開放使用者登記以試用Le Chat。
與微軟建立多年合作夥伴關係
微軟則在同一天宣布,已與Mistral AI建立多年的合作夥伴關係,雙方的合作包括Mistral AI將可利用Azure的AI基礎設施以加速開發及部署新一代的大型語言模型,此外,Microsoft Azure也將供應Mistral AI的付費模型服務。迄今Azure上已代管了來自 Meta、Nvidia、Deci 與 Hugging Face等公司或組織的1,600多個開源及專有模型。
不過,Mistral AI將是Azure平臺上,除了OpenAI之外的第二個商用大型語言模型。
根據《金融時報》(Financial Times)的報導,微軟其實有注資Mistral AI,只是金額不明,且微軟並未取得Mistral AI的股份。微軟總裁Brad Smith則向該報透露,雙方的合作還牽涉到將共同研發及建置適用於歐洲政府組織的AI應用,以利用這些AI模型來解決公部門的具體需求。
圖片來源/Mistral AI、微軟
熱門新聞
2024-12-24
2024-12-22
2024-08-14
2024-12-20
2024-12-23