由馬斯克(Elon Musk)所創辦的AI新創xAI在本周二(8/13)釋出了Grok-2 測試版(Beta),包括Grok-2與Grok-2 mini,新版支援圖像生成能力,並已可供X平臺上的訂閱用戶使用。Grok-2在LMSYS平臺上的測試結果優於Claude 3.5 Sonnet及GPT-4-Turbo,不過,許多已開始試用Grok-2的使用者發現,該版本的安全護欄並不牢靠,允許他們生成許多不當內容,例如生成美國總統候選人川普(Donald Trump)拿著兩把槍開火的畫面

xAI曾經以sus-column-r為名在盲測的LMSYS聊天機器人平臺上進行測試,在1.2萬名社群成員的投票中,它取得了第三名,排名僅次於ChatGPT-4o的最新版、Gimini-1.5 Pro,並與今年5月出爐的GPT-4o相當。且其表現優於Claude 3.5 Sonnet與GPT-4。

圖片來源/Large Model Systems Organization

xAI也採用一系列的學術基準來評估Grok-2,發現Grok-2與Grok-2 mini明顯優於Grok-1.5,在研究生水準科學知識(GPQA)、常識(MMLU、MMLU-Pro)及數學競賽問題(MATH)等領域可與GPT-4 Turbo、Claude 3 Opus及Gemini Pro 1.5等模型比美,並在視覺數學推理(MathVista)及基於文件的問題(DocVQA) 上提供了最先進的性能。

付費的X Premium與Premium+用戶可率先存取Grok-2與Grok-2 mini。xAI表示,Grok-2在各種任務上都更為直覺,也更通用及更容易操作,亦整合來自X平臺上的即時資訊,而Grok-2 mini為一精簡版模型,以於速度及品質間取得平衡。xAI亦計畫於8月透過新的企業API平臺釋出Grok-2與Grok-2 mini。

不過,已經有人發現Grok-2圖像生成功能的安全護欄不太牢靠,例如AI開發人員Benjamin De Kraker不僅利用Grok-2生成了拿著兩把槍的川普, 也用它生成正在吸毒的美國前總統布希(George Bush)。

The Verge的測試則發現,即使Grok-2承諾它具備安全護欄,可避免生成色情、暴力、仇恨或危險圖片,但事實上它並未拒絕許多涉及暴力、吸毒或名人裸露的圖像生成要求。不過,缺乏護欄的圖像生成模型並不只Grok-2,開源的Stable Diffusion對於危險內容的生成也幾乎毫無防備。

熱門新聞

Advertisement