騰訊發表推論模型Hunyuan T1以與DeepSeek R1競爭

圖片來源:

騰訊

中國騰訊上周發表推論模型Hunyuan-T1（渾元-T1），以與境內競爭對手DeepSeek所推出的DeepSeek R1競爭，雙方在效能與價格上相當。根據南華早報的報導，Hunyuan-T1每輸入100萬個Token收費1元人民幣，每百萬個Token的輸出則是4元人民幣，至於DeepSeek R1則有區分白天與夜間的價格，白天每100萬個Token的輸入是1元，輸出是16元，但夜間分別降至0.25元與4元。

Hunyuan-T1是以騰訊今年3月發表的大型模型TurboS（快思聰）為基礎，再藉由大規模的後訓練，把96.7%的運算能力投入強化學習訓練，專注於提升推理能力，以期更符合人類的偏好。

TurboS是個結合Transformer與Mamba架構的混合模型，並採用專家混合（MoE）技術。其中，Transformer架構擅長捕捉脈落之間的關係，適合處理複雜的語言架構；Mamba則是基於結構化的狀態空間模型，可高效處理長序列資料，降低運算的複雜度；MoE則負責把資料分配給特定的專家模型，以提升推理速度並減少資源消耗。騰訊指出，Mamba優化了長序列的處理能力，在同樣的部署條件下，其解碼能力提升2倍。

騰訊比較了Hunyuan-T1、DeepSeek R1、GPT 4.5及o1在綜合知識的記憶與理解能力MMLU-PRO、專注於專業領域知識及複雜科學推理的GPQA-diamond、測試程式碼設計能力的LiveCodeBench、解決數學能力的MATH-500、指令遵循能力的ArenaHard，以及文化與創意等基本測試的表現，顯示Hunyuan-T1與其它競爭對手的表現相當，亦或有超越。

此外，Hunyuan-T1在內部人類評估資料集的表現亦與DeepSeek R1相當。

圖片來源／騰訊

熱門新聞