![](https://s4.itho.me/sites/default/files/styles/picture_size_large/public/field/image/fireshot_capture_1101_-_deepspeed_extreme-scale_model_training_for_everyone_-_microsoft_res_-_www.microsoft.com_.jpg?itok=JYrs0vk2)
微軟更新了之前釋出的開源深度學習訓練最佳化函式庫DeepSpeed,該函式庫現在能夠使用新方法,訓練擁有數兆參數的機器學習模型,官方提到,DeepSpeed使用了被稱為3D平行技術的新方法,可以自動適應工作負載的需求,在平衡擴展效率的情況下,支援超大型模型。
在今年2月的時候,微軟釋出了DeepSpeed函式庫,並且介紹了該函式庫使用記憶體最佳化技術ZeRO,大幅改進大型模型訓練的規模、速度、成本和可用性,微軟使用DeepSpeed來訓練圖靈自然語言生成模型(Turing-NLG),當時發布的Turing-NLG,具有170億個參數和最高的準確性,為當時最大的語言模型。微軟在5月的時候,又發布了ZeRO-2技術,這項改進把模型訓練的參數規模,拉高到2,000億個,而且還能以極快的速度訓練語言模型BERT。
而現在,微軟又往前推進DeepSpeed的發展,添加了4項新技術,使得運算、記憶體以及通訊整體效率變得更好。這次的更新,包括微軟利用3D平行化技術,讓DeepSpeed能夠支援數十億到數兆參數的模型訓練,3D的意思也就是結合3種平行化方法,包括ZeRO資料平行化、工作管線平行化以及張量分割模型平行化。
微軟提到,透過3D平行化,DeepSpeed能夠適應各種工作負載的需求,支援超過一兆參數的超大型模型,並且達到幾乎完美的記憶體擴展,以及吞吐量擴展效率,另外,透過提高通訊效率,可以讓用戶在網路頻寬有限的叢集,以2到7倍的速度訓練數十億參數的模型。
在最新DeepSpeed版本,還能夠更好地支援單個GPU,只要一個GPU就能訓練上百億參數的模型。微軟擴充了ZeRO-2技術,使其同時能夠利用CPU和GPU記憶體來訓練大型模型,以擁有單個V100 GPU的電腦為例,DeepSpeed用戶能夠執行高達130億個參數的模型,而且不會把記憶體耗盡,這個可執行的模型參數量,是當前其他方法的10倍。
微軟提到,這些功能性擴展,將使得數十億參數模型的訓練更加普及,讓許多深度學習研究人員,能夠以更低的成本,訓練更大的模型。
熱門新聞
2025-02-08
2025-02-10
2025-02-08
2025-02-08
2025-02-08
2025-02-08
2025-02-10