Google宣布推出Vertex Pipelines,供用戶建構機器學習工作管線,來加速機器學習工作流程。Vertex Pipelines為一個無伺服器服務,能夠執行由Kubeflow Pipelines(KFP)或TensorFlow Extended(TFX)開源函式庫所定義的工作管線。

Google解釋,要擴展機器學習工作流程最好的方式,是將工作流程以工作管線的方式運作,每個工作管線的步驟,都是機器學習過程的各個部分,工作管線能夠在企業中進行生產、共享,並且可靠地複製機器學習工作流程,Google認為,工作管線也是MLOps的關鍵,用戶可以建構系統來自動重新訓練和部署模型。

而機器學習工作管線便是將機器學習流程,封裝成一系列步驟,工作管線中的每一步驟都是一個容器,每一步的輸出都可作為下一步驟的輸入,但這樣的方法會出現兩個問題需要解決,第一是用戶需要將每個步驟轉換成為容器,第二則是需要配置基礎設施來大規模執行工作管線。

第一個問題可以使用開源函式庫解決,KFP和TFX可將工作管線步驟轉換成為容器,並且管理工作管線中的輸入和輸出,因此用戶可以使用KFP和TFX來定義工作管線,並在Vertex Pipelines上執行。另外,Vertex Pipelines是完全無伺服器服務,因此就能解決第二個問題,當用戶上傳執行KFP或TFX工作管線時,Vertex AI能夠處理配置和擴展基礎設施。

Vertex Pipelines、Vertex AI以及其他Google工具緊密整合,因此用戶的機器學習工作管線,可以從BigQuery匯入資料開始,使用Vertex AI訓練模型,接著在Cloud Storage儲存工作管線構件,最後獲取模型評估指標,並且將模型部署到Vertex AI端點,這些步驟都可以在Vertex Pipeline中配置。Google也創建了一個Vertex Pipelines預建置元件庫,這些元件將有助於簡化在工作管線中,執行Vertex AI其他部分的過程,像是創建資料集或是訓練AutoML模型。

Google提到,要藉由工作管線來產生每部分的輸出,需要有一種機制,跨工作管線執行創建指標和追蹤構件,當團隊中有多人參與開發和執行工作管線,或是對不同機器學習任務,管理多個工作管線時,這樣的機制會更加有用。而Google則透過整合Vertex Pipelines和Vertex ML的後設資料,來實現自動化構件和指標等追蹤,用戶在Vertex AI控制臺和Vertex AI SDK,都可以檢查工作管線後設資料。

熱門新聞

Advertisement