AWS機器學習服務Amazon SageMaker推出多個Operator以支援Kubernetes應用,可讓用戶在Kubernetes叢集部署SageMaker Operators,使其作為Kubernetes的自定義資源(Custom Resource),執行Amazon SageMaker機器學習模型訓練、調校和預測工作。目前這項服務在美東、美西和歐洲等地提供。

Amazon SageMake是一個模組化且全託管的機器學習服務,可讓資料科學家以及開發人員,快速地完成建置、訓練、部署和維護模型等工作。AWS提到,不少用戶會使用Kubernetes服務,來部署和管理容器化應用程式,像是資料科學家可以用來建立可重複的機器學習工作管線,並且更好地控制訓練和預測工作。

不過用戶要在Kubernetes叢集執行機器學習工作負載,有一些工作必須要自己來,需要編寫自訂程式碼,自己管理底層機器學習的基礎設施,以最佳化利用率,及確保高可用性和可靠性,同時還要遵守法規和安全性要求。

AWS舉例用戶可能面臨的情況,包括Kubernetes用戶使用GPU來進行模型訓練和預測時,開發者通常需要更改Kubernetes的調度以及GPU工作負載的擴展,以達到最高利用率與高吞吐量的目的。而且當要把訓練好的模型部署到生產環境中時,Kubernetes用戶需要花額外的時間,配置和最佳化跨多可用區域的叢集。

因此為了解決在Kubernetes上執行Amazon SageMake機器學習工作負載的障礙,AWS推出了Amazon SageMaker Operators,以此整合Amazon SageMaker和Kubernetes的使用。用戶在Kubernetes叢集上安裝SageMaker Operators,便能在Kubernetes中將Amazon SageMaker增加為自定義資源,在Amazon SageMaker中操作機器學習模型,目前AWS提供訓練、調校和預測3個Operators。

每個Kubernetes的SageMaker Operator都可讓用戶,透過Kubernetes API或像是kubectl等命令列工具,以原生的方式創建與操作工作負載,企業工程人員也可以直接使用這些Operators,在Kubernetes中為資料科學家建構自動化程式、工具以及自定義介面,而不需維護底層的機器學習基礎設施。

熱門新聞

Advertisement