GCP用戶現可在GKE上執行Cloud Dataproc的Spark工作負載

Google宣布用戶可在Kubernetes上執行Cloud Dataproc，也就是說，現在使用者可以利用GKE叢集執行Apache Spark工作負載，而這項更新將為企業簡化管理基礎設施的複雜性。

Cloud Dataproc是Google雲端上全託管的Apache Hadoop與Spark服務，Google提到，資料科學家可以使用Cloud Dataproc大規模地分析資料或是訓練模型，不過隨著企業基礎架構變得複雜，許多問題慢慢產生，像是部分機器可能處於閒置，但是某個工作負載叢集可能持續擴大，而開源軟體與函式庫也隨著時間過時且與堆疊不相容。

為了解決這些問題，Google現在讓Cloud Dataproc得以在K8s上運作，並為其提供了一個控制平臺，讓企業可以同時在公有雲和企業內環境，部署與管理在GKE上的Apache Spark工作負載。使用Cloud Dataproc的新功能，用戶就能以統一的集中檢視工具，跨K8s和YARN兩個叢集管理系統，操作混合工作負載。

而且新功能還隔離了開源軟體，消除傳統大資料技術對版本以及函式庫的相依性，讓使用者可以將模型和新的ETL工作管線，從開發階段直接轉移到生產階段，而不需要考量相容性，Google提到，使用K8s這樣的敏捷基礎架構，讓開源軟體升級更簡單。

Apache Spark是第一個放到K8s上Cloud Dataproc的開源資料處理引擎，而這項工作還會繼續擴及更多的開源專案，Google提到，Cloud Dataproc搬遷到K8s上，改變了他們將Cloud Dataproc和開源軟體作為託管服務的方式，他們會持續與其他開源社群合作，並為更多的開源專案啟用K8s上執行Cloud Dataproc功能。

熱門新聞