Google宣布用戶可在Kubernetes上執行Cloud Dataproc,也就是說,現在使用者可以利用GKE叢集執行Apache Spark工作負載,而這項更新將為企業簡化管理基礎設施的複雜性。

Cloud Dataproc是Google雲端上全託管的Apache Hadoop與Spark服務,Google提到,資料科學家可以使用Cloud Dataproc大規模地分析資料或是訓練模型,不過隨著企業基礎架構變得複雜,許多問題慢慢產生,像是部分機器可能處於閒置,但是某個工作負載叢集可能持續擴大,而開源軟體與函式庫也隨著時間過時且與堆疊不相容。

為了解決這些問題,Google現在讓Cloud Dataproc得以在K8s上運作,並為其提供了一個控制平臺,讓企業可以同時在公有雲和企業內環境,部署與管理在GKE上的Apache Spark工作負載。使用Cloud Dataproc的新功能,用戶就能以統一的集中檢視工具,跨K8s和YARN兩個叢集管理系統,操作混合工作負載。

而且新功能還隔離了開源軟體,消除傳統大資料技術對版本以及函式庫的相依性,讓使用者可以將模型和新的ETL工作管線,從開發階段直接轉移到生產階段,而不需要考量相容性,Google提到,使用K8s這樣的敏捷基礎架構,讓開源軟體升級更簡單。

Apache Spark是第一個放到K8s上Cloud Dataproc的開源資料處理引擎,而這項工作還會繼續擴及更多的開源專案,Google提到,Cloud Dataproc搬遷到K8s上,改變了他們將Cloud Dataproc和開源軟體作為託管服務的方式,他們會持續與其他開源社群合作,並為更多的開源專案啟用K8s上執行Cloud Dataproc功能。

熱門新聞

Advertisement