Google雲端正式推出無伺服器開源叢集運算框架Spark服務(Serverless Spark),官方提到,這是目前市面上第一個可自動擴展的無伺服器Spark服務,另外,Google還讓雲端資料倉儲BigQuery連接無伺服器Spark運算資源,BigQuery用戶現在可以使用無伺服器Spark,和BigQuery SQL進行資料分析。這些功能更新的目標,都是要讓用戶能更簡單地運作大規模ETL和資料科學等使用案例。

由於Apache Spark所提供的速度、簡易性和程式語言靈活性,使得不少企業應用Apache Spark來進行資料工程、資料探勘和機器學習等任務,但Google提到,管理叢集和調整基礎設施的效率很差,針對不同使用案例的整合程序,可能會大幅消耗生產力。

而Google提供無伺服器Spark,供用戶專注於程式碼和邏輯設計,不再需要管理叢集和調整基礎設施,透過選擇的介面就能上傳Spark作業,無伺服器Spark會自動處理規模縮放,來符合任務的需要。

另外,Google也開始提供BigQuery實現無伺服器Spark功能預覽版,透過提供統一介面,供資料分析師在BigQuery編輯器中,編寫SQL和PySpark程式碼,並且不需要配置基礎設施,就能無縫地使用Spark執行。Google正努力在各種介面,整合無伺服器Spark服務,使得用戶不需要預先配置任何基礎設施,便可以啟用Spark,接下來還要讓用戶在全託管機器學習平臺Vertex AI,也能用到Spark。

熱門新聞

Advertisement