由Apache Spark技術團隊所創立的資料處理軟體公司Databricks,全面推出Delta即時資料表格(Delta Live Tables,DLT),供用戶使用簡單的宣告式方法,大規模建構資料工作管線,並且自動管理資料基礎設施。Delta即時資料表格已經在AWS和Azure雲端正式上線,並在Google雲端進入公開預覽階段。

ETL中的串流和批次處理工作負載,是資料分析、資料科學和機器學習應用的基本,官方提到,要將大量原始且非結構化的資料,轉成乾淨、可信的資訊,是一項重要工作,因為如此才能將其用於業務之中。

但是傳統上,要轉換SQL查詢用於生產環境的ETL工作管線,需要大量繁瑣且複雜的操作,即便規模很小,資料工程師也需要花大量的時間在工具和管理基礎設施上,資料可觀察性和治理也受到挑戰,而Databricks建構DLT,便是要來解決這些問題。

DLT是一個ETL框架,完全支援Python和SQL,讓用戶以簡單的宣告式方法,建構資料工作管線並自動管理基礎設施,如此資料工程師便能減少花費在工具上的時間,用更多的時間分析資料,從資料中獲取價值。藉由使用DLT,資料工程師可以將資料視為程式碼,應用測試、錯誤處理、監控、歸檔等軟工最佳實踐,部署大規模工作管線。

DLT原生支援現代軟工最佳實踐,供用戶可以獨立進行開發以及部署前測試,參數化部署和管理環境,以及執行單元測試。DLT還能夠自動管理基礎設施,由用戶配置最小和最大執行個體數量,並讓DLT依據叢集利用率,調整叢集大小,進而自動擴展基礎設施。

由於DLT會自動縮放批次或串流處理工作管線,因此能夠最佳化用戶成本,官方提到,DLT與一般強制分開串流和批次處理的工作負載工具不同,DLT供用戶使用單個API支援任何類型的資料工作負載,因此資料工程師能夠以更簡單且快速的方式,建立起雲端規模資料管線。

另外,DLT內建品質控制、測試、監控等工具,使用戶能夠更簡單地創建可信資料來源,確保商業智慧、資料科學和機器學習應用準確且有用。DLT中一個稱為Expectations的功能,能夠避免不良資料流入表中,隨時間持續追蹤資料品質,還提供工具讓用戶能以各種粒度檢視資料,解決品質不良的資料。

熱門新聞

Advertisement