Databricks正式推出自動化ETL框架DLT

由Apache Spark技術團隊所創立的資料處理軟體公司Databricks，全面推出Delta即時資料表格（Delta Live Tables，DLT），供用戶使用簡單的宣告式方法，大規模建構資料工作管線，並且自動管理資料基礎設施。Delta即時資料表格已經在AWS和Azure雲端正式上線，並在Google雲端進入公開預覽階段。

ETL中的串流和批次處理工作負載，是資料分析、資料科學和機器學習應用的基本，官方提到，要將大量原始且非結構化的資料，轉成乾淨、可信的資訊，是一項重要工作，因為如此才能將其用於業務之中。

但是傳統上，要轉換SQL查詢用於生產環境的ETL工作管線，需要大量繁瑣且複雜的操作，即便規模很小，資料工程師也需要花大量的時間在工具和管理基礎設施上，資料可觀察性和治理也受到挑戰，而Databricks建構DLT，便是要來解決這些問題。

DLT是一個ETL框架，完全支援Python和SQL，讓用戶以簡單的宣告式方法，建構資料工作管線並自動管理基礎設施，如此資料工程師便能減少花費在工具上的時間，用更多的時間分析資料，從資料中獲取價值。藉由使用DLT，資料工程師可以將資料視為程式碼，應用測試、錯誤處理、監控、歸檔等軟工最佳實踐，部署大規模工作管線。

DLT原生支援現代軟工最佳實踐，供用戶可以獨立進行開發以及部署前測試，參數化部署和管理環境，以及執行單元測試。DLT還能夠自動管理基礎設施，由用戶配置最小和最大執行個體數量，並讓DLT依據叢集利用率，調整叢集大小，進而自動擴展基礎設施。

由於DLT會自動縮放批次或串流處理工作管線，因此能夠最佳化用戶成本，官方提到，DLT與一般強制分開串流和批次處理的工作負載工具不同，DLT供用戶使用單個API支援任何類型的資料工作負載，因此資料工程師能夠以更簡單且快速的方式，建立起雲端規模資料管線。

另外，DLT內建品質控制、測試、監控等工具，使用戶能夠更簡單地創建可信資料來源，確保商業智慧、資料科學和機器學習應用準確且有用。DLT中一個稱為Expectations的功能，能夠避免不良資料流入表中，隨時間持續追蹤資料品質，還提供工具讓用戶能以各種粒度檢視資料，解決品質不良的資料。

熱門新聞