![](https://s4.itho.me/sites/default/files/styles/picture_size_large/public/field/image/fireshot_capture_1850_-_home_-_delta_lake_-_delta.io_.png?itok=TBNF23CI)
Databricks更新開源資料湖專案Delta Lake發布3.0版本,主要更新重點在於消除資料孤島,Databricks在新版本添加通用格式UniForm,該格式讓Delta Lake與其他開源資料湖儲存層Apache Iceberg和Apache Hudi能夠互通。
Delta Lake是由Databricks所開發,為一個資料湖儲存層,能夠簡化企業資料工程架構的複雜性,使企業高效批次和串流處理資料,提供ACID交易維持資料一致性,也使得用戶能夠變更Schema,並且自動處理Schema的演變。Delta Lake強大的索引能力,加速了資料讀取速度,用戶也能夠方便地與Apache Spark等大資料工具整合。
企業透過採用開源資料湖倉(Lakehouse)架構,可以避免被專有的資料倉儲鎖定,但是現在企業卻必須要在三種不同的資料湖開源格式Delta Lake、Iceberg和Hudi間選擇,而Delta Lake 3.0更新所加入的通用格式UniForm則能夠提高互通性,使得用戶可以同時從Delta Lake、Iceberg和Hudi工具生態系獲益。
在2019年的時候,Databricks已經將Delta Lake專案開源,目前交由Linux基金會治理,而Apache Iceberg則是由Netflix開源的資料湖表格格式,同樣提供ACID交易,並且讓用戶能夠更精細的管理資料,其核心概念包括表格、快照和分區等,這些功能都能支援增量和讀取合併操作。
而Apache Hudi則是由Uber開源的儲存層,主要用來管理在Hadoop裡的龐大資料集,Hudi支援增量查詢和插入,也讓用戶能夠儲存資料的不同版本,方便查詢歷史資料。Delta Lake、Iceberg和Hudi實作與功能雖有所不同,但主要目標皆能滿足常見的資料湖需求,包括資料一致性和大資料操作等。
Delta Lake 3.0添加的UniForm,讓Iceberg和Hudi也能高效存取儲存在Delta Lake中的資料,並自動生成Iceberg和Hudi需要的後設資料,UniForm統一表格格式,使得用戶不需要手動在不同格式間轉換,最終,Databricks希望透過UniForm,使得用戶可以自由靈活地使用Delta Lake。
熱門新聞
2025-02-08
2025-02-12
2025-02-11
2025-02-13
2025-02-10
2025-02-12
2025-02-13