圖片來源: 

Tabular

資料與AI業者Databricks周二(6/4)宣布,已同意買下資料管理業者Tabular,準備改善資料湖倉(Lakehouse)格式的相容性。雙方並未揭露交易細節,但《華爾街日報》(Wall Street Journal)報導,此一交易規模介於10億~20億美元之間,預計於今年7月完成交易。

Databricks與Tabular的創辦人都來自開源社群。其中,Databricks在2013年由Apache Spark的原始創辦者所設立,Apache Spark為一鎖定大規模資料處理的開源統一分析工具,之後Databricks也打造了開源的Delta Lake資料湖專案;至於Tabular則是在2021年由Ryan Blue、Daniel Weeks和Jason Reid所創立,Blue與Weeks在任職於Netflix時開發了「冰山」(Iceberg)專案,這是個用於大型分析表格的格式,之後把它捐給了Apache軟體基金會。

迄今全球已有超過500名工程師貢獻Delta Lake專案,並有逾1萬家企業使用Delta Lake,平均每天處理4 EB以上的資料量。

Databricks表示,Delta Lake與Iceberg專案在差不多的時間問世,皆為資料湖倉格式主要的開源標準,可惜的是,雖然它們都是基於Apache Parquet並有類似的目標與設計,卻因彼此獨立開發而互不相容。在收購Tabular之後,Databricks打算與Delta Lake及Iceberg密切合作,推動彼此格式的互動。

至於Tabular也說,資料生態體系充斥著開放表格格式的討論,大家都希望能夠有一個安全且集中的資料架構,可連結到各種專業的運算框架或引擎,從而解鎖新的資料管理及分析能力,與Databricks攜手建置一個共同的資料標準將可實現此一願景。

熱門新聞

Advertisement