Google發布了用來破除資料孤島的資料共享產品Dataplex,Dataplex是一個提供整合式分析功能的智慧資料結構(Data Fabric),可將Google雲端和開源工具結合在一起使用,供用戶快速整理、保護、整合和分析大規模資料,官方提到,透過使用機器學習功能,以及具彈性的模型,能夠大幅減少用戶花在資料處理基礎設施上的時間。

藉由Dataplex,用戶可以自由地選擇資料儲存的位置,以獲得合適的性能與價格,並且選用符合需求的工具,除了Google雲端服務之外,用戶也能使用Apache Spark和Presto等開源分析技術。Google提到,Dataplex的重點在於讓用戶,以有助於業務的方式組織和管理資料,而不需要移動或是複製資料,因此Dataplex提供像是湖泊、資料區域和資產等邏輯結構,這些邏輯結構能夠抽象化基礎設施系統,並成為設定資料政策、安全和生命周期的基礎。

Dataplex主打其資料智慧功能,在用戶對資料進行管理時,Dataplex會使用內建的資料品質檢查功能,自動收集結構化和非結構化後設資料,所有後設資料會自動註冊到後設資料儲存中,可供用戶搜尋和探索,Google舉例,當用戶將Parquet格式資料,寫入到Google雲端儲存桶中的時候,Dataplex會自動擷取檔案後設資料、檢查表格格式,以及執行資料品質檢查,並使得這些資料可以被查詢。

熱門新聞

Advertisement