開源元資料專案Marquez發起公司Datakin,宣布推出定義資料處理歷程(Data Lineage)開放標準專案OpenLineage,目的是要訂定一套統一的資料處理歷程標準,以提升企業中資料操作的效率與可信度。

近幾年資料應用蓬勃發展,企業逐漸在其關鍵業務中,使用新的資料工具,資料已從被單純用於分析,開始被應用在關鍵營運當中,企業中使用資料的用戶增加,也就是說跨整個企業的資料使用更加普遍,Datakin提到,隨著資料成為越來越重要的角色,風險也就隨之增加,企業必須盡可能提高資料的品質,不只要維持資料新鮮度與可信度,像是人工智慧模型所使用的資料,對公平性和透明度的要求更是嚴格。

但是因為資料技術的發展,資料生態系整體複雜性增加,導致資料缺乏可信度,Datakin表示,資料端到端管理中,資料生產與使用中間存在空隙,無法滿足複雜資料生態系與協作的操作需求。這個空隙需要許多功能彌補,包括資料目錄,以清點和促進資料的探索與使用,還有端到端操作工具,可為資料可用性和品質提供保證,而存取控制則可以支援資料隱私的需求,同時還需要治理與法遵解決方案。

而這些功能的關鍵,則是資料處理歷程,用來了解資料在生態系中的流動,包括資料生成的位置、轉換的方式,以及資料使用者等資訊,提供組織內資料旅程中,系統和資料處理的可見性。資料處理歷程的需求,包括資料處理邏輯、統一命名、追蹤和版本控制,而描述這些資料和程式的元資料,必須具有彈性與可擴充性。

現在Datakin與多個開源專案包括Airflow、Datahub、Parquet和Spark等貢獻者合作,共同貢獻OpenLineage開源專案,發展資料處理歷程開放標準,以減少資料的破碎與重複,支援資料操作、治理和法遵等各種工具與解決方案的開發。

熱門新聞

Advertisement