Datakin推出OpenLineage開源專案，與社群共同定義資料處理歷程開放標準

開源元資料專案Marquez發起公司Datakin，宣布推出定義資料處理歷程（Data Lineage）開放標準專案OpenLineage，目的是要訂定一套統一的資料處理歷程標準，以提升企業中資料操作的效率與可信度。

近幾年資料應用蓬勃發展，企業逐漸在其關鍵業務中，使用新的資料工具，資料已從被單純用於分析，開始被應用在關鍵營運當中，企業中使用資料的用戶增加，也就是說跨整個企業的資料使用更加普遍，Datakin提到，隨著資料成為越來越重要的角色，風險也就隨之增加，企業必須盡可能提高資料的品質，不只要維持資料新鮮度與可信度，像是人工智慧模型所使用的資料，對公平性和透明度的要求更是嚴格。

但是因為資料技術的發展，資料生態系整體複雜性增加，導致資料缺乏可信度，Datakin表示，資料端到端管理中，資料生產與使用中間存在空隙，無法滿足複雜資料生態系與協作的操作需求。這個空隙需要許多功能彌補，包括資料目錄，以清點和促進資料的探索與使用，還有端到端操作工具，可為資料可用性和品質提供保證，而存取控制則可以支援資料隱私的需求，同時還需要治理與法遵解決方案。

而這些功能的關鍵，則是資料處理歷程，用來了解資料在生態系中的流動，包括資料生成的位置、轉換的方式，以及資料使用者等資訊，提供組織內資料旅程中，系統和資料處理的可見性。資料處理歷程的需求，包括資料處理邏輯、統一命名、追蹤和版本控制，而描述這些資料和程式的元資料，必須具有彈性與可擴充性。

現在Datakin與多個開源專案包括Airflow、Datahub、Parquet和Spark等貢獻者合作，共同貢獻OpenLineage開源專案，發展資料處理歷程開放標準，以減少資料的破碎與重複，支援資料操作、治理和法遵等各種工具與解決方案的開發。

熱門新聞