在年會中,AWS展現出前所未有的資料治理產品布局,從一開始只有少數資料產品具備治理功能,今年不只延伸到資料倉儲Redshift也能支援這項能力, 甚至從資料源頭進一步涵蓋到機器學習服務SageMaker,就連新推出的資料管理服務,都把治理作為必備功能,提供企業來運用。AWS對於資料產品策略明顯轉變,更讓資料治理躍升為今年AWS資料產品最重要的發布之一,甚至不只資料產品,AWS更揭露了要邁向一個全服務資料治理的大戰略。
資料是企業數位轉型的核心,隨著資料量越來越龐大,許多企業開始發現,光只是蒐集資料、完善資料分析還不夠,要讓企業內部資料容易使用,還要能容易做好法遵或合規,就必須落實資料治理,也因此,許多企業開始重視甚至強調資料治理,而開始受到各界的關注。近年來,各大公雲巨頭也都開始搶進,布局企業資料治理這個新領域。
持續擴大資料治理布局,更多雲端資料產品都支援
去年年會,AWS推出Lake Formation服務,先在雲端資料湖產品中,開始提供資料治理的功能,到了今年,AWS持續布局資料治理的態勢更加明顯。
AWS數據和機器學習副總裁Swami Sivasubramanian在演講中不只重提AWS端到端資料策略,今年更進一步揭露未來端到端的資料治理策略。他表示,要串起組織中所有數據,需要有從建立自動化資料路徑到資料治理工具的一整套解決方案,不只是數據整合,還包含了組織部門、團隊與個人的整合。「通過資料治理,可以為資料斷點、團隊斷點提供一個安全通道,如此一來,企業不同部門之間才能夠彼此協作,並根據獲取的數據來採取行動。」
從今年雲端資料產品更新來看,更多資料產品都開始提供資料治理能力。AWS資料倉儲Redshift推出Centialized Access Controls for Redshift Data Sharing預覽版,就是整合治理功能來強化資料存取控管與安全。他們利用Lake Formation資料治理方式來管理Redshift叢集的資料共享,因此可以使Redshift共享資料達到顆粒度更高的權限控管,可以針對單一欄或行,來設定不同角色的存取權限,進而提高資料安全性,使用者既不需要撰寫腳本程式,也不用編寫複雜程式。這也是AWS端到端資料治理策略不可缺少的重要一環。
主打內建治理的資料管理新服務
不光如此,AWS雲端資料管理服務也都開始支援這項能力。 AWS執行長Adam Selipsky親自發表了新的資料管理服務DataZone,不只提供專案式的資料管理平臺,更主打內建資料治理的功能,可對儲存在AWS中的數據提供資料目錄編制、探索、共享和管理。
Swami Sivasubramanian就指出, DataZone最大價值,就是兼具有強大的資料治理控制與存取簡化,使組織中所有人可以很容易查看、組織和協作,將資料價值發揮到最大,加速企業創新。
DataZone提供統一資料協作環境(Zone),讓資料專案團隊可以在DataZone中發布所需資料,來提供團隊成員查詢、存取或共享,並搭配治理與存取權限控管,來確保資料使用安全。這樣的好處是,可以大大簡化跨部門或不同專案團隊資料使用、分析流程以及治理策略整合,透過這項服務,不論是資料科學家、資料工程師或行銷人員的資料利用,都能套用一致治理標準來管理,來加快數據分析與應用。
AWS對於治理布局不只如此,不只是從資料源頭做好治理,對於用這些資料訓練建立的ML模型也有提供相對應的治理方案。尤其,AI/ML應用當道,企業以ML為基礎的應用越來越多、越來越關鍵,如何透過ML治理打造負責任AI,成了企業IT新課題。
AWS發表了新的資料管理服務DataZone,不只提供專案式的資料管理平臺,更主打內建資料治理的功能,可對儲存在AWS中的數據提供資料目錄編制、探索、共享和管理。不論是資料科學家、資料工程師或行銷人員的資料利用,都能套用一致治理標準來管理,來加快數據分析與應用,包含哪些資料可以共享、誰有權使用,以及使用期限等,確保只有授予該資料存取權限的團隊成員才能使用。(攝影/余至浩)
SageMaker機器學習服務也加入治理功能
但以往要做到端到端ML流程治理,對企業挑戰很大,因為一個ML模型的建立,往往牽涉到許多不同團隊協作,彼此相互配合,包括資料科學家、資料工程師,甚至是資料使用者。但要擬定政策做好權限的控管,不僅很花時間,遇到不同使用單位,還得制定不同政策,甚至要與他人共享模型資訊也十分沒效率,常常拿到都已經是舊的資訊。
為了解決這個問題,AWS先從最常用的機器學習訓練環境全託管服務SageMaker開始,將ML治理功能帶進SageMaker服務中,來強化企業端到端ML開發的治理和審計。
在SageMaker服務中推出3項ML治理新功能,AWS表示,透過這三個功能,就能涵蓋端到端機器學習流程的管理與治理,分別是角色管理器(Role Manager)、 模型卡片(Model Cards),以及模型儀表板(Model Dashboard)。
一開始決定不同角色使用權限,就是靠Role Manager來定義與擬定政策,因為結合自動化機制,讓原本繁瑣政策建立流程,縮短到幾分鐘內完成。開始建立ML模型時,就會需要用Model Cards集中管理ML模型所有資訊和檔案文件,並採單一數據源(single source of truth)來建構ML檔案狀態更新的機制, 以保持ML資訊一致,來涵蓋完整ML模型生命週期。
最後,對於部署的ML模型效能表現,也能使用Model Dashboard工具來對ML模型效能進行統一監控,不只提高模型的透明度,當偵測到預測結果明顯偏離預期時就會自動告警,通知相關人員加以處理。
「有了這些治理功能就可以幫助企業有責任建構ML治理」Swami Sivasubramanian補充。
但資料治理只支援資料湖、資料倉儲、機器學習服務還遠遠不夠。Swami Sivasubramanian直言,想要真正實現端到端治理,需要能夠管理企業所有服務資料存取,「這是我們正在朝向發展的方向」他說。這正是AWS未來邁向一個全服務資料治理的大戰略。
熱門新聞
2025-01-20
2025-01-20
2025-01-20
2025-01-20
2025-01-20
2025-01-20