今年初,玉山金控振奮地宣布成立法人金融事業總處和個人金融事業總處,來聚焦跨境、數位、風險管理三大策略和ESG永續發展。玉山銀行董事長黃男州更揭露,大個金將整合玉山的通路、客群和產品部門,甚至是數位金融處,來共同創造客戶價值。

這是玉山29年來最大規模的組織改造。但玉山沒明說的是,這也是他們實踐資料治理的關鍵一步。

AI內化引爆資料治理需求,轉核也是關鍵推力

為何一個資料治理,能讓玉山如此勞師動眾?

這是因為,AI已融入玉山的重點服務面,資料管理需求應勢而起。早在2006年,玉山成立資料科學團隊CRV,來分析顧客風險價值大數據,2019年更進化為智能金融處(簡稱智金處),以內部AI供應商之姿,開發各種橫跨金控的AI專案。他們自行建置兩套關鍵平臺:AI研發雲和機器學習服務平臺(即MLaaS平臺),一方面孕育新AI服務,一方面提供成熟AI模型給業管單位使用,至今營運了50、60個AI專案。

當AI內化到這種程度,資料處理就越發關鍵。玉山金控科技長張智星舉例,智金處和業管單位常遇到這類問題:「信用卡盜刷偵測模型何時要更新?需要哪些資料?是原始資料還是加值資料?這些資料來自同個部門,還是跨部門?」甚至,「模型的訓練、測試、上線和監控,是否符合金管會要求?」這些考驗,都需要一個專責團隊和資料治理框架,來梳理資料處理流程才能解決。

而去年完成的核心系統大轉換,也是玉山推動資料治理的關鍵。當時,玉山轉換核心系統,以微服務架構、中臺架構和服務API化為目標,要加速服務反應,也要降低資料交換門檻。那段期間,團隊就已意識到資料治理的不足,比如,他們能整理出原始資料、加值型資料,卻難以定義兩種資料的保管人;又或是加值型資料的欄位產生,未有明確規範,間接影響使用加值資料訓練的AI模型。

跨金控資料治理小組誕生,仿母子法制定三階資料治理規範

因此,去年8月完成核心系統轉換後,玉山一鼓作氣成立資料治理小組,正面迎戰這些問題。張智星以科技長身分擔任小組召集人,成員橫跨全金控,包括AI推手智金處和各事業部代表,以每月一次的會議,來討論資料治理議題,如資料可取性、資料權限和資料上下游管控等。資料治理小組的目標,是要理出一致的資料變動因應措施,來「一條鞭作業!」

為實現目標,他們首先制定資料治理規範。規範分為三階,第一階是資料治理政策,也就是大方向、大原則,說明資料治理的目的和管轄範圍,比如原則預設各部門要共享資料,除重大考量外,都要能提供資料給需求單位取用。

第二階是作業要點,來解釋資料品質、資料權責和資料分級,第三階則是作業說明。

張智星表示,這些規範猶如母子法,明定每個階層的所屬權限。他認為,資料治理擴大到全玉山的最簡單方法,「就是邀集各部門加入小組,共同制定一、二階規範。」

定義角色分級,組改推動資料共享

除了制定規範,玉山也引進角色分級概念。進一步來說,角色分級可分為資料擁有者、資料保管者和資料使用者,其中,資料擁有者必須負全責讓資料保持在最乾淨的狀態,而資料使用者,必須知道從何取得資料、了解資料限制,比如哪些資料能產出穩定正確的結果、哪些無法產出,或是哪類資料有所缺失、需要補值。

至於資料保管者,張智星特別注重「加值資料保管者」。因為,這類保管者必須具備原始資料的領域知識,而且要註記加值公式、寫好詮釋資料(Metadata),包括原始資料改變時,加值資料重新計算的方法,作為後續模型更新的參考依據。

不論跨部門與否,這些分級定義了各種角色的職責,但張智星認為,資料治理小組還有個資料共享的挑戰。舉例來說,不同部門一旦牽涉到特定資料,比如顧客的理財金額或房貸款項,就得跨單位協調、取得資料。

「如何幫他們協調、共用資料,也是資料治理小組的任務。」張智星進一步解釋,玉山推動29年來最大組織改造,不只要讓整體組織架構更明確、更自然,還有一個關鍵原因是,要整合KPI相互競爭的單位,打破資料共享藩籬。

定義資料分級,AI專案執行前該進行資料上下游分析

不只角色要分級,資料也需要分級。玉山治理小組將資料分為公開共用、協定共用和不能共用三種,同時按屬性,進一步將資料分為原始資料、加值型資料,以及解釋加值型資料的詮釋資料。

這些分級很重要,因為每一類都可能牽一髮動全身。張智星比喻,資料處理就像一條河,「原始資料一改變,下游加值資料就會受到衝擊,」如同河流的上下游,上游資料受到污染,下游便難以倖免,無法製造出穩定的AI模型。

也因此,資料治理應涵蓋AI專案執行前的資料來源分析,釐清所需的資料種類、來源部門,甚至考量部門間有無衝突,來確保資料能順利取得。再來是AI模型的更新條件和頻率,資料治理小組得思考模型多久更新一次、更新資料取自原始資料還是加值資料,「若是加值資料,如何根據原始資料改變而更新?有無詮釋資料說明?多久更新一次?」

舉例來說,個人5年平均收入的模型或像票據手寫辨識模型,因變化不大,一年之中適時更新即可。但信用卡盜刷偵測模型一周就得更新一次,「因為採用加值資料,再加上疫情影響、消費行為不斷改變,這些因素都得考慮進去,」他說。

不只如此,設定模型更新頻率時,也得考量更新方法,比如批次計算、即時運算,甚至要檢核加值資料的時效性和正確性。他總結,資料治理工作不外乎資料上下游分析,「往上是血緣分析,往下是衝擊分析,」如此才能確保資料品質。隨著資料治理逐漸到位,玉山今年還要力推MLOps,更著重模型上線後的表現監控。他們希望建立一套模型重新訓練、上下架的標準流程,利用回饋資料及時校正模型。

熱門新聞

Advertisement