國泰金控今年開始搭建雲端資料湖倉平臺,國泰新設計的現代化數據架構可分為6層,每項資料皆會從資料來源層,流通至資料注入層、資料湖倉層,和資料使用層,最後再到應用層。底層的資料治理層則貫穿所有資料管道。(圖片來源:國泰金控)

國泰金控在今年獲金管會核准數據上雲計畫,開始在雲端環境中搭建資料湖倉平臺。這是國內金融業者中,第一家業者開始在雲端環境中搭建不限定用途的資料湖倉平臺,能利用資料倉儲處理交易資料的能力,也能結合資料湖支援處理非結構化資料的能力,支持業務更多樣性的數據需求。在今年的國泰技術年會中,國泰金控數數發中心數據暨人工智慧發展部協理劉浩翔進一步揭露團隊如何設計雲端資料湖倉平臺架構,並公開現代化數據架構的資料治理要點。

早在2020年,國泰金控就啟動了集團上雲的現代化計畫,並在2021年喊出5年100套系統上雲目標。截至今年9月,國泰金控已有71套系統完成遷雲。為了以更快速有效的方式應對數據分析需求、強化即時處理數據的效率,國泰在2023年決定將機器學習平臺和大數據平臺遷移上雲,開始盤點地端數據架構、進行上雲評估。

目前,金融業在地端環境發展大數據時,最常使用資料倉儲和資料湖儲存資料。「但兩者各有優缺點。」劉皓翔解釋,資料倉儲在查詢和處理資料的速度較快,但無法滿足非結構化資料處理需求,且建置成本較高。資料湖則是具有高度彈性,能同時處理結構化、半結構化與非結構化資料,但缺乏處理交易資料的能力,查詢和分析資料的效能也不比資料倉儲好。

考量到資料倉儲和資料湖各自優勢,劉浩翔指出,國泰在設計雲端資料架構時,決定結合兩者特長,包括資料湖的彈性和資料倉儲的查詢、分析效率,將打造湖倉平臺作為核心設計理念。他解釋,資料湖倉是建立在資料湖的基礎上,融合了資料層、目錄層和計算層。而在資料層上,資料湖倉建立了元數據管理,能利用這些元數據來實現資料倉儲才具備的單筆寫入儲存功能。

雲端資料湖倉平臺架構細節

國泰的現代化數據架構可分為6層,每項資料皆會從資料來源層,流通至資料注入層、資料湖倉層,和資料使用層,最後再到應用層。而資料治理層則是貫穿所有資料管道的底層服務。其中,資料湖倉層和資料使用層,是國泰要在雲端環境中構建資料湖倉平臺的核心部分。

劉浩翔進一步揭露資料湖倉層和資料使用層的設計主軸。除了採用湖倉平臺設計,國泰還有自行研發自動化ETL工具PIGEON,來進行資料處理。透過建置數據字典作為資料來源,開發人員只要輸入資料查詢和加值邏輯,PIGEON就能自動產生ETL排程。此外,PIGEON也支持事件驅動機制,取代傳統以時間排程的觸發方式。例如,當資料到檔事件發生時,就能即時觸發ETL排程,確保資料的新鮮度。

在雲端資料湖倉平臺中,國泰採用自研發的自動化ETL工具PIGEON來進行資料處理,PIGEON能自動生成資料管道,也支持事件驅動機制。(圖片來源:國泰金控)

另外,在資料使用層中包含一套ML平臺。劉浩翔表示,這套ML平臺包含三大特色,第一,平臺包含AI治理功能模組,具有國泰自行開發的負責任AI工具包,能針對AI模型進行評測。第二大特色,平臺透過容器化技術,將模型從開發、訓練到部署的過程管道化。最後,平臺提供模型中心Model Hub,提供多種模型選擇,包含雲端、地端、開源或閉源模型,也提供標準化API接口,能介接各種服務。Model Hub也提供成本管理功能,協助開發者管控模型使用開銷。

資料治理四大原則

在現代化數據架構中,資料治理層貫穿了所有資料管道,包含了統一元數據管理、資料虛擬化、資料共享,和資料分層管理。

為了提升資料管理的效率與安全性,國泰採用了元數據管理平臺。「這套解決方案將會是未來雲端上的數據治理中的重要基底。」劉浩翔強調,進行元數據管理後,能加速資料調閱與管理,同時做到權限管理和自動化軌跡留存,「未來就有辦法回溯資料血緣,了解每個資料取用的上下游脈絡。」

另外,劉浩翔提到,在地端環境管理數據時,往往因缺乏能整合不同資料源頭的平臺,需要經常將資料搬移至集中化儲存空間,才能檢視所有資料的系統來源。然而,「在某些場景中,搬移資料十分困難,常常造成數據孤島問題。」劉浩翔說。為了解決這項痛點,國泰運用資料虛擬化技術,透過建立虛擬化中心,快速取得來自不同系統的資料,減少ETL工具的開發成本。同時,透過增加虛擬層,更快完成跨系統間的資料共享。

在資料治理層中,國泰也有進行資料分層管理。當子公司各類系統輸入資料至國泰的雲端湖倉平臺時,資料會經過五個數據分層進行處理,先從暫存數據層進入原始數據層,對資料進行清洗、去敏和加密動作,接著進入數據彙總層,建立資料模型(Data Model),將資料化為通用性較高的資料表,再進入數據加值層,按數據主題產出數據產品的資料市集(Data Mart),例如產出各項風險指標。最後才進到數據服務層,服務業務人員的數據需求。劉浩翔強調,透過數據分層,平臺能區隔明碼區和暗碼區,確保使用資料的人員不會接觸到明碼區。

雲端人才不足,國泰計畫3年對內培育200位雲端數據人才

在推動上雲的過程中,劉浩翔坦言,雲端人才短缺,仍是最大痛點,「所有邁向雲端的業者都會面臨一個問題,就是雲端人才到底在哪裡?」意識到僅依賴外部招募無法滿足人才需求,國泰啟動名為「雲世代」的培育計畫,目標在3年內對內培養出200位雲端數據人才。

劉浩翔表示,國泰金控計畫每半年會從四間子公司招募40名種子學員,透過系統性課程、期末專題和團體活動,提升種子學員的雲端技能和技術應用能力。培訓結束後,集團會以總經理為首,邀請50位集團長官、主管共同見證培訓結果。

「這項計畫絕對是國泰數據成功上雲的關鍵。」劉浩翔強調,若沒有及早啟動人才培育,即便技術與管理機制完善,缺乏對應的人才支撐,最終仍可能導致計畫失敗。

「雲端和AI息息相關。」劉浩翔期待,國泰邁向雲端後,未來能充分利用雲端算力和已開發的原生服務,「不僅推動業務成長,還能在AI發展上實現雙向賦能,推動業務前進。」

熱門新聞

Advertisement