數位轉型風潮日熾,驅使各行各業紛紛擁抱雲原生技術,藉以孕育高含金量的數位服務或通路;隨著創新服務的用戶規模擴大,也讓業主倍感壓力、對服務中斷的容忍度急速下降,以致越來越多企業積極招募「網站可靠性工程」(SRE)人才,期盼做到營運維穩、快速應變。
近年積極擴張數位營運版圖的國泰金控,頻頻展現豐沛創新力,推出許多各界驚艷的數位業務;從邁出金融與科技創新步伐的 Day 1 起,國泰便以微服務作為關鍵基底,即早深植兩大文化底蘊,一是 DevSecOps,另一是 SRE,換言之,國泰也曾經與其他行業一樣,在窄小池子裡爭搶 SRE 人才。
然而,體認到要延攬深具SRE技能與經驗、願意在金融業長期打拼的人才,難度甚高,於是國泰形塑出屬於自己的 SRE 建軍模式,一舉定義六種 SRE 角色,另外在內部啟動業界罕見的 SRE 人才培訓計畫;其中的發展歷程,相當值得各界借鏡學習。
以現代化監控為主題,搭建專屬於國泰的 SRE 架構
今年初(2023),國泰金控在總經理運籌帷幄下,成立資訊治理強化小組,而SRE是主要議題之一,帶動國泰的 SRE 旅程就此豁然開朗。
國泰金控中台發展部協理鄭正略表示,國泰在 2019 年成立中台並邁向微服務,當時便設立SRE團隊,原本想參酌全球科技巨擘的 SRE 發展範本,但逐漸發覺幾個問題,譬如某些企業偏向開發者,藉由轉調資深技術人員到 SRE 團隊服務、持續貢獻長才;有些則是從基礎設施(Infrastructure)角度出發,培養所需 SRE。然而,無論側重於技術開發或基礎設施,都不適合金融業或國泰的發展路徑。
總經理站在制高點,邀集內部的中台、開發、Infra 及數銀等不同部門集思廣益,經過腦力激盪,探索出最適合國泰的 SRE 切入點,便是「監控」;藉由監控衍生儀表板、重要指標(Metrics)與數據營運等關鍵元素,撐起「現代化監控中心」,順勢達到維穩運營目標。在資訊治理強化小組專案啟動的同時,國泰便以「現代化監控中心」為主旋律,塑型國泰需要的 SRE 人力與培育架構。
國泰的資訊系統在近年間經歷從虛擬化到雲端化的轉變,逐步導入持續交付整合(CI/CD)和快速應用程式開發(R &D)等方法,以應對快速部署需求,同時確保服務不中斷。然而,傳統監控中心工具和流程的不一致性成為一個挑戰,無法有效支援跨團隊的業務監控和即時應變。國泰世華資訊架構部資深副理鄭紹斌說明:「為了解決這個問題,我們決定通過技術、流程和人文三個面向不斷改進,建立現代化的監控中心,以滿足金融業運營的需求。在技術方面,我們採用標準化技術和工具來收集監控數據,並建立跨團隊共享的監控儀表板。流程優化方面,簡化問題通報、事故處理和告警設定流程,以縮短處理時間。人文方面,強調營運維護的重要性,建立SRE協作機制和培養 SRE 人才。」
六種 SRE 角色劃分 穩固國泰資訊治理強化小組
為了驅使現代化監控中心高效穩定運作,國泰一舉建立近 40 人的虛擬SRE團隊,基於過往經驗累積,明確體認到若僅依靠一種SRE角色,恐難撐持現代化監控大局。綜觀當前國泰 SRE 團隊,除了本來就身負維運監控重任的 Ops SRE 外,規劃設計 Dev SRE、Infra SRE、Cloud SRE、Business SRE 及 DevOps Architect,共計六種工作職掌。
SRE 虛擬團隊之「Ops SRE 角色」,負責監看整體平台的運行狀況,成為事件分派及追蹤的關鍵人物。國泰世華中台發展部資深副理潘建名說明,「Dev SRE」和「Infra SRE」從應用程序和基礎設施的專業角度出發,對問題進行細部分析、處理和優化。當發生問題時,SRE 團隊會採取緊急處置,以維持服務運作,下一步便會借重「Dev SRE」與「Infra SRE」對各自專業領域的理解,針對問題進行徹底的處理與改善,最終消除異常根因。
國泰 SRE 團隊涵蓋 Ops SRE、Dev SRE、Infra SRE、Cloud SRE、Business SRE 及 DevOps Architect,共計六種工作職掌
接著談到「Cloud SRE」,國泰在近年打造的創新服務,已考量到公有雲運作需求,因而訂定「Cloud SRE 角色」,負責排除上雲過程的各種問題與異狀。而 DevOps Architect 負責定義 CI/CD 服務的流程和架構,並為技術研發提供定位。DevOps Architec t對其他角色也具有不可或缺的價值,特別是在維運流程串接方面,這需要技術工具的支持,舉例來說 CI/CD 流水線、Kafka 即時串流等,就需借重 DevOps Architect 同仁來執行這些平台的整備工作。
「Business SRE」則專注於業務流程的檢視和 SLA 的定義。他們與業務部門合作,以確保服務水平達到更加精確和合理。在銀行業中,特定日期如薪資發放日或雙 11 購物節之特殊促銷活動等都可能產生交易高峰期。有了「Business SRE」的參與,可以協助業務部門合理安排行銷和推播活動,以避免對 IT 系統資源造成過大壓力,影響交易活動的順利執行。這些不同的 SRE 角色在國泰的運營中相互協作,以確保服務的穩定性和效率。
施行 SRE 培訓計畫,突破人才招募與晉用障礙
國泰獨樹一幟的 SRE人才培訓計畫,可謂一大亮點。國泰世華中台發展部資深副理陳雅惠解釋,近年護國群山議題躍起,高科技製造業成為眾多青年嚮往的職場,產生人才磁吸效應;相形之下,金融業在 SRE 人才晉用上難免遇到困難,畢竟金融業分工與權責十分細膩。考量及此,國泰盱衡SRE人才招募與職務設計的可行性,決定透過內部培訓形式,建立自給自足人才庫。
培訓的初期階段,40 多名 SRE 同仁被分為兩梯次,接受不同類型的培訓。第一梯次的課程包括基礎教育,涵蓋 SRE 基本概念、Mindset,以及相關技術課程。這些課程旨在帶領學員理解 SRE 的執掌,瞭解落實 SRE 的過程需要結合的人文轉變,讓大家都能以正確的視野與心態從事 SRE 工作。
第二梯次的專業課程則針對不同 SRE 角色的專業需求進行更深入和細化的培訓。完成培育的 40 位 SRE 同仁將成為種子,負責將 SRE 知識傳授給部門同事或新進員工。
陳雅惠強調,國泰成立 SRE 團隊的主要動機之一是為了實現透明化。現在,當 CUBE APP 的客戶登入出現問題時,Ops SRE 能夠迅速識別問題節點,並找到對應的 SRE 角色協助解決問題。這樣的可視性提高了效率,過去需要花費 30 分鐘以上才能解決的問題,現在只需要不到 5 分鐘。
此外,透過 Metrics 的細致監控,SRE 團隊可以觀察到以前無法察覺的異常情況,例如 CUBE App 的登入時間增長,即使客戶尚未投訴,但 Metrics 提供了早期的警示,使SRE團隊能夠迅速檢查問題並進行修復。
國泰金控中台發展部協理鄭正略表示,SRE 團隊為國泰帶來三大顯著效益:強化營運穩定性和安全性,提高應變速度,優化協作
有鑑於 AI 技術更趨於成熟精進,國泰規劃導入 AI Ops技術,期望結合 AI 助力,更加提早發現潛在問題。SRE 團隊成員陳筱君說明,在 AI Ops 從旁輔助,即可幫助團隊成員從龐大的 Metrics 資訊裡,加速找出原本較難辨識的細微蛛絲馬跡,譬如一眼看穿中台上面 3、400 個服務的相依性與關聯性,順勢讓 MTTR 加速朝「個位數」分鐘降落。
鄭正略說明,2019 年成立中台時,當時日均交易量僅約 300 萬到 400 萬筆,目前隨著最熱門的 CUBE App 數位金融服務進駐中台架構,已將日均交易量大幅推升至 7,000 多萬筆;交易量不可同日而語。國泰成立的 SRE 團隊,帶來三大顯著效益:強化營運穩定性和安全性,提高應變速度,優化協作。透過六大角色的合作,監控盲點減少,減少錯誤判斷時間和平均處理時間(MTTR),確保一致標準化工具和流程,減少技術不相容,促進團隊溝通,釋放更多時間用於協作和創新。
國泰現今 SRE 種子團隊已逐漸茁壯,SRE 經驗的傳承列為核心價值之一,會以系統性手段,將相關事故紀錄、優化處理過程轉為知識庫,並搭配技術、流程、人文的全面進化,確保國泰各項數位服務都能恆常維持高效、安全、穩定運行。
熱門新聞
2025-01-10
2025-01-10
2025-01-10
2025-01-10
2025-01-10
2025-01-10