國泰世華打造SRE專業團隊，精進雲平台監控與維運

隨著數位轉型、多雲原生新浪潮崛起，在大勢所趨下，促使SRE（Site Reliability Engineering，服務可靠性工程師）在各行各業遍地開花，吸引越來越多企業導入，近年大力推動IT轉型的國泰世華銀行亦著手打造SRE團隊，協助SRE導入與落地。國泰世華銀行近期在首屆SRE CONFERENCE中，分享IT團隊從導入PaaS平台，到成立SRE團隊的必要性，以及這樣的新角色又如何融入既有維運團隊的相關秘辛。

國泰世華於2016年導入PaaS，在平台就緒的前提下，隔年開始試行輕量微服務，爾後更嘗試以微服務串接核心後台，2018年進化企業應用整合（EAI）平台為中台整合架構，以因應越來越多樣化的交易行為與遽增的交易量。為了減少核心系統的負擔，特別將分散在外圍系統的業務邏輯集中到中台，因此於2019年初成立中台發展部，負責設計中台架構與服務，導入容器、微服務等技術，甚至進一步發展雲原生架構的策略。也是從此時開始，維運團隊中增添了SRE生力軍，負責監控和觀測各項金融服務的運作狀況。

SRE團隊靠5大作法維持系統穩定性

身為SRE的工作者，必須隨時擁抱變化，同時確保服務穩定。SRE與維運工程師的差異，在於過往維運工程師的工作，是當系統出狀況時趕緊排除障礙；反觀SRE則需往前延伸、做更多工作，比方說設計一套監控機制，以發揮早期預防的功效，甚至參與部分系統架構的設計，舉例來說，當後台應接不暇時，SRE角色可建議設立熔斷機制，讓後續的前端需求不再送往後台，而是自動導向中台處理，確保整體服務體驗維持在一定水準。

SRE團隊的任務不只是維運，主要範疇分為5大項目：監控、CI/CD、壓測、資源配置、事故處理，以維持系統穩定性。此外，SRE團隊還負責平台維運發展，特別聚焦在雲平台、Kubernetes相關領域。

運用三大工具監控平台整體資源

SRE團隊需先建置足以綜觀全局的服務儀表板，掌握平台整體資源，才能在問題發生時，透過儀表板主動通知的功能，在第一時間加速查找原因並排除問題。目前，SRE團隊已監控國泰世華銀行逾600支服務。而用於監控三大精選工具，第一個工具是Prometheus，可協助SRE確實掌握系統資源使用狀況；尤其Prometheus在歷經改版後，已可精準對應到各個Pod上面的CPU、記憶體用量。

第二套監控工具為Graylog，Graylog除方便搜尋外，同時具備告警通知功能，用戶可訂定許多告警條件來觸發通知，便於SRE及時探索事件根因。

第三套監控工具則是Grafana視覺化分析工具，提供基本文字、圖表、表格等豐富面板選項，且能串接多元數據來源，使SRE得以快速彙整出所需儀表板，不必麻煩UI/UX同仁協助開發顯示介面。以國泰世華的應用場域舉例，說明監控工具的使用情境，譬如透過相關工具監測工作節點的CPU與記憶體用量，並檢視多個工作節點的連線是否有不平均現象。

國泰世華SRE團隊除了將持續精進平台上的維運、過版、監控與緊急事件處理等工作效能外，同時也加強與開發人員間的溝通，透過觀念建立，讓對方更理解SRE、更願意與SRE相互配合，加速推動監控面板優化、線上服務優化，以持續精進監控與維運的發展。

熱門新聞