隨著數位轉型、多雲原生新浪潮崛起,在大勢所趨下,促使SRE(Site Reliability Engineering,服務可靠性工程師)在各行各業遍地開花,吸引越來越多企業導入,近年大力推動IT轉型的國泰世華銀行亦著手打造SRE團隊,協助SRE導入與落地。國泰世華銀行近期在首屆SRE CONFERENCE中,分享IT團隊從導入PaaS平台,到成立SRE團隊的必要性,以及這樣的新角色又如何融入既有維運團隊的相關秘辛。

國泰世華於2016年導入PaaS,在平台就緒的前提下,隔年開始試行輕量微服務,爾後更嘗試以微服務串接核心後台,2018年進化企業應用整合(EAI)平台為中台整合架構,以因應越來越多樣化的交易行為與遽增的交易量。為了減少核心系統的負擔,特別將分散在外圍系統的業務邏輯集中到中台,因此於2019年初成立中台發展部,負責設計中台架構與服務,導入容器、微服務等技術,甚至進一步發展雲原生架構的策略。也是從此時開始,維運團隊中增添了SRE生力軍,負責監控和觀測各項金融服務的運作狀況。

SRE團隊靠5大作法維持系統穩定性

身為SRE的工作者,必須隨時擁抱變化,同時確保服務穩定。SRE與維運工程師的差異,在於過往維運工程師的工作,是當系統出狀況時趕緊排除障礙;反觀SRE則需往前延伸、做更多工作,比方說設計一套監控機制,以發揮早期預防的功效,甚至參與部分系統架構的設計,舉例來說,當後台應接不暇時,SRE角色可建議設立熔斷機制,讓後續的前端需求不再送往後台,而是自動導向中台處理,確保整體服務體驗維持在一定水準。

SRE團隊的任務不只是維運,主要範疇分為5大項目:監控、CI/CD、壓測、資源配置、事故處理,以維持系統穩定性。此外,SRE團隊還負責平台維運發展,特別聚焦在雲平台、Kubernetes相關領域。

運用三大工具監控平台整體資源

SRE團隊需先建置足以綜觀全局的服務儀表板,掌握平台整體資源,才能在問題發生時,透過儀表板主動通知的功能,在第一時間加速查找原因並排除問題。目前,SRE團隊已監控國泰世華銀行逾600支服務。而用於監控三大精選工具,第一個工具是Prometheus,可協助SRE確實掌握系統資源使用狀況;尤其Prometheus在歷經改版後,已可精準對應到各個Pod上面的CPU、記憶體用量。

第二套監控工具為Graylog,Graylog除方便搜尋外,同時具備告警通知功能,用戶可訂定許多告警條件來觸發通知,便於SRE及時探索事件根因。

第三套監控工具則是Grafana視覺化分析工具,提供基本文字、圖表、表格等豐富面板選項,且能串接多元數據來源,使SRE得以快速彙整出所需儀表板,不必麻煩UI/UX同仁協助開發顯示介面。以國泰世華的應用場域舉例,說明監控工具的使用情境,譬如透過相關工具監測工作節點的CPU與記憶體用量,並檢視多個工作節點的連線是否有不平均現象。

國泰世華SRE團隊除了將持續精進平台上的維運、過版、監控與緊急事件處理等工作效能外,同時也加強與開發人員間的溝通,透過觀念建立,讓對方更理解SRE、更願意與SRE相互配合,加速推動監控面板優化、線上服務優化,以持續精進監控與維運的發展。

熱門新聞

Advertisement