2016年,Google在舊金山碼頭旁倉庫,舉辦了第一次的全球雲端用戶大會NEXT 2016,其中有場特別的演講,Google儲存SRE團隊第一次對外亮相,吸引了滿滿的聽眾,我也是其中之一。

Google的使命是彙整全世界的資料,也打造出許多上億人,甚至是十億人使用的服務,如何確保這些服務的運作如常,Google很早就有一套自己的做法,就稱為網站可靠性工程(Site Reliability Engineering),簡稱SRE。

早在2003年,Google就設立了第一個SRE團隊,現任Google工程副總裁Ben Treynor Sloss當時負責Google搜尋服務的全天候維運工作,他提出了SRE維運理念,將「可靠性」視為「任何產品設計的最基本概念。」

但是,一直要到2016年,為了搶攻企業雲端市場,Google才開始對外公開,甚至大力推廣這套SRE方法論,還找來70名SRE團隊成員彙整了500工作年的第一手維運經驗,寫成了一本書《網站可靠性工程:Google的系統管理之道》。

那天登場的是Google儲存服務SRE部門總監Melissa Binde,她的團隊負責維運Google雲端平臺中,所有與儲存有關的服務,像是Bigtable、SQL服務、GCS等。

Melissa Binde第一句話,就吸引了全場目光,「突然發現Gmail用戶能看到他人信件內容,若你是Gmail維運人員,該怎麼辦?」她說:「正確答案是立刻關掉Gmail。」全場一片譁然。

不用通知主管,不需經過層層通報,就算這名維運人員只是剛拿到第一個月薪水的新人,只要他擔任SRE,「為了保護Google,SRE維運人員擁有做任何決定的權力,甚至必須關閉整個Google.com網站,公司高層都會支持。」一句話,點出了SRE職務對Google的重要性和影響力。

Google將網站或服務的可靠性,提升到前所未有的高度,甚至有一整套的工程方法和人員組織方式,就是要確保自家服務的正常運作,這是Google自家管理產品可靠度的方法,用來創造出一種「雲端服務永遠都會在」的使用者信賴感。

後來許多大型網路公司,科技公司競相仿效Google成立了SRE團隊,甚至隨著數位服務、數位經濟當道,許多大型傳統企業,也導入SRE來確保自家網站、數位通路、主要產品App的正常運作。

甚是不少積極發展數位金融的銀行,就像新加坡星展銀行,2019年也決定擁抱SRE,他們稱為SRE轉型,將其視為是數位轉型之後的下一個轉型戰略。「星展要將SRE視為一種規範,內化為星展的DNA。」星展集團企業架構暨SRE資深副總裁Harpreet Singh這樣對我們說。星展是全球金融界,第一批擁抱SRE的銀行。

星展集團找來各技術部門主管,如企業架構、資安部門、應用系統團隊、基礎設施團隊的主管,共同建立了一套自己的SRE發展藍圖,提出8大SRE準則,作為各部門落實的指導原則,還自行開發了多種SRE工具,例如自助式混沌工程(Chaos Engineering)服務Wreckoon、容量規畫預測AI模型、錯誤預算工具等。光是這些工具就節省了近百萬小時的維運和開發時間。

但是在臺灣,前幾年,只有網路科技公司,開始嘗試這個國外火紅的維運新方法,直到去年,開始有大型金控、零售通路,甚至今年,還看到了高科技製造業要招募SRE工程師,來維運部署在K8s上的製造生產系統,就怕系統故障影響了產線運作。SRE也成了製造業確保產線正常運作的方法。

這一期封面故事,正是介紹這一股SRE風潮開始吹進臺灣,我們不只跨海專訪新加坡星展集團SRE負責人,還歸納臺灣SRE的先行者直播平臺17Live集團和Line臺灣的SRE經驗,一窺他們如何建立網站服務信賴感的SRE專業心法。

相關報導請見

專欄作者

熱門新聞

Advertisement