圖片來源: 

攝影/余至浩

17LIVE App下載註冊用戶數超過5,000萬,遍布全球133個國家,目前全球簽約主播數約8.7萬名。為了確保服務穩定,17LIVE集團在2017年成立了SRE團隊,負責隨時洞察系統狀況,一旦發生異常,能迅速查找問題並通知各部門採取應對措施。

可是,這樣一個專門維持服務穩定性的關鍵技術團隊,幾年運作下來面臨不少挑戰,迫使SRE需要轉變,採用新思維、新檢測方式和維運做法,甚至引進生成式AI(GenAI)技術打造下一代SRE服務。

「17LIVE的SRE已經進化了。」17LIVE集團技術副總經理徐永吉在今年Hello World開發者大會上表示。他揭露了17LIVE的SRE進化過程,強調聚焦4大重點改造,更提出公司SRE 的下一步發展新方向。

徐永吉表示, SRE團隊很重要任務之一就是確保尖峰時間服務的穩定性。可是,17LIVE服務尖峰時間並非固定,而是隨著用戶行為的改變而動態調整,且流量呈逐年增長趨勢。

例如,過去流量高峰集中在晚上8點至凌晨6點,但疫情期間,居家和混合辦公模式帶來流量增長,尤其在日本,中午至下午的使用量明顯增加。隨著用戶行為變化,尖峰時間也在改變,這進一步增加了維持服務穩定性的挑戰。

SRE面對的挑戰不僅如此,隨著服務越來越多樣化、活動項目也日益複雜,對系統的穩定性的考驗也就越大,例如遇到數十萬人參加演唱會直播或是超過百萬人線上投票等活動中,龐大的人流瞬間湧入,但系統卻無法快速自動擴展以應對流量增長。此外,在系統可用性上也難以跟上公司快速發展的腳步。

甚至在尖峰時段突發事件發生時,SRE團隊通常僅採用應急方案,例如回滾系統至舊版(Rollback),以便迅速恢復服務。但是這樣的處理方式未深入分析當機的根本原因,導致類似問題反覆發生。此外,當遇到突發狀況時,SRE團隊難以透過監控系統全面掌握系統整體狀態,僅依賴Slack與客服或代理人溝通,無法充分傳遞詳細情況或後續處理計畫。再加上技術團隊與用戶對系統穩定性的認知差異,也對用戶體驗產生了負面影響,這些都成為17LIVE SRE團隊所面臨的嚴峻挑戰。

徐永吉表示,17LIVE的SRE推行「不究責」文化,在實際操作中,這樣的理念有時會與責任劃分產生衝突。當事件發生時,團隊需要思考的是,這是無法避免的不可抗力,還是其實可以預防和解決的問題?

17LIVE展開 SRE的進化,聚焦4大重點改造

為了應對這些服務維運和管理挑戰,17LIVE後來決定展開SRE的大改造,從連結(connection)、流程(process)、文化(culture)與願景(vision)四大面向著手,推動SRE的全面進化。

首先在連結性方面,SRE團隊的目標是要將將連結從混亂轉變為穩定,因此,團隊先定義出了17LIVE的服務關鍵路徑(Critical Path),包含了列出了觀眾和直播主在流量尖峰期間最常使用的功能,以及進入直播間的各種方式,並在演練過程中確保每次發生意外時,這些關鍵路徑都能得到有效保護。

優先定義服務關鍵路徑,確保關鍵路徑意外發生時都能得到保護

徐永吉表示,團隊定義了關鍵路徑,除了確保所有發布流程都經過關鍵路徑的驗證,當事件發生時,SRE和QA團隊需優先通知客服和代理人,明確告知哪些路徑可用、哪些不可用,以便直播間使用者能夠及時了解當前狀況。

更重要的是,他要求工程師在事件發生時須親自登入系統,掌握實際情況與用戶反應,確保問題得到妥善處理,以保障使用者的體驗。透過這樣的方式加強SRE與各單位和用戶之間的連結。

其次,流程方面,17LIVE從開發流程和突發事件SOP兩大流程進行改造。一方面是要建構更高效的CI/CD流程,SRE開始在模擬環境(Stage)與生產環境之間加入預生產(Pre-Production)測試,以模擬大規模流量,應對像線上演唱會等大型活動的需求,確保應用程式能夠支撐數十萬甚至百萬級人流。

他強調應預設事件隨時可能發生,因此必須構建更高效的CI/CD流程。此外,在快速迭代的過程中,SRE團隊加強安全的防護,導入了Sonar Cloud執行提交程式碼的安全檢查,接著再透過Argo CD持續交付工具將程式部署到各個測試環境。

另外,SRE團隊制定了更完整的SOP來應對突發事件,明確規範了SRE維運、工程團隊、客服和代理人等不同部門的應對流程。在這份SOP中,針對工程團隊的回應有更詳細的指示,包括回應頻率、正在處理的問題,以及預期的問題修復時間等細節,確保工程團隊與各部門能夠協調一致,快速應對突發狀況。

他表示,透過完善的SOP,能讓用戶及時了解當前狀況,包括預計復原所需的時間,這樣用戶更有可能願意留下來等待,從而降低對公司營收的負面影響。

針對短期內難以修復的重大事件,SOP中授權工程團隊負責人自行決定。他指出,SRE人員在處理突發事件時往往會承受壓力,這時就需要管理層介入,告訴他們何時該果斷決策。他強調:「當確定問題無法快速解決,甚至回復舊版也無效時,應告知所有相關人員這是個需長時間處理的問題,並迅速通知用戶,避免讓他們持續長時間等待。」

為了提前預測可能發生的異常事件,以便人員可以提早介入,最大限度地減少用戶的感知和干擾,SRE團隊還建立智慧化事件預測機制,透過系統提前預測可能發生的異常事件,在事件真正影響用戶體驗之前通知負責人員進行系統恢復。

不僅如此,SRE團隊也用AI協助異常事件的處理,盡可能縮短對服務的影響。例如推出智慧問題回報服務,讓AI從Slack中解決各類問題的歷史資訊中學習如何有效地分配任務。透過這套系統,當有人在Slack求助時,AI能根據問題描述以及團隊的工作負荷,優先推薦合適的團隊來協助解決。徐永吉表示 這種的方式大大加快問題解決的速度。此外,這套系統也應用於QA流程中,幫助人員確定解決問題的優先序。

智慧事件預測服務則是SRE團隊開發的另一個AI應用例子,該團隊利用過去的日誌數據建立預測模型,讓AI能提前預測系統可能出現的流量變化,包括異常流量堆積和過高QPS(每秒查詢次數)。同時,結合Aerobic kernel的自動阻斷機制,可以有效降低API呼叫次數,確保系統在高負載下能持續運作更長時間,讓負責人員有更多時間解決問題,避免因無法回應而導致系統當機。

徐永吉表示,通過提前預測,系統不僅能維持穩定運作,維運人員也有更多時間處理問題,從而大幅減少客訴。甚至最近他們也用它來測試服務,移除不必要的服務和資源,達到成本節省。

SRE團隊第三個改造重點是文化。他表示,SRE推行的不究責文化圍繞四個核心要素,分別是負責、用戶需求、利害關係人期待和透明性。他表示,這四個要素非常重要,尤其是透明性,當發生重大意外事故時,SRE工程師可能會花費大量時間處理問題,但如果過程缺乏透明性,沒有及時傳達訊息,溝通部門就無法妥善應對,用戶也無從得知狀況。即使最終問題解決,仍可能引發不必要的指責和誤解。

在責任方面,他強調,重點是對齊利害關係人的期待和需求,遇到系統出問題時,工程師不僅要負責恢復系統,還需要確保問題能夠徹底解決,回應利害關係人的需求。他強調:「重點不在於怪罪員工,而在想辦法解決問題。」

在期待方面,他表示,利害關係人的期望都是建立在服務穩定性,這直接關係到公司的商業洞察,因此必須做到服務穩定性的保障。而在用戶需求方面,必須深入了解用戶,才能準確掌握他們的需求。

「溝通非常重要。」徐永吉強調,因為直播是非常動態的活動,需要建立一個更好的溝通管道。尤其在用戶量龐大的情況下,更需要深入了解用戶需求,才能夠進行預測並迅速將問題解決。

在17LIVE, SRE團隊溝通核心在於服務穩定性與可信度,這兩者之間的平衡直接影響使用者體驗。因此系統也應該建立在穩定性與透明性的基礎之上。為此,他指出,SRE必須與營運單位保持緊密聯繫,了解每日活動與年度重要活動的安排,並在一開始規畫設計就考慮這些問題。

他提到最後一項SRE改造重點是願景,17LIVE的SRE願景是要能做到對事件的發生具備有預防、預測,甚至感知的能力。

17LIVE的SRE團隊很早開始提供事件預防,該團隊運用Data Lake資料湖進行資料蒐集和分析,加深對顧客、利害關係人和透明性的理解,作為預測潛在風險的重要參考,提前採取預防措施。系統不只每天會產出Bug報告,並對潛在風險發出預警,例如當禮物系統執行速度變慢時,相關人員就能及時介入修復,防止問題擴大影響。

後來進一步提供事件預測,可以偵測潛在事件和提供智慧化報告。SRE團隊還在系統中導入了部分影響控制器(Partial impact controller)功能,以便用來預測系統當機可能會引發的全面性服務當機的情況,使人員能夠有效地將影響範圍限縮在局部,而不至於擴大到全局,從而更好地維持系統的穩定性。

導入生成式AI技術,發展下一代SRE服務

近兩年竄紅的生成式AI技術, 17LIVE近來開始導入到SRE,提供全面性系統監控,了解用戶的使用情況,並先應用在客戶感知、資訊反饋和服務資訊提供上。

徐永吉表示,SRE具備有智慧化能力後,能協助17LIVE更精準地察覺顧客需求、提供完整的問題資訊,同時預防潛在風險,並在維持服務穩定性的同時,達成成本平衡的目標。

他透露17LIVE內部正在導入一套穩定性診斷服務,該服務內建4大核心引擎,可以從檢查、理解、詢問以及診斷四個面向,提供完整的系統穩定性診斷。他也以中醫的「望聞問切」來形容診斷過程,就像醫師診斷病人一樣,透過數據收集與分析,全面掌握系統狀況,並快速做出判斷和問題處理。

他提到,過去採用NLP的AI在識別直播間語音時遇到很大挑戰,因為主播經常同時對多人說話,語句表達不完整,導致內容難以辨識。但透過生成式AI技術就沒這個問題,不只可以掃描每一間直播間的狀況,並生成聲音和畫面的摘要,一旦發現有內容異常,會通知相關人員來處理。

所有資訊都會顯示在視覺化的儀表板上,讓管理者能在第一時間了解問題原因,以便迅速指派相關人員進行修復。徐永吉強調,如今系統能即時掌握直播間任何狀況,甚至在用戶尚未抱怨前,就能提前發現並處理潛在問題,達到預防效果。

甚至,SRE團隊還用GenAI分析用戶的當前痛點、問題成因,客訴及其對業務的影響,從而提升用戶體驗。

「只有當你開始感知所有系統的狀態,才能走上更好的道路。」徐永吉表示,目前SRE團隊已經在服務維運各階段逐步導入GenAI技術,並透過人工補足尚未自動化的環節,最終目標是實現感知完全自動化。

進化後,SRE團隊在事件處理周期縮短50%

17LIVE推動 SRE 再進化後,取得不少成效。在用戶層面, SRE團隊在事件處理周期縮短 50%,提升了用戶的信賴感,且使用者滿意度提升 30%,進一步增強用戶的忠誠度。在利害關係人方面,SRE團隊在事件發生時能更快掌握所有資訊,提升透明度和信賴度。對工程師來說,導入AI後生產力增加 80%,開發更具創新性,甚至工程師思維開始改變,重新思考解決問題的方法,找出最佳解法。

他表示, SRE經過改造後,不僅提高直播服務穩定性,有助於減少突發事件的發生,對服務和資源運作掌握度變得比以前更好,因此替公司預算節省 50%,同時推動營收增長,更有助於朝向以客戶為中心的方向邁進。

徐永吉提出公司SRE的發展新方向。他表示,下一步來將從資料驅動的決策模式轉向數據啟發(data-informed)的決策過程,不只將強化SRE診斷系統的設計,以獲得更好的反饋與當前狀態的洞察,還將透過連結資料湖並利用系統生成的儀表板,提供更完整的資訊與洞見,讓利害關係人和高層決策者能更快地做出正確的決策。

熱門新聞

Advertisement