數位轉型浪潮席捲,傳統維運監控無法滿足複雜多變環境;促使企業思考如何利用AI實現智能化維運監控,藉由數據分析與根因分析,即時感知系統異常,迅速做出反應,打造更具競爭力的數位營運環境。

以提供「找工作」、「找人才」及「多元服務」等產品而聞名的一零四資訊科技(以下簡稱『104』),便締造以AIOps加速維運團隊數位轉型的案例。

補強程式監控,加速事故根因分析

104資深網站可靠性(SRE)工程師林右易 (以下簡稱Robin) 表示,如何為眾多產品實施最佳監控,向來是104重視的課題。基本上內部一旦出現事故告警,隨即由一線人員判斷影響範圍,再進行通報;接著進入主要監控流程,力求10分鐘內確認事故根因,若無法達成,便升級事故處理流程,由緊急應變小組協助追查。

為確保10分鐘內迅速找出根因、解決問題,讓服務恢復正常,104不斷尋求優化之道。經過分析,104發現以往最缺乏應用程式監控,希望日後不需開發人員耗時在嵌入程式碼做後續分析,即可透過智能化軟體來達成程式監控目標。

Robin解釋,綜觀104的Observability架構,若以Monitoring、Logging及Tracing全端監控視角而論,最需精進的一環是Tracing,係因原有工具無力支援垂直監控,譬如無法從某API關聯到後台主機,導致104難以針對三項監控數據進行整合分析。故亟需建立智能化可觀測性平台,以強化應用程式監控、加速事故根因分析並改善團隊協作。

經審慎評估,104選擇引進Dynatrace方案,因為Dynatrace擁有諸多優勢,包括支持On-premise部署,僅需安裝單一Agent便涵蓋所有監控,此外Dynatrace能自動發現Process及上層API的串接方式、迅速產生相依關係圖,以及不但可提早預測問題,更借助AIOps功能加速確認根因,完全符合104期待的全端監控樣貌。

借助AIOps智能維運,大幅縮短事故時間

導入Dynatrace的AIOps智能維護平台至今,104已採用或測試多項功能,主要包含基礎架構及應用程式監控,乃至影響範圍分析。簡言之104的SRE團隊可從儀表板的紅點獲知問題發生,同步確認影響範圍,進而深入查看問題點落在哪一個服務與事故根因。

Robin接著介紹一些Dynatrace實用功能。如以Smartscape做到水平與垂直整合監控,呈現每台設備與上層Process、程式及服務之間關係,自動產生關聯圖,降低維運監控操作複雜度。此外當系統發生問題,便透過Problems呈現問題描述、影響哪些服務、問題根因、開始與持續時間。

另針對進階Code Level部分,Dynatrace會自動追蹤程式卡在哪一階段,並分析可能運用什麼SQL語法而導致問題發生;以往若非針對每一個請求或細節產生Log,絕對無法像Dynatrace般指明API Code Flow卡在哪一段。

總括而論。藉由智能化監控軟體,協助104做到異常偵測與動態水位調整,提早預警與預防;其次是以往做不到的深入開發部分,瞭解程式如何撰寫,加速應用程式分析;接著自動快速定位問題及分析根因,縮短事故時間;以及得力於智能化與自動化維運管理,減少維運、開發及操作管理等的人力成本。

歡迎加入 104 一同參與令人收穫滿滿的旅程:

DevOps工程師 : 了解更多,請按此

PHP全端開發工程師 : 了解更多,請按此

Java全端開發工程師 : 了解更多,請按此

熱門新聞

Advertisement