根據資通安全管理法規定,無論屬於公務機關、特定非公務機關,只要列為A級的單位,皆需設置資通安全威脅偵測管理機制,亦即 SOC,臺大醫院亦在規範之列。
在早期,臺大醫院的SOC尚未配置專門的圖像界面,因為產品一直有查找跟處理界面,但是門檻相對太高,倘若發生問題,資訊室的資訊安全組須與系統網路組協同支援,從各個硬體設備與應用系統中蒐集大量相關日誌與軌跡,再接著利用SIEM與人工報表方式呈現處理結果。
為提升系統安全與效能問題的查找及處理效率,臺大醫院自2016年起決議推動SOC升級計畫,先逐步集中收納原本遍佈於各個系統或儲存的日誌,再依據維運需求設計關聯規則、建立數據可視化系統,並於2020年邁開最關鍵一步。
當年該院確定以ELK(Elasticsearch、Logstash、Kibana)為核心,打造一套集中式圖像化日誌系統,藉由單一平臺監控臺大醫療體系的所有核心系統日誌
ELK收納範圍限核心系統,讓日誌搜尋與監控變得更簡單,以利IT人員加速發掘伺服器或應用程式當中的問題根因。
為配合ELK系統運作需求,臺大醫院亦須建構整合式儲存設備(Unified Storage),藉以承載大量日誌檔案,滿足ELK頻繁綿密的資料讀寫需求與多樣性的資料存取方式和協定。經過慎重遴選,最終由NetApp FAS8200雀屏中選。另外該院SOC也確定在2023年啟用 24/7駐點人力,屆時整體SOC架構即可臻至完備。
快取定勝負!對SOC效能影響至鉅
談到儲存設備對於圖像化日誌系統的重要性,臺大醫院資訊安全組資訊工程師祝亦明說明,ELK有一大特性,當管理者開啟儀表板查找問題的同時,ELK就會反覆對資料進行讀寫與過濾,此時儲存設備的Buffer暫存區、亦即所謂的快取機制,就顯得格外重要;倘若此機制設計不良,勢必對問題處理效率影響至鉅。
臺大醫院曾使用過多廠牌儲存設備,累積深厚的經驗,深知儲存設備若是基於什麼樣的技術架構,更易於營造較高的資料I/O效能。比方說在控制器配置快取容量,甚至在往下通往磁碟區的整串路徑中設下層層快取,便有助於提升IOPS效能;此外儲存設備廠商的作業系統及演算法,亦是另一個觀察重點,假使設計得好,即可準確地將頻繁存取與熱資料拉進快取,進一步放大加速效果。如果上述條件成立,就能輔助ELK更快速流暢地運行,所以都被臺大醫院列為評估重點。
以此次採購的FAS8200而論,為因應大量資料存取需求,配置高達24TB的快取容量,遠遠超越競品的設置規格,先天上即有顯著的競爭優勢。
若以FAS8200與一般未配置快取的儲存設備相比,優勝劣敗就十分鮮明。假設ELK欲讀取一天的日誌,一開始所有設備皆須赴底層磁碟搬移資料,大多都需要耗費約10分鐘,這段速度競爭沒有誰好誰壞、大家一樣久;但是當ELK進行後續每一步操作,FAS8200的快取就發揮極大作用,顯著的讓處理時間壓縮在2分鐘、甚至1分鐘,反觀他牌設備,針對每一步操作,仍需一再從磁碟撈資料、形成周而復始的10分鐘堆疊。所以隨著步驟越多,反映在作業效能上的落差,就會如滾雪球不斷擴大,NetApp之於SOC的存在價值,在此表露無遺。
從底層執行快照,絲毫不干擾VM運作
值得一提,臺大醫院資訊室基於資料安全保護,並且執行資料遷移、以滿足不同組別之間的協作需求,因而需要頻繁使用快照(Snapshot)、鏡射(Mirror)等軟體功能。
NetApp Snapshot係從底層直接執行,對上層應用系統運作不構成影響;但一般備份軟體引擎如需加速備份,常見做法採用Hypervisor層進行呼叫作業,容易造成VM暫停1、2秒甚或半分鐘之久,影響毫秒級的線上交易。試想此刻正在發生異常事件,ELK系統交易量密集湧入,哪怕只是毫秒級留白,都可能讓問題的追蹤進度無以為繼,更何況提供資訊服務系統的秒級或分鐘級的空窗期?因此臺大醫院選擇了最有利於SOC運作的快照技術。
祝亦明說,展望日後SOC運作,為了在安全除錯與營運之間求取最佳平衡點,若發現某系統失效,會立即調出前一份快照,掛載到新VM,接著重新註冊VM,讓既有服務正常運行,後續再好整以暇執行問題查找。整段人工作業約在15分鐘內完成,熟練一點的話甚至可壓在5分鐘內,而非像從前在方向不明下費時Debug,導致既有服務停頓近60分鐘之久。
藉由原廠的技術更新分享,NetApp另外提供更便捷的做法,僅需在SnapCenter UI點選快照、按下Restore,就自動選定Target進行Rename,再覆蓋原有VM,此舉讓服務重啟時間縮短至3分鐘,亦是值得SOC團隊嘗試啟用的可行做法。
核心系統異常,多數可在使用者無感下清除障礙
具體來說,啟動ELK與NetApp設備後,臺大醫療體系核心系統異常,為於目標規則下之問題,大致都能在5分鐘內自動化解決,即使5分鐘處理不了,後續送交系統網路組處理,也能有效減少交集系統除錯時間。與過去屢屢耗費小時以上查找問題、導致前線醫護作業受到波及的景況相比,進步幅度之大可見一斑。
不可諱言,綜觀當前SOC的各項處置措施,仍然對人工作業多所倚重,即便團隊成員對問題查找與除錯能力相當純熟,但若能讓部份原來由人來做的工作交由電腦自動化執行,勢必有助於進一步提升維運效率。
因此資訊室系統網路組陳權忠組長將審慎評估引進NetApp的ONTAP AI整合式解決方案與混合雲架構,借助高效與認證之儲存載體,快速搬遷資料且無Downtime的既有利基,順勢建立SOC維運操作面的AI分析機制、動態地提供服務,簡化資料管理,帶動安全、除錯及維運作業效能持續進化。
@特點(NetApp FAS8200導入效益)
1. 憑藉大容量快取與優異演算法,顯著提升ELK整體運作速度
2. 出現突發異常事件,可在5~15分鐘內將前一份快照掛載至新VM重啟既有服務,而非像從前耗時60分鐘緩慢Debug
3. 即便出現系統失效,自動化機制能在使用者無感前提下排除障礙,亦能大幅度簡化偵錯作業
@精選 NetApp 產品
NetApp FAS8200
熱門新聞
2024-11-05
2024-11-05
2024-11-07
2024-11-04
2024-11-02
2024-11-06