機器學習不是萬靈丹，用對才有效，趨勢資料科學家揭露網路威脅分析更聰明的關鍵架構

圖片來源:

攝影＿洪政偉

AlphaGo戰勝琪王，讓AI聲勢創新高，許多應用紛紛都看到了機器學習的身影，但是，機器學習真的什麼問題都能解決嗎？棋步可用輸贏機率來斷定優劣，AlphaGo有效運用蒙地卡羅樹狀搜尋演算法（Monte Carlo Tree Search，MCTS）就能找出致勝下法，但趨勢科技研究開發部資料科學家張佳彥認為：「資安威脅是一種複雜問題，」無法用一套標準或制式定義來衡量，因此，在資安分析中，「偵測的檔案，沒有確切的真實數值（Ground Truth），不能單靠機器學習，還得搭配其他技術才能解決複雜問題！」他說。像是趨勢科技就利用了雜訊消除（Noise Cancellation）技術，將威脅分析簡化到機器學習有能力處理的維度。

導入機器學習技術，解決分類誤判是首要任務

張佳彥表示，想靠機器學習做到自動偵測網路威脅的關鍵是如何降低誤判率，在機器學習術語來說，就是要降低FA比率（False Alarm,簡稱FA，意指出現問題程式的警告）。傳統威脅偵測利用特徵值來分辨，誤判率是千萬分之一，也就是說掃描了1千萬個檔案後，將一個正常檔案標記為惡意檔案，就算出現一次誤判。張佳彥表示，目前機器學習分析能力來看，誤判率介於千分之一到萬分之一之間，也就是掃描1萬個檔案，最多可能出現10次誤判。因為電腦內部系統檔案多，且惡意程式罕見，得掃描數萬個檔案才會找到1個惡意程式，以這個機器學習模型的誤判程度來看，也會同時找到最多20個誤判的正常檔案。但若用同樣的機器學習模型，來偵測從網頁下載的檔案，只要掃描幾百個檔案就可能會找出一個惡意程式，這時的誤判比例只有0.1～0.01（掃描100個檔案x原始0.0001的誤判率=0.01）。張佳彥認為：「對企業來說，這才算是有意義的分析結果，而不是找出一堆的正常的檔案卻都通報成惡意程式。」

張佳彥指出，同樣機器學習模型，放在不一樣的場景會有不同的結果，越可疑的環境越有效果。如何將機器學習應用在惡意程式出現頻率高的環境，才是成功找出威脅的關鍵。不過，就算是靠專家人為威脅分析，也會有失準的時候，甚至得從可疑檔案執行後，是否進一步下載惡意程式，才能斷定，「要能自動偵測惡意程式，又要期望沒有誤判是不可能的。」他說。所以，張佳彥運用機器學習技術的策略是，第一是得避免誤判結果傷害到用戶，第二則是出現誤判時能快速修正。

另外，想要優化機器學習的模型，要快速地收集大量的數據，機器學習模型才有能力繼續辨識最新的病毒，對使用者來說，至少每個月要更新一次模型，他也補充說明，趨勢科技策略是不斷地訓練不同的機器學習模型，再評估是否比既有模型更好，訓練模型約幾個小時，一天其實可以訓練出好幾個新模型，但真正費時的是評估新模型的效果。除此之外，「模型的可見度（Model Visibility）也是很重要的」，張佳彥表示，例如突然發現大量FA誤報時，可能是新的模型失真所致，資料科學家得即時發現問題來修正。

趨勢採用雜訊消除技術，助機器學習提高偵測效果

為了改善機器學習自動偵測的品質，張佳彥表示，趨勢科技搭配了3種雜訊消除（Noise Cancellation）的作法。他解釋，包含了通道（Channel）、普查（Census）和簽章（Signer）。Channel是只用機器學習預測掃描可疑的來源，像是網頁或是電子郵件下載的檔案，而非所有檔案都偵測。其次是建立普查紀錄系統（Census），將已經分析過的檔案建檔，再遇到同樣的威脅特徵就能自動篩選，而不用透過機器學習模型分析，也在此系統增加更多細節資訊，像是第一次出現的時間，來進行長期比較。第三個消除雜訊的方法是利用簽章作為標籤，待分析的目標檔案若沒有簽章，或是檔案提供來源不是系統信任的來源，代表這個檔案的可疑性較高，才作為機器學習模型的分析目標，其餘可信任的檔案則可排除。「透過雜訊消除方法，才能將機器學習應用在對的地方」，張佳彥表示。

漏斗型分層式防護架構，整合機器學習與雲端威脅分析

不過，機器學習只是趨勢防護架構的其中一環，張佳彥表示，趨勢採用了漏斗式的分層式防護架構，分為4層，上兩層是用於還未執行的靜態檔案，下兩層則針對檔案執行的行為來判斷。第一層是利用現有的技術，包括網頁和檔案評價防護系統、漏洞防護系統（Exploit Prevention）和應用控制（Application Control）等，來過濾出已知的正常檔案或惡意檔案。
未知檔案的處理則要再進入第二層處理，趨勢正是利用機器學習搭配雜訊消除作法來分析未知的檔案威脅。為了能夠快速地更新和改善模型，在這一層的分析都送到雲端平臺處理。如果目標檔案通過了前兩層分析，就會送到第三層執行並監控後續的行為，在第三層分析中，趨勢利用了大量專家規則（Expert Rule），來產生一套可疑行為的判斷規則，也用來來偵測目標檔案是否具有惡意的傾向，若發現了可疑行為的程式，再將該檔案送到第四層，利用機器學習分析這個檔案的行為，來判定這樣的行為是否具有威脅，若是，就可以將這個檔案判斷為惡意程式。

圖片來源：趨勢科技

（勘誤：傳統威脅偵測利用特徵值來分辨，誤判率是千萬分之一，也就是說掃描了1千萬個檔案後，將一個正常檔案標記為惡意檔案，就算出現一次誤判。）

導入機器學習技術，解決分類誤判是首要任務

趨勢採用雜訊消除技術，助機器學習提高偵測效果

漏斗型分層式防護架構，整合機器學習與雲端威脅分析

熱門新聞