Google開源了一個稱為SPADE(Semi-supervised Pseudo-labeler Anomaly Detection with Ensembling)半監督異常偵測框架,這個方法的優勢在於,能夠克服其他半監督異常偵測方法的缺點。SPADE只需要少量已標記與大量未標記資料,即可高效地偵測異常。

異常偵測應用範疇很廣,包括API安全、金融詐欺、製造缺陷等領域,皆可透過辨識資料和預期模式的不同,來找出異常項目。SPADE是Google所開發的高效異常偵測方法,其使用一組單類分類器(One-Class Classifiers,OCCs),作為虛擬標籤器和監督分類器,特別適合已標記與未標記樣本數量存在分布差異的資料集。

由於建立大規模標記資料集的過程不只耗時且成本昂貴,而SPADE利用半監督學習方法,僅需少量標記資料即可達到良好的偵測效果,進而降低資料標記成本。

研究人員也解釋,大多數半監督式方法假設已標記和未標記資料來自相同的分布,也就是已標記和未標記資料由相同的來源或是機制生成,具有相似的分布特性和模式。但是實際情況通常並非如此,已標記資料可能僅包含一種類型的異常,但是未標記資料卻包含多種類型的異常,或是標記資料僅包含易於標記的樣本。

SPADE能夠解決大多數半監督式方法的缺陷,其運作方式是先使用多個單類分類器來學習資料中正常樣本的特徵,接著這些分類器分別對未標記的資料進行預測,生成虛擬標籤,猜測異常與正常的資料,但只有當所有分類器一致認為特定樣本為異常時,才會真正將其標記為異常。通過虛擬標籤以及原始標記資料,一起訓練監督異常模型,完成訓練後,該模型便可用於偵測新資料中的異常。

簡單來說,SPADE透過猜測異常樣本,並利用猜測結果與標記資料一起訓練模型,實現更高效精確的異常偵測。

熱門新聞

Advertisement