Google開源半監督式框架SPADE，即使標記資料不足也可高效偵測異常

Google開源了一個稱為SPADE（Semi-supervised Pseudo-labeler Anomaly Detection with Ensembling）半監督異常偵測框架，這個方法的優勢在於，能夠克服其他半監督異常偵測方法的缺點。SPADE只需要少量已標記與大量未標記資料，即可高效地偵測異常。

異常偵測應用範疇很廣，包括API安全、金融詐欺、製造缺陷等領域，皆可透過辨識資料和預期模式的不同，來找出異常項目。SPADE是Google所開發的高效異常偵測方法，其使用一組單類分類器（One-Class Classifiers，OCCs），作為虛擬標籤器和監督分類器，特別適合已標記與未標記樣本數量存在分布差異的資料集。

由於建立大規模標記資料集的過程不只耗時且成本昂貴，而SPADE利用半監督學習方法，僅需少量標記資料即可達到良好的偵測效果，進而降低資料標記成本。

研究人員也解釋，大多數半監督式方法假設已標記和未標記資料來自相同的分布，也就是已標記和未標記資料由相同的來源或是機制生成，具有相似的分布特性和模式。但是實際情況通常並非如此，已標記資料可能僅包含一種類型的異常，但是未標記資料卻包含多種類型的異常，或是標記資料僅包含易於標記的樣本。

SPADE能夠解決大多數半監督式方法的缺陷，其運作方式是先使用多個單類分類器來學習資料中正常樣本的特徵，接著這些分類器分別對未標記的資料進行預測，生成虛擬標籤，猜測異常與正常的資料，但只有當所有分類器一致認為特定樣本為異常時，才會真正將其標記為異常。通過虛擬標籤以及原始標記資料，一起訓練監督異常模型，完成訓練後，該模型便可用於偵測新資料中的異常。

簡單來說，SPADE透過猜測異常樣本，並利用猜測結果與標記資料一起訓練模型，實現更高效精確的異常偵測。

熱門新聞