攝影/翁芊儒
曾在2018年全球三大電腦視覺會議CVPR的偽人臉辨識競賽中,帶領臺大團隊奪冠的臺大資工系教授徐宏民,今日與科技部共同發表全球首創可解釋性人臉辨識技術,稱為xCos(Explainable Cosine)模組,率先將可解釋性AI(Explainable AI,XAI)技術應用在人臉辨識領域中。而且,徐宏民團隊更將這個技術開源釋出,提供國內外產學研單位使用,除了在人臉辨識領域產品化,讓不同臉辨AI模型可以結合xCos來解釋決策原因,團隊也正試著與其他領域的AI模型結合,比如金融借貸信評、醫療影像辨識、能源節電預測模型等。
徐宏民表示,當初團隊會注意到人臉辨識XAI的議題,是在與幾家軟硬體公司合作開發人臉辨識產品時,在深度學習模型的設計過程,發現某些AI辨識結果與人為直覺判斷的結果不同,使團隊開始在意,AI的決策依據是什麼?為了解決這個問題,團隊費時一年多開發了xCos模組,來解釋兩張人臉比對後,AI判斷為同一人或是不同人的決策原因。
由於一般人在比對兩張圖是否為同一張時,會直覺的比較五官差異,以部位的相似度為判斷依據,因此,團隊開發的xCos模組也提供符合人類直覺的判讀方法,透過擷取兩張影像的特徵值來生成兩張圖,一張為格狀餘弦相似度圖(Patched Cosine Map),以顏色深淺來呈現圖像相似或不相似之處,另一張是注意力圖(Attention Map),同樣以顏色深淺來呈現哪些部位是影響決策的關鍵。接著,再將兩個結果進行矩陣運算,來得到最後的相似度分數(xCos)。
團隊開發的xCos模組可生成兩張圖,來輔助人解釋AI決策的依據。
舉例來說,以下圖這張網球運動員Roger Federer的照片為例,左邊的格狀餘弦相似度圖中,藍色越深代表兩張圖片越相近的位置,粉色越深則代表越不相近的位置,可以明顯發現,頭髮位置受裝扮影響為全圖最不相似之處。而在右邊的注意力圖中,則是透過綠色的深淺,代表影響AI判斷的重要程度,這張圖中,不難發現AI是以鼻梁及臉部下半部作為判斷依據。透過這種圖像化的解釋方式,就能進一步指出兩張人像的差異點與相似點,以及AI根據哪些特徵來做判斷。
左邊的格狀餘弦相似度圖中,藍色越深代表兩張圖片越相近,粉色越深則代表越不相近之處;而右邊的注意力圖中,則是透過綠色的深淺,代表影響AI判斷的重要程度。
而且,在AI模型中嵌入xCos模組,不只可以用來解釋AI決策原因,徐宏民更指出,透過xCos算出的相似度分數,甚至能比原先的AI預測結果更準確。同時,藉由xCos的可解釋性,還能讓其他人在開發AI人臉辨識模型過程中,能更直觀的驗證演算法的決策是否正確,換句話說,「xCos可以幫助人臉辨識技術的開發。」
xCos模組的另一個優勢,則是能自動辨識人臉不自然的表面,聚焦在其他可辨識的人臉部位上,來提高偽臉辨識的準確率。徐宏民解釋,這是因為一般的人臉辨識,是提取整個臉部的特徵值來進行比對,一旦遇到口罩、眼鏡等遮蔽臉部部位的情況,就很容易因比對結果差距太大而無法驗證通過。但xCos會自動學習並調整提取特徵值的部位,比如說,判斷出未被口罩遮蔽的部位來進行比對,達到偽裝人臉辨識的效果。
不管是戴假髮或眼鏡,xCos模組可以自動判斷並調整提取特徵值的部位,來提高偽臉辨識的準確率。
徐宏民也指出,相對於XAI較知名的LIME技術,xCos模組是為深度學習模型所設計的XAI技術。LIME是透過干擾一筆訓練資料中的局部特徵(features),來觀察是否會影響預測結果,藉此判斷訓練資料中的哪些特徵,對於模型決策有更關鍵的作用。不過,現在深度學習模型中的參數,動輒上千、上萬、甚至上億個,要調整大量參數才能找出影響結果的關鍵特徵,「在現實的深度學習是不可行的,因為你要調的東西太多了,LIME用來解釋小模型比較容易。」
且在LIME技術中,雖然可以找出圖片中的哪些特徵對於預測結果更重要,但為什麼相似度是75%,不是85%、95%?LIME無法解釋。不過,徐宏民說,透過xCos模組的矩陣運算過程,能呈現信心值如何被計算出來,更適合用於深度學習模型。
目前,xCos模組已在GitHub開源釋出,提供國內外產學研單位使用,已經在人臉辨識實作出可用的模組版本,能嵌入不同人臉辨識AI模型中,來解釋不同模型決策的原因。同時,徐宏民的團隊也正試著將這個可解釋AI模組應用到其他領域,包括金融領域的借貸信評模型、醫療領域的肝癌影像辨識模型、能源領域的節電預測模型等,但因資料類型不同、解釋方式也需要調整,團隊也還在嘗試xCos模組能否成功擴大應用。
實際Demo,透過左邊的攝影機拍照後,可以立即與資料庫比對出身份,並呈現相似之處與判斷依據。圖以科技部部長陳良基為例,在戴假髮與口罩的情況下,還能成功辨識。
熱門新聞
2025-01-20
2025-01-20
2025-01-20
2025-01-20
2025-01-20