機器學習技術越來越成熟,也被應用在更多重要的情境中,機器學習模型不能再被當作一個黑盒子使用,開發者需要了解其中運作的細節,因此機器學習的可解釋性與評估工具逐漸受到重視。Google現在釋出一個稱為ML-fairness-gym的工具,讓用戶建構簡單的模擬,以探索機器學習決策系統,在社會環境中的潛在長期影響。

Google提到,當機器學習被用來輔助刑事判決、兒童福利評估和醫療救助等高影響力的決策時,了解系統是否公平成為非常重要的工作。而目前許多現有的機器學習工具,包括AIF360、Fairlearn、公平性指標和公平性比較等,這些都只能用在簡單環境的系統,在部分情況下,演算法執行的環境以及時間等背景因素,才是了解演算法影響的重點。

ML-fairness-gym是一個長期分析模擬工具,使用Open AI的Gym框架模擬序列決策,在這個框架中,代理(Agent)與模擬的環境互動,在互動循環中的每個步驟,代理會選擇一個能影響環境狀態的操作,接著環境會揭露代理影響後續行動的觀察資訊。

Google提到,評估機器學習系統公平性的標準做法,是拿系統一部分的資料作為測試資料集,用來計算相關的指標,透過查看指標在不同群體間的差異以評估公平性。

但在具有回饋能力的系統中使用這樣的測試集,存在兩個主要的問題,當測試資料集是從現有系統產生的,則可能不完整,或是存在這些系統固有的偏差,第二個問題則是,機器學習系統的輸出,可能會對未來的輸入產生影響。這些問題顯示出,靜態資料集來評估演算法公平性的缺點,也刺激了部署動態系統評估演算法公平性的需求。

Google使用ML-fairness-gym來分析銀行借貸,這是機器學習公平性的經典案例。以ML-fairness-gym分析利潤最大化政策與機會均等兩個銀行貸款政策,Google發現,機會均等政策有時候會為弱勢族群,提供高於利潤最大化政策的閾值,也就是說,弱勢族群能夠得到更多的貸款幫助,但是長期來說,機會均等政策會使得弱勢團體的信用分數,比對照組下降更多,而造成兩組信用分數差距比使用最大獎勵政策還要大。

雖然要比較那個政策對於弱勢族群較好,需要看對於福利指標的定義,究竟是較高的信用評分,還是較多的總貸款,但以ML-fairness-gym進行長期分析,可以知道機會均等政策對弱勢族群的影響大於利潤最大化政策。

另一個發現則是,機會均等政策的敏感度指標,會不斷地變動,這是有別以往的認知,而這證明當基礎人群不斷發展的時候,機會均等政策的指標會變得難以解釋,銀行應該進行更仔細的分析,才能確保機器學習系統能獲得理想的結果。


Advertisement

更多 iThome相關內容